El vídeo con IA se vuelve real

Will Smith comiendo espaguetis se ha convertido en la historia de éxito más extraña de la tecnología.

En 2023, un Vídeo del actor generado por IA Sorber pasta se volvió viral por todas las razones equivocadas. El clip, creado por un modelo de IA temprano llamado ModelScope, mostraba una figura de pesadilla que se parecía vagamente a Smith destrozando grotescamente fideos con movimientos imposibles de las manos y contorsiones faciales. Era tan obviamente falso e inquietante que El propio Smith lo parodió. Casi un año después, convirtiendo el fracaso de la IA en un meme.

Ese horrible clip de pasta se ha convertido desde entonces en un punto de referencia informal para el progreso del video con IA, una prueba estándar que los desarrolladores e investigadores usan para medir cuánto ha avanzado la tecnología. Es el equivalente en video con IA a pedirle a un chatbot que tome el LSAT o resuelva un problema de matemáticas.

Adelantándonos al mes pasado, cuando Google $GOOGL presentó Veo3, su último modelo de texto a video, que puede generar un doppelganger convincente de Will Smith que gira suavemente linguini —completo con sonidos de masticado. ¿El único problema? La IA piensa que los espaguetis hacen ruidos de crujido, como comer papas fritas. Es un pequeño fallo que revela cuánto hemos viajado en menos de dos años, desde un espectáculo de terror digital a una imitación casi perfecta con solo pequeñas peculiaridades de audio.

El viaje desde la pesadilla de los espaguetis hasta el deepfake convincente ocurrió a través de una serie de avances rápidos en 2024. SORA de OpenAI, lanzado a principios de año, podría generar Imágenes fluidas y cinematográficas, pero que permanecieron en silencio —esencialmente GIFs de alta calidad. La generación cinematográfica de Meta $META seguido de una mejor consistencia de carácter en clips más largos. Veo2 de Google mejorado en ambos pero aún no podía producir sonido. Cada modelo representaba un progreso incremental, pero ninguno preparó a los observadores para la súbita integración de audio sincronizado, diálogos realistas y efectos de sonido ambientales de Veo 3.

Esta no es la marcha constante del progreso tecnológico a la que estamos acostumbrados. Es un salto de acantilado que ha dejado a expertos, cineastas y a la sociedad luchando por comprender qué acaba de suceder. El salto repentino de videos de IA obviamente falsos a contenido sintético casi indistinguible representa uno de los saltos de capacidad más dramáticos en la historia tecnológica reciente.

Un lugar donde se está adoptando es Hollywood. Los ejecutivos de los medios que se sentaban nerviosos en las audiencias de conferencias tomando notas sobre la experimentación con IA hace tan solo unos años están Ahora discutiendo públicamente su uso activo de estas herramientas. Amazon $AMZN Studios habló recientemente abiertamente sobre la integración de IA generativa en sus procesos creativos, lo que marcó lo que un experto de la industria llamó “un momento de lucidez” en el que la tecnología se volvió demasiado útil como para ignorarla. El cambio tiene sentido: cuando los costos diarios de rodaje alcanzan los 200 000 dólares en Los Ángeles y las casas de efectos visuales tradicionales están cerrando, la IA no es solo innovación, es supervivencia.

Pero la verdadera disrupción no está sucediendo en las salas de juntas de los estudios. Está en la completa democratización de la sofisticada manipulación de video. Lo que una vez requirió equipos de artistas de efectos visuales, software costoso y presupuestos hollywoodenses, ahora puede ser logrado por cualquiera con $1.50 y una conexión a Internet. La estructura de precios de Veo3 pone la creación de videos falsos convincentes al alcance de prácticamente todos, derrumbando barreras que anteriormente servían como salvaguardas naturales contra la manipulación generalizada de los medios.

La amenaza ya se estaba materializando para las imágenes. A partir de 2023, Tom Hanks ha advertido repetidamente Sus seguidores de Instagram sobre videos generados por IA que usan su imagen falsamente para promocionar curas milagrosas y medicamentos milagrosos. El Departamento de Seguridad Nacional ha identificado Los deepfakes como una “amenaza creciente” observando que los medios sintéticos no necesitan ser particularmente avanzados para ser efectivos, solo necesitan explotar “la inclinación natural de las personas a creer lo que ven”. Este último salto en la calidad del video solo acelerará el problema, haciendo que el engaño sea más barato, más rápido y más accesible.

La tecnología aún muestra limitaciones. Si bien las demostraciones virales que circulan en línea parecen impecables, Una experimentación más profunda revela que Veo 3 tiene dificultades con la coherencia y, a menudo, ignora las indicaciones por completo. Los mejores modelos tienen barandillas que no permiten crear vídeos que muestren personas reconocibles. Pero el ritmo de avance sugiere que incluso las peculiaridades actuales pronto quedarán obsoletas. Y las barandillas tienen una forma de ser desmanteladas, dejándonos con contenido generado por IA que es funcionalmente indistinguible de la realidad.

La cuestión no es si podemos confiar en lo que vemos y oímos, sino si podemos confiar en quién nos lo muestra. En una época en la que la manipulación sofisticada de vídeo cuesta menos que un café, la credibilidad se ancla no en el medio, sino en el mensajero. La repentina maduración de la tecnología de vídeo con IA ha comprimido lo que muchos esperaban que fuera una adaptación social de una década en una crisis inmediata de verificación, lo que nos obliga a reconstruir los sistemas de confianza que asumían que ver era creer.

—Jackie Snow, editora colaboradora

El vídeo con IA se vuelve real

Pero lo que viene después no será.

📬 Suscríbete al resumen diario

Nuestro informe gratuito, rápido y divertido sobre la economía mundial, entregado todas las mañanas de los días laborables.

Contenido Relacionado