Los investigadores de Microsoft publicaron un artículo esta semana sobre VASA-1, una nueva herramienta de IA que puede generar un vídeo convincente de alguien hablando, usando sólo una imagen fija. planea lanzar la nueva herramienta al público, pero es bastante impresionante. Bueno, es impresionante si no miras demasiado de cerca los dientes. Sólo eche un echa un ojo a esos mordedores.
El modelo VASA-1 funciona tomando cualquier fotografía de un rostro humano o, en los ejemplos, publicado por Microsoft, una cara generada por IA de alguien que en realidad no existe y, después de recibir un archivo de audio, puede producir un vídeo sincronizado que Incluye matices faciales y movimientos de aspecto natural.
Nuevamente, todo es bastante impresionante, como se puede ver en uno de los videos que Microsoft proporciona a continuación. Pero la única área donde VASA-1 parece tener dificultades para renderizar los dientes. Si te concentras en los dientes, pueden obtener una calidad caricaturesca, apareciendo ligeramente animados en un manera que no encaja del todo con la cualidad hiperrealista de todo lo demás.
Los dientes extraños del video se vuelven aún más evidentes cuando ralentizas todo, como lo hizo Gizmodo en el GIF a continuación. (Puede Casi te hace sentir mal desmenuzar la apariencia de alguien hasta que recuerdas que la persona de abajo literalmente no existe.)
Otro vídeo de ejemplo proporcionado por Microsoft, que aparece a continuación, muestra cualidades similares a las de los dibujos animados en los dientes, aunque otras características parecen muy realistas. especialmente cuando recuerdas que el único material fuente es una imagen estática y un archivo de audio.
Por alguna razón, los dientes en los videos que muestran a hombres eran un poco menos notorios, tal vez porque el modelo no mostraba a los hombres abriendo la boca. igualmente amplio al hablar. Pero cualquiera que mire de cerca todavía puede tener la sensación de que algo no está del todo bien aquí.
Una de las cosas más interesantes observadas por los investigadores es que su modelo puede producir vídeos de calidad relativamente alta y muy rápidamente, algo que otras IA generadores como Sora de OpenAI Según se informa, han tenido problemas. De hecho, el documento señala una latencia de solo 0,17 segundos en una PC de escritorio con una sola NVIDIA. RTX 4090 GPU.
Y esa velocidad es algo que puede ofrecer vídeos instantáneos para una variedad de aplicaciones, como servicios de traducción en tiempo real.
“Nuestro método no solo ofrece alta calidad de video con dinámicas faciales y de cabeza realistas, sino que también admite la generación en línea de videos de 512x512 en Hasta 40 FPS con latencia inicial insignificante. Allana el camino para interacciones en tiempo real con avatares realistas que emulan la conversación humana. comportamientos”, se lee en el nuevo periódico.
Los investigadores son claramente conscientes de los peligros de este tipo de tecnología, lo que tal vez explica por qué Microsoft no ha anunciado planes para acelerarla. Sin embargo, los investigadores también han identificado casos de uso que creen que serán útiles para la humanidad.
“Los beneficios, como mejorar la equidad educativa, mejorar la accesibilidad para personas con dificultades de comunicación, ofrecer compañía o apoyo terapéutico a quienes lo necesitan , entre muchas otras, subrayan la importancia de nuestra investigación y otras exploraciones relacionadas. Estamos dedicados a desarrollar la IA de manera responsable, con la objetivo de promover el bienestar humano”, se lee en el documento.
“Dado este contexto, no tenemos planes de lanzar una demostración en línea, API, producto, detalles adicionales de implementación o ninguna oferta relacionada hasta que estemos seguros de que la tecnología se utilizará de manera responsable y de acuerdo con las regulaciones adecuadas”.
Probablemente sea una buena idea, dada la número de estafas eso es posible con este tipo de tecnología. Después de todo, las elecciones presidenciales de 2024 en Estados Unidos faltan sólo siete meses. Y el amenaza del fascismo a nivel mundial No está desapareciendo pronto. La humanidad realmente se siente impotente contra las falsificaciones generadas por IA en este momento. Y las grandes empresas como Microsoft deberían probablemente hagan todo lo que esté a su alcance para limitar el daño potencial antes de que prácticamente todo lo que hay en Internet se convierta en una falsificación.
Una versión de este artículo apareció originalmente en Gizmodo.
Este contenido ha sido traducido automáticamente del material original. Debido a los matices de la traducción automática, pueden existir ligeras diferencias. Para la versión original, haga clic aquí.