Se acaba de lanzar una nueva e increíble herramienta de IA generativa microsoftSe trata de VASA-1, un modelo de imagen a vídeo que, a partir de una única imagen y un clip de audio, puede generar imágenes sorprendentemente realistas, con movimientos y expresiones de labios realistas.
“Presentamos VASA, un marco para generar caras parlantes realistas de personajes virtuales con atractivas habilidades afectivas visuales (VAS), a partir de una única imagen estática y un clip de audio hablado. Nuestro primer modelo, VASA-1, es capaz no sólo de producir movimientos de labios exquisitamente sincronizados con el audio, sino también de capturar un amplio espectro de matices faciales y movimientos naturales de la cabeza que contribuyen a la percepción de autenticidad y vivacidad. Las innovaciones clave incluyen un modelo holístico para generar dinámicas faciales y movimientos de la cabeza que funciona en un espacio facial latente, y el desarrollo de un espacio facial latente tan expresivo y revelador mediante videos. A través de extensos experimentos que incluyen la evaluación con un conjunto de nuevas métricas, demostramos que nuestro método supera significativamente a los anteriores en varias dimensiones de manera integral. Nuestro método no solo ofrece una alta calidad de vídeo con una dinámica facial y de cabeza realista, sino que también permite la generación en línea de vídeos de 512×512 a hasta 40 FPS con una latencia inicial insignificante. Esto allana el camino para interactuar en tiempo real con avatares realistas que emulan comportamientos conversacionales humanos”, señala Microsoft.
VASA-1: Microsoft ataca de nuevo: IMPRESIONANTES videos y audio realistas de IA a partir de una sola fotografía
Cómo utilizar VASA-1
VASA-1 tiene la capacidad de manipular varios aspectos del vídeo generado, como el Dirección de la mirada del personaje, distancia percibida y estado emocional.; Todo ello permite personalizar los vídeos para adaptarlos a necesidades concretas o efectos deseados.
Para ello, subes una fotografía al programa, luego agregas una instrucción y un discurso en audio que se sube al sistema, se genera el video y puedes gestionar la mirada, el estado de la persona, la velocidad de las palabras.
Recomendaciones del editor