Cómo utilizar la increíble herramienta de vídeo de Microsoft

Cómo utilizar la increíble herramienta de vídeo de Microsoft – .

Se acaba de lanzar una nueva e increíble herramienta de IA generativa microsoftSe trata de VASA-1, un modelo de imagen a vídeo que, a partir de una única imagen y un clip de audio, puede generar imágenes sorprendentemente realistas, con movimientos y expresiones de labios realistas.

Imagen utilizada con permiso del titular de los derechos de autor.

“Presentamos VASA, un marco para generar caras parlantes realistas de personajes virtuales con atractivas habilidades afectivas visuales (VAS), a partir de una única imagen estática y un clip de audio hablado. Nuestro primer modelo, VASA-1, es capaz no sólo de producir movimientos de labios exquisitamente sincronizados con el audio, sino también de capturar un amplio espectro de matices faciales y movimientos naturales de la cabeza que contribuyen a la percepción de autenticidad y vivacidad. Las innovaciones clave incluyen un modelo holístico para generar dinámicas faciales y movimientos de la cabeza que funciona en un espacio facial latente, y el desarrollo de un espacio facial latente tan expresivo y revelador mediante videos. A través de extensos experimentos que incluyen la evaluación con un conjunto de nuevas métricas, demostramos que nuestro método supera significativamente a los anteriores en varias dimensiones de manera integral. Nuestro método no solo ofrece una alta calidad de vídeo con una dinámica facial y de cabeza realista, sino que también permite la generación en línea de vídeos de 512×512 a hasta 40 FPS con una latencia inicial insignificante. Esto allana el camino para interactuar en tiempo real con avatares realistas que emulan comportamientos conversacionales humanos”, señala Microsoft.

VASA-1: Microsoft ataca de nuevo: IMPRESIONANTES videos y audio realistas de IA a partir de una sola fotografía

Cómo utilizar VASA-1

VASA-1 tiene la capacidad de manipular varios aspectos del vídeo generado, como el Dirección de la mirada del personaje, distancia percibida y estado emocional.; Todo ello permite personalizar los vídeos para adaptarlos a necesidades concretas o efectos deseados.

Para ello, subes una fotografía al programa, luego agregas una instrucción y un discurso en audio que se sube al sistema, se genera el video y puedes gestionar la mirada, el estado de la persona, la velocidad de las palabras.

Imagen utilizada con permiso del titular de los derechos de autor.

Recomendaciones del editor

For Latest Updates Follow us on Google News

Cómo utilizar VASA-1

Related posts