Tras lanzar herramientas para la creación de vídeos basadas en la tecnología de Inteligencia Artificial Generativa (GenAI), Google ahora trabaja en soluciones que nos permitirán generar automáticamente bandas sonoras y diálogos para añadir a estos vídeos.
Hasta ahora, los vídeos generados por GenAI suelen dar lugar a piezas mudas, requiriendo la posterior asociación de voces o bandas sonoras. Google pretende cambiar este escenario, combinando los procesos automáticos de creación y sincronización de estos componentes audiovisuales.
El resultado se puede ver ahora en el vídeo que DeepMind, el laboratorio de IA de Google, pone a disposición en su blog, que muestra los avances de su tecnología Video-to-Audio (V2A), incluida la creación de diálogos y la sincronización labial con los caracteres.
Imagen: Blog oficial de DeepMind
Generación de diálogo… sin indicaciones
Según información de DeepMind, la tecnología V2A permite crear procesos automáticos de sincronización audiovisual, pero la forma en que permite hacerlo aparentemente la distingue de otras soluciones de este tipo desarrolladas por otras empresas.
“Nuestro desarrollo se destaca de las soluciones de video a audio existentes porque puede comprender píxeles sin procesar y la adición de un mensaje de texto es opcional. Además, el sistema no requiere alineación manual del sonido generado con el vídeo, lo que normalmente implica ajustes que consumen mucho tiempo de diferentes elementos sonoros, visuales y de sincronización”.
Por supuesto, el uso de indicaciones en lenguaje natural permitirá otros niveles de detalle, tanto en la calidad del componente sonoro creado como en su sincronización con el vídeo, incluidos diferentes tonos de voz, por ejemplo.
Los resultados que ahora presenta Google, a través de DeepMind, forman parte de proyectos que desarrollan soluciones para la generación inteligente de vídeos, fotografías y bandas sonoras, también comunes a algunos de sus competidores, incluidos Meta, Open AI y Suno.
La diferencia está precisamente relacionada con una lógica de desarrollo “multimodal”, que permite asociar y sincronizar las diferentes herramientas de creación de GenAI.