[the_ad id=»413251″]
Google anunció un nuevo e innovador modelo de IA, llamado “Veo”, que se encargará de crear videos, adaptados a las visiones creativas de los usuarios. Google también está actualizando su modelo de generación de imágenes, llevándolo a su tercera generación, Imagen 3.
¡Veo es el nuevo sistema de generación de videos con IA de Google!
Bard fue uno de los primeros ejemplos de LLM de IA modernos de Google. Esta versión llegó hace aproximadamente un año y la plataforma ha sufrido importantes cambios en los últimos meses. Uno de los mayores cambios fue un cambio completo de nombre, cambiando el nombre de la herramienta a Gemini, que ahora se ha extendido a toda la línea de productos de la empresa.
Incluso antes de que Bard pasara a llamarse Gemini, Google agregó la capacidad de solicitar imágenes a través del modelo de conversación de IA.
Al solicitar una imagen de una vaca en un barco, la imagen se presentaría exactamente de esa manera, en el estilo que el usuario considerara más apropiado. Este proceso fue impulsado por Imagen 2, que fue la primera versión que se puso a disposición del público.
Ahora Google anuncia dos modelos de generación creativa, Veo e Imagen 3. Veo es el más interesante, ya que es algo que el público aún no ha podido experimentar. El modelo fue creado específicamente para crear videos que comprendan la semántica visual y el lenguaje natural, similar a otros modelos modernos. Este enfoque de la creación de videos ofrece resultados que se pueden adaptar creativamente para adaptarse a ciertos estilos.
Google destaca que el modelo Veo podrá comprender “términos cinematográficos” en las instrucciones de usuario, como tomas aéreas y formatos de timelapse. Veo es capaz de generar vídeos en 1080p que pueden durar más de un minuto, lo que supera a modelos actuales, como el Sora de OpenAI, que tiene un máximo de 60 segundos.
Veo se basa en años de trabajo con modelos de vídeo generativo, incluidos Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet y Lumiere, combinando arquitectura, leyes de escala y otras técnicas innovadoras para mejorar la calidad y resolución de la salida.
Mientras tanto, ¡Google invita a creadores y directores a probarlo!
Esto es para mejorar el modelo para que pueda acomodar una amplia variedad de estilos artísticos y casos de uso.
Mientras tanto el modelo Imagen también está recibiendo una importante actualización. Imagen 3 se posiciona como el modelo de conversión de texto a imagen de “más alta calidad” de Google y ofrece algunas mejoras con respecto al modelo Imagen 2 que vimos en Gemini y Bard. Sin embargo, quizás la mayor mejora sea la capacidad de Imagen 3 para procesar texto.