Google lanzó ‘Veo 2’ de última generación para generación de video e ‘Imagen 3 mejorada’ para creación de imágenes: estableciendo nuevos estándares con video 4K y generación de video de varios minutos de duración

Las innovaciones en la generación de vídeos e imágenes están mejorando la calidad de las imágenes y centrándose en hacer que los modelos de IA respondan mejor a indicaciones detalladas. Las herramientas de inteligencia artificial han abierto nuevas posibilidades para artistas, cineastas, empresas y profesionales creativos al lograr representaciones más precisas de la física y el movimiento humano del mundo real. Las imágenes generadas por IA ya no se limitan a imágenes y vídeos genéricos; ahora permiten producciones cinematográficas de alta calidad que imitan fielmente la creatividad humana. Este progreso refleja la inmensa demanda de tecnología que produzca de manera eficiente resultados de nivel profesional, ofreciendo oportunidades en todas las industrias, desde el entretenimiento hasta la publicidad.

El desafío en la generación de imágenes y vídeos basada en IA siempre ha sido lograr realismo y precisión. Los modelos anteriores a menudo luchaban con inconsistencias en el contenido del vídeo, como objetos alucinados, movimientos humanos distorsionados e iluminación poco natural. De manera similar, las herramientas de generación de imágenes a veces necesitan seguir las indicaciones del usuario con precisión o reproducir texturas y detalles de manera deficiente. Estas deficiencias socavaron su usabilidad en entornos profesionales donde la ejecución impecable es fundamental. Se necesitan modelos de IA para mejorar la comprensión de las interacciones basadas en la física, manejar efectos de iluminación y reproducir detalles artísticos complejos, que son fundamentales para lograr resultados visualmente atractivos y precisos.

Las herramientas existentes como Veo e Imagen han proporcionado mejoras considerables pero tienen limitaciones. Veo permitió a los creadores generar contenido de video con fondos personalizados y efectos cinematográficos, mientras que Imagen produjo imágenes de alta calidad en varios estilos artísticos. Los creadores de YouTube, los clientes empresariales de Vertex AI y los artistas a través de VideoFX e ImageFX utilizaron ampliamente estas herramientas.. Son buenas herramientas, pero a menudo tienen limitaciones técnicas, como una representación de detalles inconsistente, capacidades de resolución limitadas y la incapacidad de adaptarse sin problemas a indicaciones complejas del usuario. Como resultado, los creadores necesitaban herramientas que combinaran precisión, realismo y flexibilidad para cumplir con los estándares profesionales.

Se presentan Google Labs y Google DeepMind Veo 2 y un actualizado Imagen 3 para mejorar los problemas antes mencionados. Estos modelos representan la próxima generación de herramientas impulsadas por IA para lograr resultados de generación de imágenes y videos de última generación. Veo 2 se enfoca en la producción de video con realismo mejorado, admite resoluciones de hasta 4K y extiende la duración del video a varios minutos. Incorpora una comprensión profunda del lenguaje cinematográfico, lo que permite a los usuarios especificar lentes, efectos cinematográficos y ángulos de cámara. Por ejemplo, mensajes como “lente de 18 mm” o “toma de seguimiento de ángulo bajo” permiten al modelo crear tomas de gran angular o efectos cinematográficos inmersivos. Imagen 3 mejora la generación de imágenes al producir texturas más ricas, imágenes más brillantes y composiciones precisas en varios estilos artísticos. Ahora se puede acceder a estas herramientas a través de plataformas como VideoFX, ImageFX y Whisk, el nuevo experimento de Google que combina imágenes generadas por IA con capacidades de remezcla creativa.

Veo 2 trae varias actualizaciones a la generación de video. El principal es su mejor comprensión de la física del mundo real y la expresión humana.. A diferencia de los modelos anteriores, Veo 2 representa con precisión movimientos complejos, iluminación natural y fondos detallados, al tiempo que minimiza los artefactos alucinados como dedos adicionales u objetos flotantes.. Los usuarios pueden crear videos con efectos, dinámicas de movimiento y elementos narrativos específicos de cada género. Por ejemplo, la herramienta permite que las indicaciones incluyan frases como “poca profundidad de campo” o “toma panorámica suave”, lo que da como resultado videos que reflejan técnicas cinematográficas profesionales. Imagen 3 también ofrece mejoras excepcionales al seguir las indicaciones con mayor fidelidad. Genera texturas fotorrealistas, composiciones detalladas y estilos artísticos que van desde el anime hasta el impresionismo. Estos modelos ofrecen creación de contenido visual de nivel profesional que se adapta a las necesidades del usuario.

En las evaluaciones, en comparaciones directas juzgadas por evaluadores humanos, Veo 2 superó a los principales modelos de vídeo en cuanto a realismo, calidad y rápida adherencia. Imagen 3 logró resultados de última generación en generación de imágenes, sobresaliendo en precisión de textura, precisión de composición y gradación de color. Los modelos actualizados también cuentan con marcas de agua SynthID para identificar los resultados como generados por IA, lo que garantiza un uso ético y mitiga los riesgos de desinformación.

Con Veo 2 e Imagen 3 mejorada, Whisk es una nueva herramienta experimental del equipo que integra Imagen 3 con el modelo Gemini de Google para visualizaciones basadas en imágenes. Whisk permite a los usuarios cargar o crear imágenes y remezclar sus temas, escenas y estilos para generar nuevas imágenes. Whisk combina el último modelo Imagen 3 con las capacidades de descripción y comprensión visual de Gemini. El modelo Gemini escribe automáticamente un título detallado de las imágenes y alimenta esas descripciones en Imagen 3. Este proceso permite a los usuarios remezclar fácilmente los temas, escenas y estilos de formas nuevas y divertidas. Por ejemplo, la herramienta puede transformar un concepto dibujado a mano en una salida digital pulida analizando y mejorando la imagen mediante algoritmos de inteligencia artificial.

Algunos de los aspectos más destacados de ‘Veo 2’:

  • Veo 2 crea videos con una resolución de hasta 4K con duraciones extendidas de varios minutos.
  • Él Reduce los artefactos alucinados, como objetos adicionales o movimientos humanos distorsionados..
  • Además, Interpreta con precisión el lenguaje cinematográfico (tipo de lente, ángulos de cámara y efectos de movimiento)..
  • Veo 2 mejora la comprensión de la física del mundo real y las expresiones humanas para lograr un mayor realismo.
  • permite indicaciones cinematográficas, como “tomas de seguimiento de ángulo bajo” y “poca profundidad de campo”, para producir resultados profesionales.
  • Se integra con la plataforma VideoFX de Google Labs para una usabilidad generalizada.

Algunos de los aspectos más destacados de ‘Imagen 3 Mejorada’:

  • Ahora, Imagen 3 produce imágenes más brillantes y detalladas con texturas y composiciones mejoradas.
  • Él Sigue con precisión indicaciones de diversos estilos artísticos, incluidos el fotorrealismo, el anime y el impresionismo.
  • Imagen 3 mejora la gradación de color y la representación de detalles para obtener imágenes más nítidas y ricas.
  • Minimiza las inconsistencias en los resultados generados, logrando una calidad de imagen de última generación.
  • Accesible a través de la plataforma ImageFX de Google Labs y admite aplicaciones creativas.

En conclusión, la investigación de Google Labs y DeepMind introduce actualizaciones paralelas en la generación de imágenes y vídeos impulsada por IA. Veo 2 e Imagen 3 establecen nuevos puntos de referencia para la creación de contenido de nivel profesional al abordar desafíos de larga data en realismo visual y control del usuario. Estas herramientas mejoran la fidelidad de las imágenes y los vídeos, lo que permite a los creadores especificar detalles complejos y lograr resultados cinematográficos. Con innovaciones como Whisk, los usuarios obtienen acceso a flujos de trabajo creativos que antes eran inalcanzables. La combinación de precisión, salvaguardias éticas y flexibilidad innovadora garantiza que Veo 2 e Imagen 3 tendrán un impacto positivo en las imágenes generadas por IA.


Verificar el detalles para Veo 2 y Imagen 3. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. No olvides unirte a nuestro SubReddit de más de 60.000 ml.

🚨 Tendencias: LG AI Research lanza EXAONE 3.5: tres modelos bilingües de código abierto a nivel de inteligencia artificial de frontera que brindan un seguimiento de instrucciones inigualable y una amplia comprensión del contexto para el liderazgo global en la excelencia en inteligencia artificial generativa….


Asjad es consultor interno en Marktechpost. Está cursando B.Tech en ingeniería mecánica en el Instituto Indio de Tecnología, Kharagpur. Asjad es un entusiasta del aprendizaje automático y el aprendizaje profundo que siempre está investigando las aplicaciones del aprendizaje automático en la atención médica.