Google ha anunciado el lanzamiento de Veo 3.1 Lite, un nuevo nivel de modelo dentro de su cartera de vídeo generativo diseñado para abordar el principal cuello de botella para las implementaciones a escala de producción: los precios. Si bien el espacio del video generativo ha experimentado un rápido progreso en la fidelidad visual, el costo por segundo del contenido generado se ha mantenido alto, a menudo prohibitivo para los desarrolladores que crean aplicaciones de gran volumen.
Veo 3.1 Lite ahora está disponible a través de Gemini API y Google AI Studio para usuarios del nivel pago. Al ofrecer la misma velocidad de generación que el modelo Veo 3.1 Fast existente a aproximadamente la mitad del costo, Google está posicionando este modelo como el estándar para los desarrolladores centrados en la generación de video programática y la creación de prototipos iterativos.
Arquitectura técnica: el transformador de difusión (DiT)
El aspecto más significativo de la familia Veo 3.1 es su arquitectura subyacente de transformador de difusión (DiT). Los modelos de vídeo generativo tradicionales a menudo se basaban en la difusión basada en U-Net, que puede tener problemas con datos de alta dimensión y dependencias temporales de largo alcance.
Veo 3.1 Lite utiliza una red troncal basada en transformador que opera en parches espacio-temporales. En esta arquitectura, los fotogramas de vídeo no se procesan como imágenes 2D estáticas sino como una secuencia continua de tokens en un espacio latente. Al aplicar la autoatención en estos parches, el modelo mantiene una mejor coherencia temporal. Esto garantiza que los objetos, la iluminación y las texturas permanezcan coherentes durante todo el clip, lo que reduce los artefactos que se ven comúnmente en modelos anteriores.
El modelo realiza su cálculo en un espacio latente comprimido en lugar de en un espacio de píxeles. Esto permite que el modelo maneje las altas demandas computacionales de la generación de video mientras mantiene una menor huella de memoria. Para los desarrolladores, esto se traduce en un modelo que puede generar contenido de alta definición sin el aumento exponencial en el tiempo de procesamiento que generalmente acompaña al escalamiento de resolución.
Especificaciones de rendimiento y salida
Veo 3.1 Lite proporciona parámetros específicos de resolución y duración, lo que permite a los desarrolladores de IA integrarlo en flujos de trabajo estructurados. A diferencia del modelo insignia Veo 3.1, que admite resolución 4K, la versión Lite está optimizada para salidas de alta definición (HD).
Resoluciones soportadas: 720p y 1080p. Relaciones de aspecto: compatibilidad nativa con orientación horizontal (16:9) y vertical (9:16). Duraciones de clips: los desarrolladores pueden especificar duraciones de generación de 4, 6 u 8 segundos. Cumplimiento rápido: el modelo está optimizado para ‘control cinematográfico’, reconociendo directivas técnicas como ‘panorámica’, ‘inclinación’ e instrucciones de iluminación específicas.
La etiqueta ‘Lite’ no se refiere a una reducción en la velocidad de generación en comparación con el nivel ‘Rápido’. En cambio, se refiere a un conjunto de parámetros optimizados que permite al equipo de Google ofrecer el modelo a un precio significativamente más bajo manteniendo las mismas características de rendimiento de baja latencia de Veo 3.1 Fast.
El cambio de precios: democratizar la inferencia de vídeo
La propuesta de valor principal de Veo 3.1 Lite es su estructura de costos. En el mercado actual, la inferencia de vídeo de alta calidad suele costar varios dólares por minuto de metraje, lo que dificulta su justificación para aplicaciones como la generación dinámica de anuncios o la automatización de redes sociales.
El precio de Veo 3.1 Lite está estructurado de la siguiente manera:
720p: 0,05 dólares por segundo. 1080p: 0,08 dólares por segundo.
Implementación a través de Gemini API y AI Studio
La accesibilidad se maneja a través de la API de Gemini. Esto permite la integración de la generación de video en aplicaciones Python o Node.js existentes mediante llamadas REST o gRPC estándar.
Una característica técnica fundamental para los desarrolladores empresariales es la inclusión de SynthID. Desarrollado por Google DeepMind, SynthID es una herramienta para marcar e identificar contenido generado por IA. Incorpora una marca de agua digital directamente en los píxeles del vídeo que es imperceptible para el ojo humano pero detectable mediante software especializado. Este es un componente obligatorio para los desarrolladores preocupados por la seguridad, el cumplimiento y la distinción de los medios sintéticos del metraje capturado.
Conclusiones clave
La mitad del costo, la misma velocidad: ofrece el mismo rendimiento de baja latencia que el nivel “Rápido” por menos del 50 % del precio ($0,05/seg para 720p). Salida HD escalable: Admite resoluciones de 720p y 1080p en clips de 4, 6 u 8 segundos con relaciones de aspecto nativas de 16:9 y 9:16. Arquitectura: Construido sobre un Transformador de Difusión (DiT) usando parches espacio-temporales para un movimiento superior y consistencia física. Preparado para desarrolladores: disponible ahora a través de Gemini API (nivel pago) y Google AI Studio, con marca de agua digital SynthID incorporada.
Consulta los detalles técnicos. Puede acceder al modelo a través del nivel pago en Gemini API y Google AI Studio. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 120.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

Michal Sutter es un profesional de la ciencia de datos con una Maestría en Ciencias de Datos de la Universidad de Padua. Con una base sólida en análisis estadístico, aprendizaje automático e ingeniería de datos, Michal se destaca en transformar conjuntos de datos complejos en conocimientos prácticos.