Google DeepMind lanza Lyria 3: un modelo avanzado de inteligencia artificial para generación de música que convierte fotos y texto en pistas personalizadas con letras y voces incluidas

Google DeepMind está volviendo a traspasar los límites de la IA generativa. Esta vez, la atención no se centra en el texto ni en las imágenes. Está en la música. El equipo de Google presentó recientemente Lyria 3, su modelo de generación musical más avanzado hasta la fecha. Lyria 3 representa un cambio significativo en la forma en que las máquinas manejan formas de onda de audio complejas y la intención creativa.

Con el lanzamiento de Lyria 3 dentro de la aplicación Gemini, Google está trasladando estas herramientas del laboratorio de investigación a las manos de los usuarios cotidianos. Si es ingeniero de software o científico de datos, esto es lo que necesita saber sobre el panorama técnico de Lyria 3.

El desafío de la música con IA

Construir un modelo musical es mucho más difícil que construir un modelo de texto. El texto es discreto y lineal. La música es continua y de múltiples capas. Un modelo debe manejar melodía, armonía, ritmo y timbre al mismo tiempo. También debe mantener la coherencia a largo plazo. Esto significa que una canción debe sonar como la misma canción desde el primer segundo hasta el trigésimo segundo.

Lyria 3 está diseñado para resolver estos problemas. Crea audio de alta fidelidad que incluye voces y pistas multiinstrumentales. No se limita a unir bucles. Genera arreglos musicales completos desde cero.

Lyria 3 y la integración de Géminis

Lyria 3 ahora está disponible en la aplicación Gemini. Los usuarios pueden escribir un mensaje o incluso cargar una imagen para recibir una pista de música de 30 segundos. Lo interesante es cómo Google integra esto en un ecosistema multimodal.

En la aplicación Gemini, Lyria 3 permite un flujo de trabajo rápido de “solicitud de audio”. Puedes describir un estado de ánimo, un género o un conjunto específico de instrumentos. Luego, el modelo genera un archivo de alta calidad. Esta integración muestra que Google está tratando el audio como una modalidad principal junto con el texto y la visión.

Especificaciones técnicas clave de Lyria 3

CaracterísticaEspecificaciónLongitud de salida30 segundosFrecuencia de muestreo48kHzFormato de audioPCM de 16 bits (estéreo)Modalidades de entradaTexto, imagen, audioMarca de aguaID de sintetizadorLatenciaMenos de 2 segundos para cambios de control

Control en tiempo real: Lyria RealTime

La API Lyria RealTime es donde ocurre la verdadera innovación. A diferencia de los modelos tradicionales que funcionan como una ‘máquina de discos’ (ingresa un mensaje y espera un archivo), Lyria RealTime opera en un sistema de autorregresión basado en fragmentos.

Utiliza una conexión WebSocket bidireccional para mantener una transmisión en vivo. El modelo genera audio en fragmentos de 2 segundos. Mira hacia atrás en el contexto anterior para mantener el “ritmo” mientras mira hacia los controles del usuario para decidir el estilo. Esto permite dirigir el audio mediante WeightedPrompts.

La zona de pruebas de IA musical

Para músicos y aspirantes, Google DeepMind creó Music AI Sandbox. Este es un conjunto de herramientas diseñadas para el proceso creativo. Permite a los usuarios:

Transforme el audio: tome un simple zumbido o una línea básica de piano y conviértalo en un arreglo orquestal completo. Transferencia de estilo: utilice acordes MIDI para generar un coro vocal. Manipulación de instrumentos: utilice indicaciones de texto para cambiar de instrumento manteniendo la misma melodía.

Este es un claro ejemplo de IA con humanos involucrados. Utiliza representaciones de espacio latente para permitir a los usuarios “interactuar” con el modelo.

Seguridad y atribución: SynthID

Generar música plantea enormes preguntas sobre los derechos de autor. El equipo de Google DeepMind solucionó este problema utilizando SynthID. Esta herramienta marca el contenido generado por IA incorporando una firma digital directamente en la forma de onda de audio.

SynthID es invisible e inaudible para el oído humano. Sin embargo, puede ser detectado por software. Incluso si el audio se comprime a MP3, se ralentiza o se graba a través de un micrófono (el ‘orificio analógico’), la marca de agua permanece. Este es un avance crítico en la ética de la IA. Proporciona una solución técnica al problema de la atribución de IA.

¿Cómo esto hace la diferencia?

Lyria 3 ofrece varias lecciones sobre arquitectura de modelos:

Alta fidelidad: generar audio a 48 kHz requiere redes neuronales eficientes que puedan manejar cantidades masivas de datos por segundo. Streaming causal: el modelo debe generar audio más rápido de lo que se reproduce (factor de tiempo real > 1). Incrustaciones multimodales: la capacidad de dirigir un modelo utilizando texto o imágenes requiere una comprensión profunda de cómo los diferentes tipos de datos se asignan al mismo espacio latente.

Enfrentamiento musical de IA 2026: Lyria 3 contra Suno contra Udio

CaracterísticaGoogle Lyria 3Suno (motor v5)Udio (v1.5/Pro)Mejor paraIntegración multimodal y velocidadÉxitos pop pegadizos y clips viralesFidelidad y control de nivel de estudioFlujo de trabajo principalAplicación Gemini/API en tiempo realCreación rápida de prototipos (texto a canción)“Coescritura” iterativa e inpaintingLongitud máxima de pista30 segundos (Gemini Beta)8 minutos15 minutos (a través de extensiones)Calidad de audio48kHz / PCM de 16 bits Alta fidelidad (v5 mejorado) Ultrarrealista / Modalidades de entrada con calidad de estudio Texto, imágenes y audio Carga de texto y audio Referencia de texto y audio Característica única SynthID Marca de agua inaudible División de pistas individuales de 12 tallos Entrada avanzada Pintura y edición Tecnología de seguridad Marca de agua de forma de onda digital Metadatos (credenciales de contenido) Metadatos (credenciales de contenido)

Conclusiones clave

Integración multimodal en Gemini: Lyria 3 es ahora una parte central del ecosistema Gemini, lo que permite a los usuarios generar pistas de música de 30 segundos de alta fidelidad utilizando texto, imágenes o indicaciones de audio directamente dentro de la aplicación. Flujo de trabajo de ‘solicitud de audio’ de alta fidelidad: el modelo crea arreglos musicales complejos y de múltiples capas, incluidas voces e instrumentos, a una frecuencia de muestreo de 48 kHz, yendo más allá de simples bucles a composiciones completas. Coherencia avanzada de largo alcance: un avance técnico importante de Lyria 3 es su capacidad para mantener la continuidad musical, asegurando que la melodía, el ritmo y el estilo permanezcan consistentes desde el primer segundo hasta el final de la pista. Control creativo en tiempo real: a través de Music AI Sandbox y Lyria RealTime API, los desarrolladores y artistas pueden “dirigir” la IA en tiempo real, transformando entradas simples como tararear en piezas orquestales completas mediante manipulación del espacio latente. Seguridad incorporada con SynthID: para abordar los derechos de autor y la autenticidad, cada pista generada por Lyria incluye una marca de agua SynthID. Esta firma digital es inaudible para los humanos, pero sigue siendo detectable por el software incluso después de una fuerte compresión o edición.

Consulta los detalles técnicos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

Google DeepMind lanza Lyria 3: un modelo avanzado de inteligencia artificial para generación de música que convierte fotos y texto en pistas personalizadas con letras y voces incluidas

ByEquipo de 7 minutos

El desafío de la música con IA

Lyria 3 y la integración de Géminis

Especificaciones técnicas clave de Lyria 3

Control en tiempo real: Lyria RealTime

La zona de pruebas de IA musical

Seguridad y atribución: SynthID

¿Cómo esto hace la diferencia?

Enfrentamiento musical de IA 2026: Lyria 3 contra Suno contra Udio

Conclusiones clave

By Equipo de 7 minutos

Related Post

Cómo construir un banco de trabajo de ingeniería de plásmidos con mapeo circular, análisis de restricciones, geles virtuales y diseño de cebadores

El agente de memoria siempre activo de Google Cloud reemplaza RAG y las incrustaciones con una consolidación continua de LLM en Gemini 3.1 Flash-Lite

Zyphra lanza ZUNA1.1: un modelo básico de EEG Apache 2.0 con entradas de longitud variable de 0,5 a 30 segundos

You missed

Nuevas normas semafóricas para conductores y peatones en España

Cómo construir un banco de trabajo de ingeniería de plásmidos con mapeo circular, análisis de restricciones, geles virtuales y diseño de cebadores

¿Qué pasaría si Trump diera un discurso sobre fraude electoral y nadie viniera?

De Spotify a máquinas de guerra