Google DeepMind está volviendo a traspasar los límites de la IA generativa. Esta vez, la atención no se centra en el texto ni en las imágenes. Está en la música. El equipo de Google presentó recientemente Lyria 3, su modelo de generación musical más avanzado hasta la fecha. Lyria 3 representa un cambio significativo en la forma en que las máquinas manejan formas de onda de audio complejas y la intención creativa.
Con el lanzamiento de Lyria 3 dentro de la aplicación Gemini, Google está trasladando estas herramientas del laboratorio de investigación a las manos de los usuarios cotidianos. Si es ingeniero de software o científico de datos, esto es lo que necesita saber sobre el panorama técnico de Lyria 3.
El desafío de la música con IA
Construir un modelo musical es mucho más difícil que construir un modelo de texto. El texto es discreto y lineal. La música es continua y de múltiples capas. Un modelo debe manejar melodía, armonía, ritmo y timbre al mismo tiempo. También debe mantener la coherencia a largo plazo. Esto significa que una canción debe sonar como la misma canción desde el primer segundo hasta el trigésimo segundo.
Lyria 3 está diseñado para resolver estos problemas. Crea audio de alta fidelidad que incluye voces y pistas multiinstrumentales. No se limita a unir bucles. Genera arreglos musicales completos desde cero.
Lyria 3 y la integración de Géminis
Lyria 3 ahora está disponible en la aplicación Gemini. Los usuarios pueden escribir un mensaje o incluso cargar una imagen para recibir una pista de música de 30 segundos. Lo interesante es cómo Google integra esto en un ecosistema multimodal.
En la aplicación Gemini, Lyria 3 permite un flujo de trabajo rápido de “solicitud de audio”. Puedes describir un estado de ánimo, un género o un conjunto específico de instrumentos. Luego, el modelo genera un archivo de alta calidad. Esta integración muestra que Google está tratando el audio como una modalidad principal junto con el texto y la visión.
Especificaciones técnicas clave de Lyria 3
Control en tiempo real: Lyria RealTime
La API Lyria RealTime es donde ocurre la verdadera innovación. A diferencia de los modelos tradicionales que funcionan como una ‘máquina de discos’ (ingresa un mensaje y espera un archivo), Lyria RealTime opera en un sistema de autorregresión basado en fragmentos.
Utiliza una conexión WebSocket bidireccional para mantener una transmisión en vivo. El modelo genera audio en fragmentos de 2 segundos. Mira hacia atrás en el contexto anterior para mantener el “ritmo” mientras mira hacia los controles del usuario para decidir el estilo. Esto permite dirigir el audio mediante WeightedPrompts.
La zona de pruebas de IA musical
Para músicos y aspirantes, Google DeepMind creó Music AI Sandbox. Este es un conjunto de herramientas diseñadas para el proceso creativo. Permite a los usuarios:
Transforme el audio: tome un simple zumbido o una línea básica de piano y conviértalo en un arreglo orquestal completo. Transferencia de estilo: utilice acordes MIDI para generar un coro vocal. Manipulación de instrumentos: utilice indicaciones de texto para cambiar de instrumento manteniendo la misma melodía.
Este es un claro ejemplo de IA con humanos involucrados. Utiliza representaciones de espacio latente para permitir a los usuarios “interactuar” con el modelo.
Seguridad y atribución: SynthID
Generar música plantea enormes preguntas sobre los derechos de autor. El equipo de Google DeepMind solucionó este problema utilizando SynthID. Esta herramienta marca el contenido generado por IA incorporando una firma digital directamente en la forma de onda de audio.
SynthID es invisible e inaudible para el oído humano. Sin embargo, puede ser detectado por software. Incluso si el audio se comprime a MP3, se ralentiza o se graba a través de un micrófono (el ‘orificio analógico’), la marca de agua permanece. Este es un avance crítico en la ética de la IA. Proporciona una solución técnica al problema de la atribución de IA.
¿Cómo esto hace la diferencia?
Lyria 3 ofrece varias lecciones sobre arquitectura de modelos:
Alta fidelidad: generar audio a 48 kHz requiere redes neuronales eficientes que puedan manejar cantidades masivas de datos por segundo. Streaming causal: el modelo debe generar audio más rápido de lo que se reproduce (factor de tiempo real > 1). Incrustaciones multimodales: la capacidad de dirigir un modelo utilizando texto o imágenes requiere una comprensión profunda de cómo los diferentes tipos de datos se asignan al mismo espacio latente.
Enfrentamiento musical de IA 2026: Lyria 3 contra Suno contra Udio
Conclusiones clave
Integración multimodal en Gemini: Lyria 3 es ahora una parte central del ecosistema Gemini, lo que permite a los usuarios generar pistas de música de 30 segundos de alta fidelidad utilizando texto, imágenes o indicaciones de audio directamente dentro de la aplicación. Flujo de trabajo de ‘solicitud de audio’ de alta fidelidad: el modelo crea arreglos musicales complejos y de múltiples capas, incluidas voces e instrumentos, a una frecuencia de muestreo de 48 kHz, yendo más allá de simples bucles a composiciones completas. Coherencia avanzada de largo alcance: un avance técnico importante de Lyria 3 es su capacidad para mantener la continuidad musical, asegurando que la melodía, el ritmo y el estilo permanezcan consistentes desde el primer segundo hasta el final de la pista. Control creativo en tiempo real: a través de Music AI Sandbox y Lyria RealTime API, los desarrolladores y artistas pueden “dirigir” la IA en tiempo real, transformando entradas simples como tararear en piezas orquestales completas mediante manipulación del espacio latente. Seguridad incorporada con SynthID: para abordar los derechos de autor y la autenticidad, cada pista generada por Lyria incluye una marca de agua SynthID. Esta firma digital es inaudible para los humanos, pero sigue siendo detectable por el software incluso después de una fuerte compresión o edición.
Consulta los detalles técnicos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.