Inception Labs presenta Mercurio: un modelo de lenguaje basado en difusión para la generación de código ultra rápido

AI generativa y sus desafíos en la generación de código autorregresivo

El campo de la inteligencia artificial generativa ha afectado significativamente el desarrollo de software al automatizar varias tareas de codificación, que van desde simples completos automáticos hasta soluciones de software complejas. Sin embargo, los modelos de idiomas tradicionales emplean predominantemente métodos autorregresivos, prediciendo un token a la vez, lo que conduce a cuellos de botella inherentes y problemas de latencia. Particularmente para las aplicaciones de codificación, la lenta generación secuencial limita la eficiencia, planteando desafíos en entornos o escenarios interactivos en tiempo real que exigen respuestas inmediatas. Aunque los modelos existentes optimizados de velocidad, como GPT-4O y Claude 3.5 Haiku, han mostrado un rendimiento algo mejorado, la restricción fundamental de la generación de token-by-token persiste, lo que necesita un cambio hacia enfoques de modelado alternativos capaces de generación paralela y reducción de latencia sustancial.

Estado actual de asistentes de codificación basados ​​en IA y sus limitaciones de velocidad

Actualmente, los asistentes de codificación basados ​​en IA principales dependen en gran medida de las arquitecturas de transformadores autorregresivos. Modelos notables en este dominio, como GPT-4O Mini, Claude 3.5 Haiku, Gemini 2.0 Flash Lite y Codestral, ofrecen resultados impresionantes en puntos de referencia de codificación estándar. Sin embargo, su naturaleza secuencial sigue siendo un factor limitante en términos de velocidad. Los modelos autorregresivos generalmente alcanzan el rendimiento de alrededor de 50 a 200 tokens por segundo en hardware contemporáneo de GPU. Estos modelos, aunque altamente precisos, encuentran limitaciones significativas al manejar tareas de codificación de alta demanda, interactivas o sensibles a la latencia.

Introducción de Mercurio: un LLM basado en difusión para la codificación de alto rendimiento

Los investigadores de Inception Labs introdujeron Mercurio, un innovador basado en la difusión modelo de lenguaje grande (LLM) Familia específicamente optimizada para aplicaciones de codificación. Mercury Coder, el primer modelo establecido dentro de esta familia, comprende dos variantes distintas: Mercury Coder Mini y Mercury Coder Small. Estos modelos de difusión combinan de manera única las arquitecturas basadas en transformadores con generación de token paralelo, mejorando significativamente la eficiencia computacional y el rendimiento general. Según las evaluaciones independientes realizadas por el análisis artificial, los modelos de Mercury Coder lograron puntos de referencia de rendimiento excepcionales. El Mercury Coder Mini alcanzó un rendimiento de 1,109 tokens por segundo, mucho más rápido que los modelos autorregresivos de línea de base. Mercury Coder Small demostró un rendimiento igualmente impresionante de 737 tokens por segundo, ofreciendo un excelente equilibrio entre la velocidad y la precisión de la codificación.

Mecanismo de difusión detrás de la generación de token paralelo de Mercurio

Los modelos de mercurio aprovechan los procesos de difusión donde las salidas se refinan iterativamente del ruido aleatorio inicial en datos coherentes. A diferencia de los modelos convencionales que predicen secuencialmente tokens, los modelos de mercurio refinan simultáneamente múltiples tokens en cada iteración, optimizando en gran medida la utilización de GPU. Durante la capacitación, los modelos de mercurio emplearon conjuntos de datos que comprenden billones de tokens procedentes de extensos rastreos web, datos sintéticos y repositorios patentados. El protocolo de entrenamiento de difusión implica un proceso directo de agregar ruido progresivo a los datos limpios y un proceso inverso que denefera iterativamente estos datos ruidosos. Específicamente, Mercurio utiliza una pérdida de difusión de renovación, que permite el ajuste simultáneo de tokens y mejora la paralelización. Además, los modelos de mercurio incorporan métodos de solicitación comúnmente utilizados en los modelos autorregresivos existentes, incluidos el aprendizaje de disparo cero y de pocos disparos, asegurando una integración perfecta en los flujos de trabajo de codificación establecidos.

Precisión de referencia: los modelos de mercurio sobresalen en tareas de codificación estándar

En las pruebas de referencia, Mercury Coder Small alcanzó una precisión del 90.0% en la prueba Humaneval, un punto de referencia de codificación de Python estándar y un 76.2% en Multipl-E, un punto de referencia de varios idiomas que cubre lenguajes como C ++, Java, Javascript, Php, Bash y Tipe Tystipcript. Mercury Coder Mini demostró de manera similar un rendimiento robusto, con 88.0% en Humaneval y 74.1% en Multipl-E. En particular, en las tareas de codificación de llenado en el medio, esencial para la completación automática y la codificación interactiva, el codificador de mercurio pequeños modelos prominentes superados con una precisión promedio de 84.8%, superando incluso modelos de velocidad especializados como Codestral 2501, que alcanzó el 82.5%. Además, en las evaluaciones humanas del mundo real realizadas a través de la plataforma Copilot Arena, Mercury Coder Mini se clasificó en segundo lugar en general en preferencia del usuario, superó a modelos bien establecidos como GPT-4O Mini y Gemini 1.5 Flash, y exhibió la latencia promedio más baja de solo 25 milisegundos.

Además, los modelos de mercurio demuestran consistentemente resultados excepcionales en pruebas de lenguaje específicas. En evaluaciones detalladas, Mercury Coder Small demostró una precisión notable en varios lenguajes de programación en el punto de referencia Multipl-E, logrando una precisión del 82.0% en C ++, 80.1% en Java, 83.9% en JavaScript, 78.3% en PHP, 50.1% en BASH y 82.6% en mecanografiado.

Control de clave: alto rendimiento, precisión y compatibilidad de flujo de trabajo

  • Mercury Coder mejora significativamente los modelos de lenguaje autorregresivo tradicionales al emplear una arquitectura de transformador basada en difusión que genera múltiples tokens simultáneamente.
  • Las evaluaciones independientes confirman que el Mercury Coder Mini logra un rendimiento extraordinario de más de 1100 tokens por segundo, que es hasta diez veces más rápido que los modelos autororregresivos convencionales.
  • Mercury Coder Small Haga un equilibrio entre la velocidad y la precisión, logrando un rendimiento de aproximadamente 737 tokens por segundo mientras ofrece un alto rendimiento de manera constante en múltiples puntos de referencia de codificación.
  • Los modelos de mercurio sobresalen particularmente en escenarios de codificación interactivos y en tiempo real debido a su mecanismo de generación paralelo, reduciendo drásticamente la latencia.
  • Las evaluaciones humanas demuestran una alta satisfacción del usuario, clasificando los modelos de mercurio entre los principales asistentes de codificación en entornos prácticos, como Copilot Arena.
  • El enfoque basado en la difusión de Mercury mantiene la compatibilidad con las técnicas de incorporación establecidas, asegurando una integración perfecta en los flujos de trabajo de desarrolladores existentes.

Mira el Papel, API y Charlar. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 100k+ ml y suscribirse a Nuestro boletín.


Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.