Los investigadores de Google DeepMind proponen GenRM: verificadores de entrenamiento con predicción del próximo token para aprovechar las capacidades de generación de texto de los LLM

La IA generativa, un área de la inteligencia artificial, se centra en la creación de sistemas capaces de producir textos similares a los humanos y resolver tareas de razonamiento complejas. Estos modelos son esenciales en diversas aplicaciones, incluido el procesamiento del lenguaje natural. Su función principal es predecir palabras posteriores en una secuencia, generar texto coherente e incluso resolver problemas lógicos y matemáticos. Sin embargo, a pesar de sus impresionantes capacidades, los modelos de IA generativa a menudo necesitan ayuda con la precisión y confiabilidad de sus resultados, lo que es particularmente problemático en tareas de razonamiento donde un solo error puede invalidar una solución completa.

Un problema importante en este campo es la tendencia de los modelos de IA generativa a producir resultados que, si bien son confiables y convincentes, pueden necesitar ser corregidos. Este desafío es crítico en áreas donde la precisión es primordial, como la educación, las finanzas y la atención médica. El núcleo del problema radica en la incapacidad de los modelos para generar respuestas correctas de manera consistente, lo que socava su potencial en aplicaciones de alto riesgo. Mejorar la precisión y la confiabilidad de estos sistemas de IA es, por lo tanto, una prioridad para los investigadores que buscan mejorar la confiabilidad de las soluciones generadas por IA.

Los métodos existentes para abordar estas cuestiones implican modelos de recompensa discriminativos (MR), que clasifican las respuestas potenciales como correctas o incorrectas en función de las puntuaciones asignadas. Sin embargo, estos modelos deben aprovechar al máximo las capacidades generativas de los grandes modelos de lenguaje (LLM). Otro enfoque común es el método LLM como juez, en el que los modelos de lenguaje entrenados previamente evalúan la exactitud de las soluciones. Si bien este método aprovecha las capacidades generativas de los LLM, a menudo no logra igualar el desempeño de los verificadores más especializados, en particular en tareas de razonamiento que requieren un juicio matizado.

Investigadores de Google DeepMind, la Universidad de Toronto, MILA y UCLA han presentado un nuevo enfoque denominado Generative Reward Modeling (GenRM). Este método redefine el proceso de verificación al enmarcarlo como una tarea de predicción del siguiente token, una capacidad fundamental de los modelos de recompensa generativa. A diferencia de los modelos de recompensa discriminativos tradicionales, GenRM integra las fortalezas de generación de texto de los modelos de recompensa generativa en el proceso de verificación, lo que permite que el modelo genere y evalúe soluciones potenciales simultáneamente. Este enfoque también admite el razonamiento en cadena de pensamiento (CoT), donde el modelo genera pasos de razonamiento intermedios antes de llegar a una decisión final. Por lo tanto, el método GenRM no solo evalúa la corrección de las soluciones, sino que también mejora el proceso de razonamiento general al permitir evaluaciones más detalladas y estructuradas.

La metodología GenRM emplea un enfoque de entrenamiento unificado que combina la generación y verificación de soluciones. Esto se logra entrenando el modelo para predecir la exactitud de una solución a través de la predicción del siguiente token, una técnica que aprovecha las capacidades generativas inherentes de los LLM. En la práctica, el modelo genera pasos de razonamiento intermedios (razones de CoT) que luego se utilizan para verificar la solución final. Este proceso se integra perfectamente con las técnicas de entrenamiento de IA existentes, lo que permite la mejora simultánea de las capacidades de generación y verificación. Además, el modelo GenRM se beneficia de cálculos adicionales en tiempo de inferencia, como la votación por mayoría que agrega múltiples rutas de razonamiento para llegar a la solución más precisa.

El rendimiento del modelo GenRM, en particular cuando se combina con el razonamiento CoT, supera significativamente los métodos de verificación tradicionales. En una serie de pruebas rigurosas, que incluyeron tareas relacionadas con las matemáticas de la escuela primaria y la resolución de problemas algorítmicos, el modelo GenRM demostró una mejora notable en la precisión. En concreto, los investigadores informaron de un aumento del 16% al 64% en el porcentaje de problemas resueltos correctamente en comparación con los métodos de resolución de problemas discriminativos y LLM como juez. Por ejemplo, al verificar los resultados del modelo Gemini 1.0 Pro, el enfoque GenRM mejoró la tasa de éxito en la resolución de problemas del 73% al 92,8%. Este importante aumento del rendimiento destaca la capacidad del modelo para mitigar los errores que los verificadores estándar suelen pasar por alto, en particular en escenarios de razonamiento complejos. Además, los investigadores observaron que el modelo GenRM se escala de forma eficaz con un mayor tamaño del conjunto de datos y la mayor capacidad del modelo, lo que mejora aún más su aplicabilidad en diversas tareas de razonamiento.

En conclusión, la introducción del método GenRM por parte de los investigadores de Google DeepMind marca un avance significativo en la IA generativa, en particular para abordar los desafíos de verificación asociados con las tareas de razonamiento. El modelo GenRM ofrece un enfoque más confiable y preciso para resolver problemas complejos al unificar la generación y verificación de soluciones en un solo proceso. Este método mejora la precisión de las soluciones generadas por IA y mejora el proceso de razonamiento general, lo que lo convierte en una herramienta valiosa para futuras aplicaciones de IA en múltiples dominios. A medida que la IA generativa continúa evolucionando, el enfoque GenRM proporciona una base sólida para futuras investigaciones y desarrollos, en particular en áreas donde la precisión y la confiabilidad son cruciales.

Echa un vistazo a la Papel. Todo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..

No olvides unirte a nuestro Subreddit con más de 50 000 millones de usuarios

A continuación se muestra un seminario web muy recomendado por nuestro patrocinador: ‘Desarrollo de aplicaciones de IA de alto rendimiento con NVIDIA NIM y Haystack’

Nikhil es consultor en prácticas en Marktechpost. Está cursando una doble titulación integrada en Materiales en el Instituto Indio de Tecnología de Kharagpur. Nikhil es un entusiasta de la IA y el aprendizaje automático que siempre está investigando aplicaciones en campos como los biomateriales y la ciencia biomédica. Con una sólida formación en ciencia de los materiales, está explorando nuevos avances y creando oportunidades para contribuir.

▶• ılıılıılıılıı Próxima sesión en vivo: ‘Creación de aplicaciones de IA de alto rendimiento con NVIDIA NIM y Haystack’.

Los investigadores de Google DeepMind proponen GenRM: verificadores de entrenamiento con predicción del próximo token para aprovechar las capacidades de generación de texto de los LLM

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Conozca Talkie-1930: un LLM de peso abierto 13B capacitado en textos en inglés anteriores a 1931 para el razonamiento histórico y la investigación de generalización

¡Correlación no significa causalidad! ¿Pero qué significa?

Los 10 principales modelos físicos de IA que impulsarán a los robots del mundo real en 2026

You missed

La evolución sigue generando cangrejos, pero una característica clave solo ha evolucionado una vez: ScienceAlert

Trump pone a prueba los límites de sus seguidores más fieles

Cómo el vehículo eléctrico chino Stellantis posee un Volkswagen rebajado

Horarios de los supermercados en España por las vacaciones de mayo « Euro Weekly News