Investigadores de la Universidad Nacional de Singapur introducen 'Ivenless', un marco adaptativo que reduce el razonamiento innecesario por hasta un 90% utilizando Degrpo

La efectividad de los modelos de lenguaje se basa en su capacidad para simular la deducción paso a paso de los humanos. Sin embargo, estas secuencias de razonamiento son intensivas en recursos y pueden ser un desperdicio para preguntas simples que no requieren un cálculo elaborado. Esta falta de conciencia sobre la complejidad de la tarea es uno de los desafíos centrales en estos modelos. A menudo se les indica un razonamiento detallado incluso para consultas que podrían responder directamente. Tal enfoque aumenta el uso del token, extiende el tiempo de respuesta y aumenta la latencia del sistema y el uso de la memoria. Como resultado, existe una necesidad apremiante de equipar modelos de lenguaje con un mecanismo que les permita tomar decisiones autónomas sobre si pensar profundamente o responder sucintamente.

Las herramientas actuales que intentan resolver este problema dependen de la heurística establecida manualmente o la ingeniería rápida para cambiar entre respuestas cortas y largas. Algunos métodos utilizan modelos separados y preguntas de ruta basadas en estimaciones de complejidad. Aún así, estos sistemas de enrutamiento externos a menudo carecen de información sobre las fortalezas del modelo objetivo y no toman decisiones óptimas. Otras técnicas ajustan los modelos con señales rápidas como “razonamiento encendido/apagado”, pero estos dependen de las reglas estáticas en lugar de la comprensión dinámica. A pesar de algunas mejoras, estos enfoques no pueden permitir un control totalmente autónomo y sensible al contexto dentro de un solo modelo.

Investigadores de la Universidad Nacional de Singapur introdujeron un nuevo marco llamado INSHINGLESS, que equipa un modelo de idioma con la capacidad de decidir dinámicamente entre el uso de razonamiento corto o largo. El marco se basa en el aprendizaje de refuerzo e introduce dos tokens de control especiales: para respuestas concisas y para respuestas detalladas. Al incorporar un algoritmo novedoso llamado optimización de políticas relativas del grupo desacoplado (degrpo), Ivenless separa el enfoque de entrenamiento entre seleccionar el modo de razonamiento y mejorar la precisión de la respuesta generada. Este diseño evita que el modelo caiga en un comportamiento unidimensional y permite un razonamiento adaptativo adaptado a cada consulta.

La metodología implica dos etapas: destilación de calentamiento y aprendizaje de refuerzo. En la fase de destilación, INSTANFLESS está entrenado utilizando salidas de dos modelos expertos, uno especializado en respuestas cortas y el otro en un razonamiento detallado. Esta etapa ayuda al modelo a establecer un vínculo firme entre el token de control y el formato de razonamiento deseado. La etapa de aprendizaje de refuerzo luego ajusta la capacidad del modelo para decidir qué modo de razonamiento usar. Degrpo descompone el aprendizaje en dos objetivos separados: uno para entrenar el token de control y otro para refinar los tokens de respuesta. Este enfoque evita los desequilibrios de gradiente en modelos anteriores, donde las respuestas más largas dominarían la señal de aprendizaje, lo que lleva a un colapso en la diversidad de razonamiento. Showless asegura que los tokens y reciban actualizaciones equilibradas, promoviendo el aprendizaje estable en todos los tipos de respuesta.

Cuando se evalúa, INBSHINGLE redujo significativamente el razonamiento de forma larga al tiempo que preservaba la alta precisión. En el punto de referencia de álgebra de Minerva, el modelo utilizó el token en solo el 25.88% de los casos al tiempo que logró una precisión del 94.59%. En contraste, los modelos de razonamiento convencionales tuvieron que usar cadenas de pensamiento extendidas con mucha más frecuencia. En el conjunto de datos AIME 2024, Thinkless alcanzó una tasa de precisión del 27.33% con un uso del 100% del modo de razonamiento, lo que demuestra que podría mantener el rendimiento cuando era necesario un razonamiento completo. En el conjunto de datos GSM8K, utilizó solo el 13.31% del tiempo, pero aún alcanzó una precisión del 84.18%. Estos resultados reflejan la capacidad del modelo para manejar consultas simples y complejas con una profundidad de razonamiento adecuada, reduciendo la generación innecesaria de token hasta en un 90% en algunas tareas.

En general, este estudio de los investigadores de la Universidad Nacional de Singapur presenta una solución convincente a las ineficiencias del razonamiento uniforme en modelos de idiomas grandes. Al introducir un mecanismo que permita a los modelos juzgar la complejidad de las tareas y ajustar su estrategia de inferencia en consecuencia, lo que piensa optimiza tanto la precisión como la eficiencia. El método equilibra la profundidad del razonamiento y la precisión de la respuesta sin depender de reglas fijas, ofreciendo un enfoque basado en datos para un comportamiento del modelo de lenguaje más inteligente.

Mira el Papel y Página de Github. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 95k+ ml de subreddit y suscribirse a Nuestro boletín.

Nikhil es consultor interno en MarktechPost. Está buscando un doble grado integrado en materiales en el Instituto Indio de Tecnología, Kharagpur. Nikhil es un entusiasta de AI/ML que siempre está investigando aplicaciones en campos como biomateriales y ciencias biomédicas. Con una sólida experiencia en la ciencia material, está explorando nuevos avances y creando oportunidades para contribuir.

Investigadores de la Universidad Nacional de Singapur introducen ‘Ivenless’, un marco adaptativo que reduce el razonamiento innecesario por hasta un 90% utilizando Degrpo

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Los 10 principales modelos físicos de IA que impulsarán a los robots del mundo real en 2026

Cómo Popsa utilizó Amazon Nova para inspirar a los clientes con sugerencias de títulos personalizados

Cómo construir un agente encarnado ligero, inspirado en la visión, el lenguaje y la acción, con modelado del mundo latente y control predictivo de modelos

You missed

Las ganancias de BP se duplican con creces a medida que el aumento del precio del petróleo impulsa las ganancias comerciales

La historia de un perro empapado – Costa Tropical Gazette News

¿Podrían cancelarse Jimmy Kimmel? Por qué Melania Trump quiere que lo despidan – Hollywood Life

Los 10 principales modelos físicos de IA que impulsarán a los robots del mundo real en 2026