La efectividad de los modelos de lenguaje se basa en su capacidad para simular la deducción paso a paso de los humanos. Sin embargo, estas secuencias de razonamiento son intensivas en recursos y pueden ser un desperdicio para preguntas simples que no requieren un cálculo elaborado. Esta falta de conciencia sobre la complejidad de la tarea es uno de los desafíos centrales en estos modelos. A menudo se les indica un razonamiento detallado incluso para consultas que podrían responder directamente. Tal enfoque aumenta el uso del token, extiende el tiempo de respuesta y aumenta la latencia del sistema y el uso de la memoria. Como resultado, existe una necesidad apremiante de equipar modelos de lenguaje con un mecanismo que les permita tomar decisiones autónomas sobre si pensar profundamente o responder sucintamente.
Las herramientas actuales que intentan resolver este problema dependen de la heurística establecida manualmente o la ingeniería rápida para cambiar entre respuestas cortas y largas. Algunos métodos utilizan modelos separados y preguntas de ruta basadas en estimaciones de complejidad. Aún así, estos sistemas de enrutamiento externos a menudo carecen de información sobre las fortalezas del modelo objetivo y no toman decisiones óptimas. Otras técnicas ajustan los modelos con señales rápidas como “razonamiento encendido/apagado”, pero estos dependen de las reglas estáticas en lugar de la comprensión dinámica. A pesar de algunas mejoras, estos enfoques no pueden permitir un control totalmente autónomo y sensible al contexto dentro de un solo modelo.
Investigadores de la Universidad Nacional de Singapur introdujeron un nuevo marco llamado INSHINGLESS, que equipa un modelo de idioma con la capacidad de decidir dinámicamente entre el uso de razonamiento corto o largo. El marco se basa en el aprendizaje de refuerzo e introduce dos tokens de control especiales:
La metodología implica dos etapas: destilación de calentamiento y aprendizaje de refuerzo. En la fase de destilación, INSTANFLESS está entrenado utilizando salidas de dos modelos expertos, uno especializado en respuestas cortas y el otro en un razonamiento detallado. Esta etapa ayuda al modelo a establecer un vínculo firme entre el token de control y el formato de razonamiento deseado. La etapa de aprendizaje de refuerzo luego ajusta la capacidad del modelo para decidir qué modo de razonamiento usar. Degrpo descompone el aprendizaje en dos objetivos separados: uno para entrenar el token de control y otro para refinar los tokens de respuesta. Este enfoque evita los desequilibrios de gradiente en modelos anteriores, donde las respuestas más largas dominarían la señal de aprendizaje, lo que lleva a un colapso en la diversidad de razonamiento. Showless asegura que los tokens
Cuando se evalúa, INBSHINGLE redujo significativamente el razonamiento de forma larga al tiempo que preservaba la alta precisión. En el punto de referencia de álgebra de Minerva, el modelo utilizó el token
En general, este estudio de los investigadores de la Universidad Nacional de Singapur presenta una solución convincente a las ineficiencias del razonamiento uniforme en modelos de idiomas grandes. Al introducir un mecanismo que permita a los modelos juzgar la complejidad de las tareas y ajustar su estrategia de inferencia en consecuencia, lo que piensa optimiza tanto la precisión como la eficiencia. El método equilibra la profundidad del razonamiento y la precisión de la respuesta sin depender de reglas fijas, ofreciendo un enfoque basado en datos para un comportamiento del modelo de lenguaje más inteligente.
Mira el Papel y Página de Github. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 95k+ ml de subreddit y suscribirse a Nuestro boletín.
Nikhil es consultor interno en MarktechPost. Está buscando un doble grado integrado en materiales en el Instituto Indio de Tecnología, Kharagpur. Nikhil es un entusiasta de AI/ML que siempre está investigando aplicaciones en campos como biomateriales y ciencias biomédicas. Con una sólida experiencia en la ciencia material, está explorando nuevos avances y creando oportunidades para contribuir.