Repensar los puntos de referencia de LLM: medir el verdadero razonamiento más allá de los datos de capacitación | de Maxime Jabarian

Repensar los puntos de referencia de LLM: medir el verdadero razonamiento más allá de los datos de capacitación | de Maxime Jabarian | noviembre de 2024

El nuevo punto de referencia LLM de Apple, GSM-simbólico

Bienvenido a esta exploración de las habilidades de razonamiento del LLM, donde abordaremos una gran pregunta: ¿Pueden modelos como GPT, Llama, Mistral y Gemma realmente razonar, o simplemente son inteligentes comparadores de patrones? Con cada nuevo lanzamiento, vemos que estos modelos alcanzan puntuaciones de referencia más altas, lo que a menudo da la impresión de que están al borde de capacidades genuinas de resolución de problemas. Pero un nuevo estudio de Manzana, “GSM-simbólico: comprensión de las limitaciones del razonamiento matemático en modelos de lenguaje grandes”, ofrece una revisión de la realidad, y sus hallazgos podrían cambiar nuestra forma de pensar sobre estas capacidades.

Si no eres miembro, leer aquí.

Como ingeniero de LLM durante casi dos años, compartiré mi perspectiva sobre este tema, incluido por qué es esencial que los LLM vayan más allá de los patrones memorizados y proporcionen un razonamiento real. También desglosaremos los hallazgos clave del GSM-simbólico estudio, que revela las lagunas en el razonamiento matemático que aún enfrentan estos modelos. Finalmente, reflexionaré sobre lo que esto significa para la aplicación de LLM en entornos del mundo real, donde lo que realmente necesitamos es un verdadero razonamiento, no solo una respuesta de apariencia impresionante.

Repensar los puntos de referencia de LLM: medir el verdadero razonamiento más allá de los datos de capacitación | de Maxime Jabarian | noviembre de 2024

ByEquipo de 7 minutos

El nuevo punto de referencia LLM de Apple, GSM-simbólico

By Equipo de 7 minutos

Related Post

Google Research agrega Agentic RAG a la plataforma Gemini Enterprise Agent con un agente de contexto suficiente para consultas de múltiples saltos

Microsoft AI presenta MAI-Transcribe-1.5: 2,4% WER en análisis artificial, la mejor precisión FLEURS de su clase y transcripción de audio de larga duración hasta 5 veces más rápida

Creación de optimización de avisos reflexivos con GEPA: avisos de múltiples componentes, comentarios estructurados y validación retenida

You missed

El terremoto de Filipinas es el más grande de este año, pero podría haber sido mayor: he aquí por qué

Cómo tener una conversación organizativa uno a uno

Un poco más fresco, pero no mucho.

Kevin Durant reacciona después de que Internet identifica su misteriosa fecha viral