Cómo desarrollar poderosos puntos de referencia internos de LLM

LLMS se lanzó casi semanalmente. Algunos lanzamientos recientes que hemos tenido son Modelos de contorno QWEN3, GPT 5, Grok 4todos los cuales reclaman la parte superior de algunos puntos de referencia. Los puntos de referencia comunes son el último examen de las humanidades, Swe-Bench, IMO, etc.

Sin embargo, estos puntos de referencia tienen una falla inherente: las compañías que lanzan nuevos modelos frontales están fuertemente incentivados para optimizar sus modelos para tal rendimiento en estos puntos de referencia. La razón es que estos conocidos puntos de referencia son esencialmente lo que establece el estándar para lo que se considera un nuevo Breakthrough LLM.

Afortunadamente, existe una solución simple a este problema: desarrolle sus propios puntos de referencia internos y pruebe cada LLM en el punto de referencia, que es lo que discutiré en este artículo.

Discuto cómo puede desarrollar poderosos puntos de referencia internos de LLM, para comparar LLM para sus propios casos de uso. Imagen de Chatgpt.

Tabla de contenido

También puedes aprender sobre Cómo comparar LLMS – ARC AGI 3o puedes leer sobre Garantizar la confiabilidad en las aplicaciones LLM.

Motivación

Mi motivación para este artículo es que los nuevos LLM se lanzan rápidamente. Es difícil mantenerse actualizado sobre todos los avances dentro del espacio LLM, y por lo tanto, debe confiar en los puntos de referencia y las opiniones en línea para descubrir qué modelos son los mejores. Sin embargo, este es un enfoque severamente defectuoso para juzgar qué LLM debe usar el día a día o en una aplicación que está desarrollando.

Los puntos de referencia tienen la falla de que los desarrolladores de modelos Frontier son incentivados para optimizar sus modelos para los puntos de referencia, lo que hace que el rendimiento de referencia sea posiblemente defectuoso. Las opiniones en línea también tienen sus problemas porque otros tendrán otros casos de uso para LLM que usted. Por lo tanto, debe desarrollar un punto de referencia interno para probar adecuadamente los LLM recientemente liberados y descubrir cuáles funcionan mejor para su caso de uso específico.

Cómo desarrollar un punto de referencia interno

Hay muchos enfoques para desarrollar su propio punto de referencia interno. El punto principal aquí es que su punto de referencia no es una tarea súper común que realizan LLMS (generar resúmenes, por ejemplo, no funciona). Además, su punto de referencia debe utilizar preferiblemente algunos datos internos que no estén disponibles en línea.

Debe tener en cuenta las dos cosas principales al desarrollar un punto de referencia interno

  • Debe ser una tarea poco común (por lo que los LLM no están capacitados específicamente en ella), o debe usar datos no disponibles en línea
  • Debe ser lo más automático posible. No tienes tiempo para probar cada nueva versión manualmente
  • Obtiene una puntuación numérica desde el punto de referencia para que pueda clasificar diferentes modelos entre sí

Tipos de tareas

Los puntos de referencia internos podrían verse muy diferentes entre sí. Dados algunos casos de uso, aquí hay algunos puntos de referencia de ejemplo que puede desarrollar

Caso de uso: Desarrollo en un lenguaje de programación raramente utilizado.

Punto de referencia: Tener el LLM cero-shot una aplicación específica como el solitario (esto se inspira en cómo Fireship Benchmarks LLMS desarrollando un Esbelto solicitud)

Caso de uso: Pregunta interna Respondiendo chatbot

Punto de referencia: Reúna una serie de indicaciones de su aplicación (preferiblemente las indicaciones del usuario reales), junto con su respuesta deseada, y vea qué LLM está más cerca de las respuestas deseadas.

Caso de uso: Clasificación

Punto de referencia: Cree un conjunto de datos de ejemplos de salida de entrada. Para este punto de referencia, la entrada puede ser un texto, y la salida de una etiqueta específica, como un conjunto de datos de análisis de sentimientos. La evaluación es simple en este caso, ya que necesita la salida de LLM para que coincida exactamente con la etiqueta de la verdad de tierra.

Garantizar tareas automáticas

Después de averiguar qué tarea desea crear puntos de referencia internos, es hora de desarrollar la tarea. Cuando se desarrolla, es importante garantizar que la tarea se ejecute lo más automáticamente posible. Si tuviera que realizar mucho trabajo manual para cada nuevo lanzamiento del modelo, sería imposible mantener este punto de referencia interno.

Por lo tanto, recomiendo crear una interfaz estándar para su punto de referencia, donde lo único que necesita cambiar por nuevo modelo es agregar una función que tome la solicitud y emite la respuesta del texto del modelo sin procesar. Luego, el resto de su aplicación puede permanecer estático cuando se lanzan nuevos modelos.

Para mantener las evaluaciones lo más automatizadas posible, recomiendo ejecutar evaluaciones automatizadas. Recientemente escribí un artículo sobre Cómo realizar una validación integral de LLM a gran escaladonde puede obtener más información sobre la validación y la evaluación automatizadas. Lo más destacado es que puede ejecutar una función regex para verificar la corrección o utilizar LLM como juez.

Prueba en su punto de referencia interno

Ahora que ha desarrollado su punto de referencia interno, es hora de probar algunos LLM. Recomiendo al menos probar todos los desarrolladores de modelos de frontera de código cerrado, como

Sin embargo, también recomiendo probar los lanzamientos de código abierto también, por ejemplo, con

En general, cada vez que un nuevo modelo causa una salpicadura (por ejemplo, cuando Deepseek lanzó R1), recomiendo ejecutarlo en su punto de referencia. Y debido a que se aseguró de desarrollar su punto de referencia para estar lo más automatizado posible, el costo es bajo para probar nuevos modelos.

Continuando, también recomiendo prestar atención a los nuevos lanzamientos de versión del modelo. Por ejemplo, Qwen lanzó inicialmente su Modelo 3. Sin embargo, un tiempo después, actualizaron este modelo con QWEN-3-2507que se dice que es una mejora sobre el modelo de base QWEN 3. Debe asegurarse de mantenerse al día en tales versiones de modelo (más pequeñas) también.

Mi último punto para ejecutar el punto de referencia es que debes ejecutar el punto de referencia regularmente. La razón de esto es que los modelos pueden cambiar con el tiempo. Por ejemplo, si está utilizando OpenAI y no bloquea la versión del modelo, puede experimentar cambios en las salidas. Por lo tanto, es importante ejecutar regularmente puntos de referencia, incluso en modelos que ya ha probado. Esto se aplica especialmente si tiene un modelo de este tipo en producción, donde el mantenimiento de salidas de alta calidad es fundamental.

Evitar la contaminación

Al utilizar un punto de referencia interno, es increíblemente importante evitar la contaminación, por ejemplo, al tener algunos de los datos en línea. La razón de esto es que los modelos fronterizos de hoy han raspado esencialmente todo el Internet para los datos web y, por lo tanto, los modelos tienen acceso a todos estos datos. Si sus datos están disponibles en línea (especialmente si las soluciones en sus puntos de referencia están disponibles), tiene un problema de contaminación a mano, y el modelo probablemente tiene acceso a los datos de su pre-entrenamiento.

Use el menor tiempo posible

Imagine que esta tarea se mantiene actualizada en las versiones del modelo. Sí, es una parte súper importante de su trabajo; Sin embargo, esta es una parte en la que puede pasar poco tiempo y aún así obtener mucho valor. Por lo tanto, recomiendo minimizar el tiempo que pasa en estos puntos de referencia. Cada vez que se lanza un nuevo modelo Frontier, prueba el modelo con su punto de referencia y verifica los resultados. Si el nuevo modelo logra resultados enormemente mejorados, debe considerar cambiar modelos en su aplicación o vida cotidiana. Sin embargo, si solo ve una pequeña mejora incremental, probablemente debería esperar más lanzamientos de modelos. Tenga en cuenta que cuando debe cambiar el modelo depende de factores como:

  • ¿Cuánto tiempo se tarda en cambiar los modelos?
  • La diferencia de costos entre el modelo antiguo y el nuevo
  • Estado latente

Conclusión

En este artículo, he discutido cómo puede desarrollar un punto de referencia interno para probar todos los lanzamientos de LLM que ocurren recientemente. Mantenerse actualizado en los mejores LLM es difícil, especialmente cuando se trata de pruebas, lo que LLM funciona mejor en su caso de uso. El desarrollo de puntos de referencia internos hace que este proceso de prueba sea mucho más rápido, por lo que recomiendo que se mantenga actualizado en LLM.

👉 Encuéntrame en Socials:

🧑‍💻 Ponerse en contacto

🔗 LinkedIn

🐦 X / Twitter

✍️ Medio

O lee mis otros artículos: