La nueva versión preliminar o1 de OpenAI es demasiado cara para el rendimiento que ofrece en los resultados
Muchos de mis clientes me piden consejo sobre qué modelo de lenguaje amplio (LLM) utilizar para crear productos adaptados a los usuarios de habla neerlandesa. Sin embargo, la mayoría de los benchmarks disponibles son multilingües y no se centran específicamente en el neerlandés. Como ingeniero de aprendizaje automático e investigador de doctorado en aprendizaje automático en la Universidad de Ámsterdam, sé lo cruciales que han sido los benchmarks para el avance de la IA, pero también entiendo los riesgos cuando se confía ciegamente en ellos. Por eso decidí experimentar y realizar algunos benchmarks específicos para el neerlandés por mi cuenta.
En esta publicación, encontrará una mirada en profundidad a mi primer intento de evaluación comparativa de varios modelos de lenguaje grandes (LLM) en preguntas de exámenes reales de holandés. Lo guiaré a través de todo el proceso, desde la recopilación de más de 12 000 archivos PDF de exámenes hasta la extracción de pares de preguntas y respuestas y la calificación automática del rendimiento de los modelos mediante LLM. Verá cómo se desempeñaron modelos como o1-preview, o1-mini, GPT-4o, GPT-4o-mini y Claude-3 en diferentes niveles educativos de holandés, desde VMBO hasta VWO, y si los costos más altos de ciertos modelos conducen a mejores resultados. Este es solo un primer intento de abordar el problema y es posible que profundice más en más publicaciones como esta en el futuro, explorando otros modelos y tareas. También hablaré sobre los desafíos y los costos involucrados y compartiré algunas ideas sobre qué modelos ofrecen el mejor valor para las tareas en idioma holandés. Si está creando o escalando productos basados en LLM para el mercado holandés, esta publicación le brindará información valiosa para ayudarlo a orientar sus elecciones a partir de septiembre de 2024.
Cada vez es más habitual que empresas como OpenAI hagan afirmaciones atrevidas, casi extravagantes, sobre las capacidades de sus modelos, a menudo sin suficiente validación en el mundo real que las respalde. Por eso es tan importante evaluar estos modelos como puntos de referencia, especialmente cuando se comercializan como soluciones para todo, desde razonamientos complejos hasta la comprensión de lenguajes con matices. Con afirmaciones tan grandilocuentes, es vital realizar pruebas objetivas para ver qué tan bien funcionan realmente y, más específicamente, cómo manejan los desafíos únicos del idioma holandés.
Me sorprendió descubrir que no se han realizado investigaciones exhaustivas sobre la evaluación comparativa de los LLM para el holandés, lo que me llevó a tomar cartas en el asunto en una tarde lluviosa. Con tantas instituciones y empresas que confían cada vez más en estos modelos, me pareció que era el momento adecuado para sumergirme y comenzar a validarlos. Así que aquí está mi primer intento de comenzar a llenar ese vacío, y espero que ofrezca información valiosa para cualquiera que trabaje con el idioma holandés.
Muchos de mis clientes trabajan con productos en holandés y necesitan modelos de IA que sean rentables y de alto rendimiento en la comprensión y el procesamiento del idioma. Aunque los modelos de idiomas grandes (LLM) han logrado avances impresionantes, la mayoría de los puntos de referencia disponibles se centran en el inglés o en capacidades multilingües, y a menudo descuidan los matices de idiomas más pequeños como el holandés. Esta falta de enfoque en el holandés es significativa porque las diferencias lingüísticas pueden generar grandes brechas de rendimiento cuando se le pide a un modelo que comprenda textos que no estén en inglés.
Hace cinco años, los modelos de aprendizaje profundo de NLP para holandés estaban lejos de estar maduros (como las primeras versiones de BERT). En ese momento, los métodos tradicionales como TF-IDF combinados con regresión logística a menudo superaban a los primeros modelos de aprendizaje profundo en las tareas de idioma holandés en las que trabajé. Si bien los modelos (y los conjuntos de datos) han mejorado enormemente desde entonces, especialmente con el auge de los transformadores y los LLM multilingües preentrenados, sigue siendo fundamental verificar qué tan bien se traducen estos avances a idiomas específicos como el holandés. La suposición de que las mejoras de rendimiento en inglés se trasladan a otros idiomas no siempre es válida, especialmente para tareas complejas como la comprensión lectora.
Por eso me concentré en crear un punto de referencia personalizado para el holandés, utilizando datos reales de los exámenes holandeses “Nederlands” (estos exámenes pasan a ser de dominio público después de su publicación). Estos exámenes no solo implican un procesamiento lingüístico simple; ponen a prueba la “comprensión lectora” y exigen que los estudiantes comprendan la intención detrás de varios textos y respondan preguntas matizadas sobre ellos. Este tipo de tarea es particularmente importante porque refleja aplicaciones del mundo real, como el procesamiento y resumen de documentos legales, artículos de noticias o consultas de clientes escritos en holandés.
Al evaluar a los LLM en esta tarea específica, quería obtener una visión más profunda de cómo los modelos manejan la complejidad del idioma holandés, especialmente cuando se les pide que interpreten intenciones, saquen conclusiones y respondan con respuestas precisas. Esto es crucial para las empresas que crean productos adaptados a los usuarios de habla holandesa. Mi objetivo era crear un punto de referencia más específico y relevante para ayudar a identificar qué modelos ofrecen el mejor rendimiento para el holandés, en lugar de depender de puntos de referencia multilingües generales que no captan por completo las complejidades del idioma.