NuMind lanza tres modelos SOTA NER que superan a los modelos de cimentación de tamaño similar en el régimen de pocas tomas y compiten con LLM mucho más grandes




El reconocimiento de entidades nombradas (NER) es vital en el procesamiento del lenguaje natural, con aplicaciones que abarcan codificación médica, análisis financiero y análisis de documentos legales. Los modelos personalizados generalmente se crean utilizando codificadores transformadores previamente entrenados en tareas autosupervisadas como el modelado de lenguaje enmascarado (MLM). Sin embargo, en los últimos años se ha visto el surgimiento de grandes modelos de lenguaje (LLM) como GPT-3 y GPT-4, que pueden abordar tareas de NER a través de indicaciones bien diseñadas, pero plantean desafíos debido a los altos costos de inferencia y posibles preocupaciones de privacidad.

El equipo de NuMind presenta un enfoque que sugiere utilizar LLM para minimizar las anotaciones humanas para la creación de modelos personalizados. En lugar de emplear un LLM para anotar un conjunto de datos de dominio único para una tarea NER específica, la idea implica utilizar el LLM para anotar un conjunto de datos diverso y multidominio que cubra varios problemas NER. Posteriormente, se entrena previamente un modelo básico más pequeño como BERT en este conjunto de datos anotado. Este modelo previamente entrenado se puede ajustar para cualquier tarea NER posterior.

El equipo ha presentado sus tres modelos NER, que son los siguientes:

  1. NuNER Cero: Un modelo NER de disparo cero adopta la arquitectura GLiNER (modelo generalista para el reconocimiento de entidades nombradas mediante transformador bidireccional) y requiere entrada como una concatenación de tipos de entidades y texto. A diferencia de GLiNER, NuNER Zero funciona como un clasificador de tokens, lo que permite la detección de entidades arbitrariamente largas. Entrenado en el conjunto de datos NuNER v2.0, que fusiona subconjuntos de Pile y C4 anotados a través de LLM utilizando el procedimiento de NuNER, NuNER Zero emerge como el modelo NER compacto líder de disparo cero, con una mejora de puntuación F1 a nivel de token de +3,1 % sobre GLiNER. -large-v2.1 en el punto de referencia de GLiNER.
  1. NuNER cero 4k: NuNER Zero 4k es la versión de contexto largo (tokens 4k) de NuNER Zero. Generalmente tiene menos rendimiento que NuNER Zero, pero puede superar a NuNER Zero en aplicaciones donde el tamaño del contexto importa.
  1. NuNER cero-span: NuNER Zero-span es la versión de predicción de intervalos de NuNER Zero, que muestra un rendimiento ligeramente mejor que NuNER Zero pero no puede detectar entidades de más de 12 tokens.

Las características clave de estos tres modelos son:

  • NuNER Cero: Originado en NuNER, conveniente para tokens de tamaño moderado.
  • NuNER cero 4K: Una variación de NuNER funciona mejor en escenarios donde el tamaño del contexto importa.
  • NuNER cero-span: La versión de predicción de intervalo de NuNER Zero no es conveniente para entidades de más de 12 tokens.

En conclusión, NER es crucial en el procesamiento del lenguaje natural; sin embargo, la creación de modelos personalizados generalmente depende de codificadores transformadores entrenados a través de MLM. Sin embargo, el aumento de LLM como GPT-3 y GPT-4 plantea desafíos debido a los altos costos de inferencia. El equipo de NuMind propone un enfoque que utiliza LLM para reducir las anotaciones humanas mediante la anotación de un conjunto de datos de múltiples dominios. Presentan tres modelos NER: NuNER Zero, un modelo compacto de disparo cero; NuNER Zero 4k, que enfatiza un contexto más amplio; y NuNER Zero-span, que prioriza la predicción de intervalos con ligeras mejoras de rendimiento pero limitada a entidades con menos de 12 tokens.


Fuentes

  1. https://huggingface.co/numind/NuNER_Zero-4k
  2. https://huggingface.co/numind/NuNER_Zero
  3. https://huggingface.co/numind/NuNER_Zero-span
  4. https://arxiv.org/pdf/2402.15343
  5. https://www.linkedin.com/posts/tomaarsen_numind-yc-s22-has-just-released-3-new-state-of-the-art-activity-7195863382783049729-kqko/?utm_source=share&utm_medium=member_ios


A Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en IIT Madras, le apasiona aplicar la tecnología y la inteligencia artificial para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.