NuMind lanza NuExtract: un LLM ligero de texto a JSON especializado para la tarea de extracción estructurada

NuMind presenta NuExtractoun modelo de lenguaje de conversión de texto a JSON de vanguardia que representa un avance significativo en la extracción de datos estructurados a partir de texto. Este modelo tiene como objetivo transformar texto no estructurado en datos estructurados de manera altamente eficiente. El diseño innovador y las metodologías de entrenamiento utilizadas en NuExtract lo posicionan como una alternativa superior a los modelos existentes, brindando alto rendimiento y rentabilidad.

NuExtract está diseñado para funcionar de manera eficiente con modelos que van desde 500 millones a 7 mil millones de parámetros, logrando capacidades de extracción similares o superiores en comparación con modelos de lenguaje más grandes y populares (LLM). Esta eficiencia se logra mediante la creación de tres modelos distintos dentro de la familia NuExtract: NuExtract-tiny, NuExtract y NuExtract-large. Estos modelos han demostrado un rendimiento notable en diversas tareas de extracción, y a menudo superan a los LLM significativamente más grandes.

NuExtract está disponible en tres versiones entrenadas:

NuExtract-diminuto (0.5B): Este modelo liviano es ideal para aplicaciones que requieren un rendimiento eficiente con recursos computacionales mínimos. A pesar de su pequeño tamaño, NuExtract-tiny funciona mejor que algunos modelos más grandes, lo que lo hace adecuado para tareas en las que las limitaciones de recursos son una prioridad.
Extracto de Nu (3.8B): Este modelo equilibra tamaño y rendimiento, lo que lo hace ideal para tareas de extracción más exigentes. Aprovecha una cantidad moderada de parámetros para ofrecer alta precisión y versatilidad, manejando una amplia gama de tareas de extracción estructuradas de manera eficiente.
NuExtract-grande (7B): La versión más potente, diseñada para las tareas de extracción más complejas e intensivas. Con 7 mil millones de parámetros, NuExtract-large logra niveles de rendimiento comparables a los LLM de primer nivel como GPT-4 y, al mismo tiempo, es significativamente más pequeño y rentable. Este modelo es perfecto para aplicaciones que requieren la mayor precisión y detalle en la extracción de datos.

El principal desafío que aborda NuExtract es la extracción estructurada, que implica extraer diversos tipos de información, como entidades, cantidades, fechas y relaciones jerárquicas de los documentos. La información extraída está estructurada en formato JSON, lo que facilita su análisis e integración en bases de datos o su uso para acciones automatizadas. Por ejemplo, extraer datos de un documento y organizarlos en una estructura de árbol jerárquico en formato JSON es una tarea que NuExtract maneja con alta precisión y eficiencia.

Las tareas de extracción estructuradas varían significativamente en complejidad. Si bien los métodos tradicionales, como las expresiones regulares o los modelos de aprendizaje automático no generativos, podrían manejar la extracción de entidades simples, deben mejorar cuando se trata de tareas más complejas que requieren una extracción jerárquica más profunda. Los LLM generativos modernos, incluido GPT-4, han mejorado estas capacidades al permitir la generación de árboles de extracción profunda. Sin embargo, NuExtract ha demostrado que puede lograr resultados similares con modelos mucho más pequeños, lo que lo convierte en una solución más práctica para muchas aplicaciones.

Una de las ventajas clave de NuExtract es su capacidad para manejar escenarios de extracción ajustados y sin disparo. El modelo puede extraer información basándose únicamente en una plantilla o esquema predefinido en una configuración de disparo cero sin requerir datos de entrenamiento específicos de la tarea. Esta capacidad es particularmente valiosa para aplicaciones donde no es práctico crear grandes conjuntos de datos anotados. Además, NuExtract se puede ajustar para aplicaciones específicas, mejorando aún más su rendimiento para tareas especializadas.

Para entrenar NuExtract, los desarrolladores emplearon un enfoque novedoso: utilizaron un corpus grande y diverso de texto del conjunto de datos C4, que fue anotado utilizando un LLM moderno con indicaciones cuidadosamente diseñadas. Estos datos sintéticos se utilizaron luego para ajustar un modelo básico compacto y genérico, lo que dio como resultado un modelo altamente especializado para tareas específicas. Esta metodología de capacitación garantiza que NuExtract pueda generalizarse bien en diferentes dominios, lo que lo hace versátil para diversas tareas de extracción estructuradas.

El modelo produce constantemente salidas JSON válidas, se adhiere al esquema y extrae con precisión la información relevante. Por ejemplo, en pruebas que implicaban el análisis de reacciones químicas, NuExtract identificó, clasificó y extrajo con éxito cantidades de sustancias químicas y condiciones de reacción, como duración y temperatura. Esta alta precisión demuestra el potencial de NuExtract para abordar tareas complejas de extracción en química, medicina, derecho y finanzas.

El tamaño compacto de NuExtract ofrece varios beneficios prácticos. Los modelos más pequeños son menos costosos de ejecutar, lo que permite realizar inferencias rentables. También permiten la implementación local, esencial para aplicaciones que requieren privacidad de datos. La facilidad para ajustar estos modelos los hace adaptables a casos de uso específicos, mejorando aún más su utilidad.

En conclusión, NuExtract de NuMind representa un importante avance en la extracción de datos estructurados a partir de texto. Su diseño innovador, metodología de capacitación eficiente y rendimiento impresionante en diversas tareas lo convierten en una herramienta valiosa para transformar texto no estructurado en datos estructurados. La capacidad del modelo para funcionar bien tanto en entornos de disparo cero como en entornos ajustados, junto con su rentabilidad y facilidad de implementación, lo posiciona como una solución líder para los desafíos modernos de extracción de datos.

Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como emprendedor e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.

[Announcing Gretel Navigator] Cree, edite y aumente datos tabulares con el primer sistema de IA compuesto en el que confían EY, Databricks, Google y Microsoft.

NuMind lanza NuExtract: un LLM ligero de texto a JSON especializado para la tarea de extracción estructurada

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Anthropic vuelve a implementar Claude Fable 5 el 1 de julio después del levantamiento de los controles de exportación de EE. UU. y agrega un nuevo clasificador de ciberseguridad

¿Qué podemos hacer cuando la memoria se convierte en el nuevo cuello de botella en la ingeniería de datos?

Uso de Lift para convertir archivos PDF de investigación en JSON estructurado con evaluación a nivel de campo controlada y guiada por esquemas

You missed

Telum Therapeutics recauda 18 millones de euros para avanzar en tratamientos para infecciones hospitalarias

Jueces españoles consideran llevar la amnistía masiva a los inmigrantes a los tribunales de la UE

Anthropic vuelve a implementar Claude Fable 5 el 1 de julio después del levantamiento de los controles de exportación de EE. UU. y agrega un nuevo clasificador de ciberseguridad

Por primera vez, los científicos dicen que han construido una célula sintética desde cero : ScienceAlert