Aunque siempre ha desempeñado un papel esencial en el procesamiento del lenguaje natural, el procesamiento de datos textuales ahora ve nuevos usos en este campo. Esto es especialmente cierto cuando se trata de la función de los LLM como interfaces genéricas; Estas interfaces toman ejemplos e instrucciones generales del sistema, tareas y otras especificaciones expresadas en lenguaje natural. Como resultado, ahora hay muchos tipos distintos de entradas (o indicaciones) que un modelo puede recibir, incluidas instrucciones de tareas, ejemplos en contexto, indicaciones del sistema y más. Además, se pueden utilizar varios métodos y paradigmas para evaluar los modelos de generación de texto porque los resultados del modelo representan datos textuales ricos en sí mismos. Debido a esto, analizar datos textuales para LLM se está volviendo más complicado. Contiene varias decisiones y características de diseño no triviales, que hacen que sea más difícil mantener la investigación de LLM flexible y reproducible.
IBM Research presenta Unitxt, una novedosa plataforma colaborativa para procesar datos textuales unificados, que se presenta aquí. Con su nuevo módulo Python, los usuarios pueden manejar datos textuales en muchos idiomas usando recetas, esencialmente canalizaciones configurables. Los operadores que cargan datos los preprocesan, preparan diferentes partes de un mensaje o evalúan las predicciones del modelo son todos parte de una receta, una secuencia de operadores para el procesamiento de datos textuales. Unitxt viene con un catálogo lleno de recetas predefinidas para diferentes trabajos para promover la reutilización.
El catálogo también cuenta con un amplio conjunto de operadores integrados en los que se basan. La colaboración, la transparencia y la reproducibilidad se mejoran al tener todos estos componentes en un solo lugar, donde cualquiera puede agregar o compartir operadores o recetas. La modularidad de Unitxt permite a los usuarios mezclar y combinar ingredientes para crear nuevas recetas, como si se adaptaran a una receta. Los usuarios pueden experimentar con muchas recetas, trabajos, conjuntos de datos y opciones de formato adicionales mezclando y combinando ingredientes, lo que permite a Unitxt manejar más de 100.000 configuraciones de recetas. Unitxt comprende lo molesto que es cambiar de biblioteca; Para facilitar las cosas, está diseñado para funcionar con código existente, por lo que los usuarios pueden usarlo sin instalar pip.
A modo de ejemplo, Unitxt puede cargar conjuntos de datos de HuggingFace y proporcionar resultados que sigan el mismo formato, lo que le permite combinarse perfectamente con otras secciones del software.
Los marcos de evaluación que evalúan modelos sobre una enorme cantidad de conjuntos de datos, cargas de trabajo y configuraciones son necesarios para las crecientes capacidades de los LLM. Esfuerzos como estos pueden depender de Unitxt como base, ya que permite ajustes simples en varias dimensiones cruciales, como idiomas, tareas, estructura de indicaciones (por ejemplo, verbalizaciones, instrucciones, etc.), solidez del aumento y más. Además, el Catálogo Unitxt permite que proyectos separados compartan todos sus procesos de evaluación, lo que facilita la preparación de datos y la replicación de métricas de evaluación.
Los marcos de formación de LLM modernos exigen una gran cantidad de datos para lograr un rendimiento de última generación. Para impartir habilidades amplias, es necesario aprovechar varios conjuntos de datos en numerosas disciplinas e idiomas. Para permitir el seguimiento de instrucciones, se necesitan varias formulaciones y verbalizaciones rápidas. Sin embargo, existen obstáculos técnicos sustanciales que superar al fusionar representaciones textuales con diversas fuentes de datos. El aumento de datos, el aprendizaje multitarea y el ajuste en pocos intentos se vuelven extremadamente difíciles sin una base subyacente compartida. Unitxt es una columna vertebral de datos crucial que entra en juego aquí. Con Unitxt, integrar diferentes conjuntos de datos es muy sencillo. Además de permitir el formato específico del modelo, aumentos de datos, generación dinámica de mensajes y actualizaciones de conjuntos de datos, el formato estándar también facilita el uso de otras funciones. Unitxt permite a los académicos concentrarse en desarrollar LLM seguros, sólidos y de alto rendimiento al abordar la dificultad de la manipulación de datos. Varios equipos que trabajan en diferentes actividades de procesamiento del lenguaje natural (NLP) ya han utilizado Unitxt como una utilidad principal para los LLM en IBM. Estos equipos trabajan en clasificación, extracción, resumen, generación, respuesta a preguntas, código, sesgos, etc.
Unitxt ya se ha utilizado para entrenar y evaluar grandes modelos de lenguajes en IBM. El equipo espera ver aumentar la tasa de adopción de la biblioteca para que el procesamiento de datos textuales del LLM pueda alcanzar nuevas alturas a medida que se desarrolle con la ayuda de la comunidad de código abierto. Debido a que unifica el procesamiento de datos textuales, el equipo cree que Unitxt puede acelerar el progreso hacia LLM más capaces, seguros y confiables a través de su énfasis en la cooperación, la reproducibilidad y la adaptabilidad.
Revisar la Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Unirse nuestro SubReddit de 36k+ ML, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.
Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..
No olvides unirte a nuestro Canal de telegramas
Dhanshree Shenwai es ingeniero en informática y tiene una buena experiencia en empresas de tecnología financiera que cubren el ámbito financiero, tarjetas y pagos y banca con un gran interés en las aplicaciones de IA. Le entusiasma explorar nuevas tecnologías y avances en el mundo en evolución de hoy que facilita la vida de todos.