La abundancia de datos textuales disponibles a escala web ha sido un factor importante en el desarrollo de modelos de lenguaje generativo, como aquellos previamente entrenados como modelos básicos multipropósito y diseñados para tareas particulares de procesamiento del lenguaje natural (PNL). Estos modelos utilizan enormes volúmenes de texto para captar estructuras y patrones lingüísticos complejos, que posteriormente utilizan para una variedad de tareas posteriores.
Sin embargo, su desempeño en estas tareas depende en gran medida de la calidad y cantidad de datos utilizados durante el ajuste, particularmente en circunstancias del mundo real donde las predicciones precisas sobre ideas poco comunes o clases minoritarias son esenciales. En problemas de clasificación desequilibrada, el aprendizaje activo presenta desafíos sustanciales, principalmente debido a la rareza intrínseca de las clases minoritarias.
Para garantizar que se incluyan los casos minoritarios, se hace necesario recopilar un conjunto considerable de datos sin etiquetar para poder manejar adecuadamente esta dificultad. El uso de técnicas convencionales de aprendizaje activo basadas en grupos en estos conjuntos de datos desequilibrados conlleva su propio conjunto de desafíos. Cuando se trabaja con grupos grandes, estos métodos suelen ser exigentes desde el punto de vista computacional y tienen una tasa de precisión baja debido a la posibilidad de sobreajustar el límite de decisión inicial. Como resultado, es posible que no busquen lo suficiente en el espacio de entrada o no encuentren ejemplos minoritarios.
Para abordar estas cuestiones, un equipo de investigadores de la Universidad de Cambridge ha proporcionado AnchorAL, un método único para el aprendizaje activo en tareas de clasificación desequilibradas. AnchorAL elige cuidadosamente ejemplos específicos de clase, o anclajes, del conjunto etiquetado en cada iteración. Estos anclajes se utilizan como puntos de referencia para encontrar los ejemplos sin etiquetar más comparables del grupo. Estos ejemplos comparables se reúnen en un subgrupo, que luego se utiliza para el aprendizaje activo.
AnchorAL admite la aplicación de cualquier enfoque de aprendizaje activo a grandes conjuntos de datos mediante el uso de un pequeño subgrupo de tamaño fijo, escalando así el proceso de manera efectiva. Se promueve el equilibrio de clases y se evita que el límite de decisión original se sobreajuste mediante la selección dinámica de nuevos anclajes en cada iteración. El modelo es más capaz de identificar nuevos grupos de instancias minoritarias dentro del conjunto de datos debido a esta modificación dinámica.
La eficacia de AnchorAL ha quedado demostrada mediante evaluaciones experimentales realizadas en una variedad de problemas de clasificación, metodologías de aprendizaje activo y diseños de modelos. Tiene una serie de beneficios sobre las prácticas actuales, que son los siguientes.
- Eficiencia: AnchorAL mejora la eficiencia computacional al reducir drásticamente el tiempo de ejecución, frecuentemente de horas a minutos.
- Rendimiento del modelo: AnchorAL mejora la precisión de la clasificación al entrenar modelos que tienen mejor rendimiento que los entrenados con técnicas rivales.
- Representación equitativa de las clases minoritarias: AnchorAL produce conjuntos de datos con mayor equilibrio, lo cual es necesario para una categorización precisa.
En conclusión, AnchorAL es un desarrollo prometedor en el área del aprendizaje activo para tareas de clasificación desequilibradas, que proporciona una respuesta viable a los problemas presentados por clases minoritarias poco comunes y grandes conjuntos de datos.
Revisar la Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.
Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..
No olvides unirte a nuestro SubReddit de más de 40.000 ml
Tanya Malhotra es estudiante de último año de la Universidad de Estudios de Petróleo y Energía, Dehradun, y cursa BTech en Ingeniería en Ciencias de la Computación con especialización en Inteligencia Artificial y Aprendizaje Automático.
Es una entusiasta de la Ciencia de Datos con buen pensamiento analítico y crítico, junto con un ardiente interés en adquirir nuevas habilidades, liderar grupos y gestionar el trabajo de manera organizada.