¿Podemos optimizar la IA para la recuperación de información con menos computación?  Este artículo sobre IA presenta InRanker: un enfoque innovador para destilar grandes clasificadores neuronales

El despliegue práctico de clasificadores neuronales de parámetros multimillonarios en sistemas del mundo real plantea un desafío importante en la recuperación de información (IR). Estos clasificadores neuronales avanzados demuestran una alta eficacia, pero se ven obstaculizados por sus importantes requisitos computacionales para la inferencia, lo que los hace poco prácticos para su uso en producción. Este dilema plantea un problema crítico en IR, ya que es necesario equilibrar los beneficios de estos grandes modelos con su viabilidad operativa.

Se han realizado importantes esfuerzos de investigación en este campo, que incluyen la utilización de texto sintético de PaLM 540B y GPT-3 175B para la transferencia de conocimientos a modelos más pequeños como T5, razonamiento de varios pasos utilizando FlanT5 y code-DaVinci-002 y destilación de cruces. -puntuaciones de atención para la predicción de la tasa de clics, integrando funciones contextuales. Varios investigadores han trabajado en destilar el módulo de autoatención de los transformadores. También se han logrado avances utilizando la pérdida de MarginMSE para dos propósitos distintos: uno para destilar conocimiento en diferentes diseños arquitectónicos y otro para refinar modelos neuronales dispersos. Las pseudoetiquetas de modelos avanzados de codificadores cruzados como BERT son uno de los métodos para generar datos sintéticos para la adaptación de dominios de recuperadores de pasajes densos.

Investigadores de UNICAMP, NeuralMind y Zeta Alpha propusieron un método llamado InRanker para destilar grandes clasificadores neuronales en versiones más pequeñas con mayor efectividad en escenarios fuera del dominio. El enfoque implica dos fases de destilación: (1) capacitación sobre etiquetas suaves de docentes supervisadas existentes y (2) capacitación sobre etiquetas suaves de docentes para consultas sintéticas generadas utilizando un modelo de lenguaje grande.

La primera fase utiliza datos del mundo real del conjunto de datos de MS MARCO para familiarizar al modelo del estudiante con la tarea de clasificación. La segunda fase utiliza consultas sintéticas generadas por un LLM basadas en documentos del corpus seleccionados aleatoriamente. Su objetivo es mejorar la generalización cero utilizando datos sintéticos generados a partir de un LLM. El proceso de destilación permite que modelos más pequeños como monoT5-60M y monoT5-220M mejoren su efectividad utilizando el conocimiento del profesor a pesar de ser significativamente más pequeños.

La investigación demostró con éxito que los modelos más pequeños como monoT5-60M y monoT5-220M, destilados utilizando la metodología InRanker, mejoraron significativamente su efectividad en escenarios fuera de dominio. A pesar de ser sustancialmente más pequeños, estos modelos pudieron igualar y en ocasiones superar el rendimiento de sus homólogos más grandes en diversos entornos de prueba. Este avance es particularmente beneficioso en aplicaciones del mundo real con recursos computacionales limitados, ya que proporciona una solución más práctica y escalable para tareas de IR.

En conclusión, esta investigación marca un avance significativo en IR, presentando una solución práctica al desafío de utilizar grandes clasificadores neuronales en entornos de producción. El método InRanker destila eficazmente el conocimiento de modelos grandes en versiones más pequeñas y más eficientes sin comprometer la efectividad fuera del dominio. Este enfoque aborda las limitaciones computacionales de implementar modelos grandes y abre nuevas vías para una IR escalable y eficiente. Los hallazgos tienen implicaciones sustanciales para futuras investigaciones y aplicaciones prácticas en el campo de las RI.


Revisar la Papel y Github. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Unirse nuestro SubReddit de 36k+ ML, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Canal de telegramas


Nikhil es consultor interno en Marktechpost. Está cursando una doble titulación integrada en Materiales en el Instituto Indio de Tecnología de Kharagpur. Nikhil es un entusiasta de la IA/ML que siempre está investigando aplicaciones en campos como los biomateriales y la ciencia biomédica. Con una sólida formación en ciencia de materiales, está explorando nuevos avances y creando oportunidades para contribuir.