Comprender el significado implícito es un aspecto fundamental de la comunicación humana. Sin embargo, los modelos actuales de inferencia del lenguaje natural (NLI) luchan por reconocer las implícitas implícitas, declaraciones que se infieren lógicamente pero no se declaran explícitamente. La mayoría de los conjuntos de datos NLI actuales se centran en implícitas implícitas, lo que hace que los modelos estén insuficientemente equipados para lidiar con escenarios donde el significado se expresa indirectamente. Esta limitación prohíbe el desarrollo de aplicaciones como la IA conversacional, el resumen y la toma de decisiones sensibles al contexto, donde la capacidad de inferir implicaciones tácitas es crucial. Para mitigar esta deficiencia, se necesitan un conjunto de datos y un enfoque que incorpore sistemáticamente implícitos en las tareas NLI.
Los puntos de referencia actuales de NLI como SNLI, MNLI, ANLI y WANLI están dominados en gran medida por implícitas implícitas, con implícitas implícitas que constituyen una proporción insignificante del conjunto de datos. Por lo tanto, los modelos de vanguardia capacitados en estos conjuntos de datos tienden a etiquetar mal implicados como neutrales o contradictorios. Los esfuerzos anteriores para introducir una comprensión de la implicatura se han centrado en entradas estructuradas como las relaciones lógicas de respuesta indirecta o predefinidas, que no se generalizan a la configuración de razonamiento de forma libre. Incluso los modelos grandes como GPT-4 exhiben una brecha de rendimiento significativa entre la detección de implicación explícita e implícita, que requiere un enfoque más integral.
Los investigadores de Google DeepMind y la Universidad de Pensilvania han propuesto el conjunto de datos NLI (INLI) implícito para cerrar la brecha entre los modelos explícitos e implícitos de la inferencia del lenguaje natural (NLI). Su documento propone un método sistemático para incorporar el significado implícito en la capacitación NLI utilizando marcos de implicación estructurados de conjuntos de datos actuales como Ludwig, Circa, Normbank y SocialChem para transformar estos marcos en pares de ⟨ -Premisos, implícitos, implícita. Además, cada premisa también se combina con implícitas implícitas, hipótesis neutrales y contradicciones para crear un conjunto de datos inclusivo para el entrenamiento de modelos. Un método innovador de solicitación de pocos disparos utilizando Gemini-Pro garantiza la generación de implícitas de alta calidad implícitos mientras, al mismo tiempo, reduce los gastos de anotación y garantiza la integridad de los datos. La incorporación del significado implícito en las tareas NLI permite la diferenciación entre implícitas e implícitas implícitas por modelos con mayor precisión.
La creación del conjunto de datos INLI es un procedimiento de dos etapas. Primero, los conjuntos de datos estructurados existentes con implicaciones como las respuestas indirectas y las normas sociales se reestructuran en un formato de premisas, implicada. En la etapa dos, para garantizar la fuerza del conjunto de datos, las implícitas implícitas, declaraciones neutrales y contradicciones se generan mediante la manipulación controlada de las implicadas implicadas. El conjunto de datos comprende 40,000 hipótesis (implícitas, explícitas, neutrales y contradictorias) para 10,000 locales, ofreciendo un conjunto de capacitación diverso y equilibrado. Los experimentos de ajuste fino que utilizan modelos T5-XXL emplean un rango de tasas de aprendizaje (1e-6, 5e-6, 1e-5) en más de 50,000 pasos de capacitación para mejorar la identificación de implícitas implícitas.
Los modelos ajustados en INLI muestran una mejora dramática en la detección de implícitas implícitas, con una precisión óptima del 92.5% en comparación con la precisión del 50-71% para los modelos ajustados en los conjuntos de datos NLI típicos. Los modelos ajustados se generalizan bien a los conjuntos de datos invisibles con alta precisión, obteniendo un 94.5% en Normbank y 80.4% en SocialChem, estableciendo la robustez de los dominios variados. Además, las líneas de base de solo hipótesis demuestran que los modelos ajustados en el apalancamiento de INLI, tanto la premisa como la hipótesis de inferencia, disminuyendo la probabilidad de aprendizaje de patrones superficiales. Estos resultados establecen la robustez de INLI en el puente de implícitos explícitos e implícitos y, a su vez, mejoran sustancialmente la capacidad de la IA para la comunicación humana refinada.
Este documento hace contribuciones significativas a NLI al proponer el conjunto de datos NLI implícito (INLI), que introduce sistemáticamente el significado implícito para las tareas de inferencia. Empleando marcos implicados estructurados y generación de hipótesis alternativa, este enfoque mejora la precisión del modelo para detectar implícitas implícitas y facilita la generalización mejorada entre los dominios. Con una fuerte evidencia empírica para establecer su robustez, INLI establece un nuevo punto de referencia para capacitar a los modelos de IA para identificar un significado implícito, lo que lleva a una comprensión del lenguaje natural más matizado y consciente del contexto.
Verificar el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos Gorjeo y únete a nuestro Canal de telegrama y LinkedIn GRsalpicar. No olvides unirte a nuestro 70k+ ml de subreddit.
🚨 Conocer Intellagent: Un marco de múltiples agentes de código abierto para evaluar un sistema de IA conversacional complejo (Promocionado)
Aswin AK es un pasante de consultoría en MarktechPost. Está persiguiendo su doble título en el Instituto de Tecnología Indio, Kharagpur. Le apasiona la ciencia de datos y el aprendizaje automático, aportando una sólida experiencia académica y una experiencia práctica en la resolución de desafíos de dominio de la vida real.