Modelos de lenguajes grandes (LLM) han demostrado algunas habilidades increíbles en los últimos tiempos. El conocido ChatGPT, que se ha construido sobre la arquitectura transformadora de GPT, ha ganado gran popularidad debido a sus capacidades de imitación humana. Desde la respuesta a preguntas y el resumen de texto hasta la generación de contenido y la traducción de idiomas, tiene varios casos de uso. Con su excesiva popularidad, se ha puesto en duda lo que estos modelos realmente han aprendido durante su formación.
Según una teoría, los LLM son excelentes para detectar y pronosticar patrones y correlaciones en los datos, pero no comprenden los mecanismos fundamentales que producen los datos. En principio, se parecen a motores estadísticos muy competentes, aunque es posible que en realidad no comprendan nada. Otra teoría afirma que los LLM aprenden correlaciones y desarrollan modelos más condensados, coherentes y comprensibles de los procesos generativos subyacentes a los datos de entrenamiento.
Recientemente, dos investigadores del Instituto Tecnológico de Massachusetts han estudiado modelos de lenguaje grandes para comprender mejor cómo aprenden. La investigación explora particularmente si estos modelos realmente construyen un modelo cohesivo del proceso subyacente de generación de datos, frecuentemente denominado “modelo mundial”, o si simplemente memorizan patrones estadísticos.
Los investigadores han utilizado pruebas de sondeo con una familia de modelos LLM Llama-2 creando seis conjuntos de datos que cubren diferentes escalas espaciotemporales y comprenden nombres de lugares, eventos y las coordenadas espaciales o temporales relacionadas. Las ubicaciones en estas bases de datos abarcan todo el mundo, incluida la ciudad de Nueva York, Estados Unidos, las fechas en las que se publicaron por primera vez las obras de arte y entretenimiento y las fechas en las que se publicaron por primera vez los titulares de las noticias. Han utilizado sondas de regresión lineal en las activaciones internas de las capas de los LLM para determinar si los LLM crean representaciones del espacio y el tiempo. Estas sondas pronostican la posición o el tiempo precisos en el mundo real correspondiente a cada nombre de conjunto de datos.
La investigación ha demostrado que los LLM aprenden representaciones lineales tanto del espacio como del tiempo en diferentes escalas. Esto implica que los modelos aprenden sobre aspectos espaciales y temporales de forma estructurada y organizada. Captan las relaciones y patrones a través del espacio y el tiempo de una manera metódica en lugar de simplemente memorizar elementos de datos. También se ha descubierto que las representaciones de los LLM son resistentes a cambios en instrucciones o indicaciones. Incluso cuando la forma en que se proporciona la información difiere, los modelos demuestran consistentemente una buena comprensión y representación de la información espacial y temporal.
Según el estudio, las representaciones no se limitan a ninguna clase particular de entidades. Ciudades, monumentos, personajes históricos, obras de arte o titulares de noticias están todos representados uniformemente por los LLM en términos de espacio y tiempo, por lo que se puede inferir que los modelos producen una comprensión integral de estas dimensiones. Los investigadores incluso han reconocido neuronas LLM particulares que describen como “neuronas espaciales” y “neuronas del tiempo”. Estas neuronas expresan con precisión coordenadas espaciales y temporales, lo que demuestra la existencia de componentes especializados en los modelos que procesan y representan el espacio y el tiempo.
En conclusión, los resultados de este estudio han reforzado la noción de que los LLM contemporáneos van más allá de la memorización de estadísticas y, en cambio, aprenden información estructurada y significativa sobre dimensiones importantes como el espacio y el tiempo. Definitivamente es posible decir que los LLM son más que simples motores estadísticos y pueden representar la estructura subyacente de los procesos de generación de datos en los que están capacitados.
Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 31k+ ML, Comunidad de Facebook de más de 40.000 personas, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.
Si te gusta nuestro trabajo, te encantará nuestra newsletter.
También estamos en WhatsApp. Únase a nuestro canal de IA en Whatsapp.
Tanya Malhotra es estudiante de último año de la Universidad de Estudios de Petróleo y Energía, Dehradun, y cursa BTech en Ingeniería Informática con especialización en Inteligencia Artificial y Aprendizaje Automático.
Es una entusiasta de la Ciencia de Datos con buen pensamiento analítico y crítico, junto con un ardiente interés en adquirir nuevas habilidades, liderar grupos y gestionar el trabajo de manera organizada.