La adopción de nuevas herramientas y tecnologías se produce cuando los usuarios las perciben en gran medida como confiables, accesibles y una mejora con respecto a los métodos y flujos de trabajo disponibles por su costo. Cinco estudiantes de doctorado de la clase inaugural del Programa de Verano del Laboratorio de IA Watson de MIT-IBM están utilizando recursos de última generación, aliviando los puntos débiles de la IA y creando nuevas características y capacidades para promover la utilidad y la implementación de la IA, desde aprender cuándo confiar en un modelo que predice la precisión de otro hasta razonar de manera más efectiva sobre bases de conocimiento. Juntos, los esfuerzos de los estudiantes y sus mentores forman una línea directa donde la investigación práctica y técnicamente rigurosa conduce a modelos más confiables y valiosos en todos los dominios.
Al construir sondas, enrutadores, nuevos mecanismos de atención, conjuntos de datos sintéticos y canales de síntesis de programas, el trabajo de los estudiantes abarca seguridad, eficiencia de inferencia, datos multimodales y razonamiento basado en el conocimiento. Sus técnicas enfatizan la ampliación y la integración, con el impacto siempre a la vista.
Aprender a confiar, y cuando
La investigación del estudiante graduado de matemáticas del MIT Andrey Bryutkin prioriza la confiabilidad de los modelos. Busca estructuras internas dentro de los problemas, como las ecuaciones que gobiernan un sistema y las leyes de conservación, para comprender cómo aprovecharlas para producir soluciones más confiables y sólidas. Armado con esto y trabajando con el laboratorio, Bryutkin desarrolló un método para analizar la naturaleza de los comportamientos de los grandes modelos de aprendizaje (LLM). Junto con Veronika Thost de IBM Research del laboratorio y Marzyeh Ghassemi, profesora asociada y profesora de desarrollo profesional de Germeshausen en el Departamento de Ingeniería Eléctrica y Ciencias de la Computación (EECS) del MIT y miembro del Instituto de Ciencias de Ingeniería Médica y del Laboratorio de Sistemas de Información y Decisión, Bryutkin exploró la “incertidumbre de la incertidumbre” de los LLM.
Clásicamente, pequeñas redes neuronales de retroalimentación de dos a tres capas de profundidad, llamadas sondas, se entrenan junto con los LLM y se emplean para señalar respuestas no confiables del modelo más grande a los desarrolladores; sin embargo, estos clasificadores también pueden producir falsos negativos y solo proporcionan estimaciones puntuales, que no ofrecen mucha información sobre cuándo está fallando el LLM. Al investigar indicaciones seguras/inseguras y tareas de preguntas y respuestas, el equipo de MIT-IBM utilizó pares de etiquetas de indicaciones, así como estados ocultos como vectores de activación y últimos tokens de un LLM, para medir puntuaciones de gradiente, sensibilidad a indicaciones y datos fuera de distribución para determinar qué tan confiable era la sonda y aprender áreas de datos que son difíciles de predecir. Su método también ayuda a identificar posibles ruidos en el etiquetado. Esta es una función crítica, ya que la confiabilidad de los sistemas de IA depende completamente de la calidad y precisión de los datos etiquetados sobre los que se basan. Sondeos más precisos y consistentes son especialmente importantes para dominios con datos críticos en aplicaciones como la familia de modelos Granite Guardian de IBM.
Otra forma de garantizar respuestas confiables a las consultas de un LLM es aumentarlas con bases de conocimiento externas y confiables para eliminar las alucinaciones. Para datos estructurados, como conexiones de redes sociales, transacciones financieras o bases de datos corporativas, los gráficos de conocimiento (KG) son ideales; sin embargo, las comunicaciones entre LLM y KG a menudo utilizan canalizaciones fijas de múltiples agentes que son computacionalmente ineficientes y costosas. Para abordar esto, el estudiante de posgrado en física Jinyeop Song, junto con los investigadores de laboratorio Yada Zhu de IBM Research y el profesor asociado de EECS Julian Shun crearon un marco de aprendizaje de refuerzo de múltiples turnos y de un solo agente que agiliza este proceso. Aquí, el grupo diseñó un servidor API que aloja Freebase y Wikidata KG, que consisten en datos de conocimiento generales basados en la web, y un agente LLM que emite acciones de recuperación específicas para obtener información pertinente del servidor. Luego, a través de un intercambio continuo, el agente agrega los datos recopilados de los KG al contexto y responde a la consulta. Fundamentalmente, el sistema utiliza el aprendizaje por refuerzo para entrenarse a sí mismo y ofrecer respuestas que logren un equilibrio entre precisión e integridad. El marco combina un servidor API con un único agente de aprendizaje por refuerzo para orquestar el razonamiento basado en datos con mayor precisión, transparencia, eficiencia y transferibilidad.
Gastar el cálculo sabiamente
La puntualidad y la integridad de la respuesta de un modelo tienen un peso similar a la importancia de su precisión. Esto es especialmente cierto para el manejo de textos de entrada largos y aquellos en los que los elementos, como el tema de una historia, evolucionan con el tiempo, por lo que el estudiante graduado de EECS, Songlin Yang, está rediseñando qué modelos pueden manejar en cada paso de la inferencia. Centrándose en las limitaciones de los transformadores, como las de los LLM, Rameswar Panda de IBM Research del laboratorio y Yoon Kim, profesor de NBX y profesor asociado en EECS, se unieron a Yang para desarrollar arquitecturas de modelos de lenguaje de próxima generación más allá de los transformadores.
Los transformadores enfrentan dos limitaciones clave: alta complejidad computacional en el modelado de secuencia larga debido al mecanismo de atención softmax y expresividad limitada resultante del débil sesgo inductivo de RoPE (codificación posicional rotativa). Esto significa que a medida que se duplica la longitud de la entrada, el costo computacional se cuadriplica. RoPE permite a los transformadores comprender el orden de secuencia de los tokens (es decir, palabras); sin embargo, no hace un buen trabajo al capturar cambios de estado internos a lo largo del tiempo, como valores de variables, y está limitado a la duración de las secuencias observadas durante el entrenamiento.
Para abordar esto, el equipo MIT-IBM exploró algoritmos teóricamente fundamentados pero eficientes en hardware. Como alternativa a la atención softmax, adoptaron la atención lineal, reduciendo la complejidad cuadrática que limita la longitud factible de la secuencia. También investigaron arquitecturas híbridas que combinan softmax y atención lineal para lograr un mejor equilibrio entre eficiencia computacional y rendimiento.
Al aumentar la expresividad, reemplazaron RoPE con una codificación posicional reflexiva dinámica basada en la transformación de Householder. Este enfoque permite interacciones posicionales más ricas para una comprensión más profunda de la información secuencial, manteniendo al mismo tiempo un cálculo rápido y eficiente. El avance del equipo MIT-IBM reduce la necesidad de que los transformadores divida los problemas en muchos pasos, permitiéndoles en cambio manejar subproblemas más complejos con menos tokens de inferencia.
Visiones nuevas
Los datos visuales contienen multitudes que el cerebro humano puede analizar, internalizar y luego imitar rápidamente. Utilizando modelos de visión y lenguaje (VLM), dos estudiantes de posgrado están explorando formas de hacerlo a través del código.
Durante los últimos dos veranos y bajo el asesoramiento de Aude Oliva, directora del MIT-IBM Watson AI Lab y científica investigadora senior en el Laboratorio de Ciencias de la Computación e Inteligencia Artificial; y Rogerio Feris, Dan Gutfreund y Leonid Karlinsky de IBM Research (ahora en Xero), Jovana Kondic de EECS ha explorado la comprensión de documentos visuales, específicamente gráficos. Estos contienen elementos, como puntos de datos, leyendas y etiquetas de ejes, que requieren reconocimiento óptico de caracteres y razonamiento numérico, algo con lo que los modelos aún tienen problemas. Para facilitar el desempeño en tareas como estas, el grupo de Kondic se propuso crear un gran conjunto de datos de gráficos sintéticos de código abierto a partir de código que podría usarse para capacitación y evaluación comparativa.
Con su prototipo, ChartGen, los investigadores crearon una canalización que pasa imágenes de gráficos semilla a través de un VLM, al que se le solicita que lea el gráfico y genere un script de Python que probablemente se usó para crear el gráfico en primer lugar. Luego, el componente LLM del marco aumenta de forma iterativa el código de muchos gráficos para, en última instancia, producir más de 200 000 pares únicos de gráficos y sus códigos, que abarcan casi 30 tipos de gráficos, además de datos de respaldo y anotaciones como descripciones y pares de preguntas y respuestas sobre los gráficos. El equipo está ampliando aún más su conjunto de datos, ayudando a permitir una comprensión multimodal crítica de visualizaciones de datos para aplicaciones empresariales como informes financieros y científicos, blogs y más.
En lugar de gráficos, el estudiante graduado de EECS, Leonardo Hernández Cano, tiene sus ojos puestos en el diseño digital, específicamente en la generación de texturas visuales para aplicaciones CAD y el objetivo de descubrir formas eficientes de habilitar capacidades en VLM. En equipo con los grupos de laboratorio dirigidos por Armando Solar-Lezama, profesor de EECS y Profesor Distinguido de Computación en la Facultad de Computación Schwarzman del MIT, y Nathan Fulton de IBM Research, Hernández Cano creó un sistema de síntesis de programas que aprende a refinar el código por sí solo. El sistema comienza con una descripción de textura proporcionada por un usuario en forma de imagen. Luego genera un programa Python inicial, que produce texturas visuales, y refina iterativamente el código con el objetivo de encontrar un programa que produzca una textura que coincida con la descripción objetivo, aprendiendo a buscar nuevos programas a partir de los datos que produce el propio sistema. A través de estos refinamientos, el novedoso programa puede crear visualizaciones con la luminosidad, color, iridiscencia, etc. deseados, imitando materiales reales.
Cuando se ven en conjunto, estos proyectos, y las personas detrás de ellos, están dando un impulso cohesivo hacia una inteligencia artificial más robusta y práctica. Al abordar los desafíos centrales de la confiabilidad, la eficiencia y el razonamiento multimodal, el trabajo allana el camino para sistemas de IA que no solo son más poderosos, sino también más confiables y rentables, para aplicaciones científicas y empresariales del mundo real.