Nueva técnica hace que los modelos de IA sean más ágiles y rápidos mientras aún están aprendiendo | Noticias del MIT

Entrenar un gran modelo de inteligencia artificial es costoso, no sólo en dólares, sino también en tiempo, energía y recursos computacionales. Tradicionalmente, obtener un modelo más pequeño y más rápido requiere entrenar primero uno masivo y luego recortarlo, o entrenar uno pequeño desde cero y aceptar un rendimiento más débil.

Investigadores del Laboratorio de Ciencias de la Computación e Inteligencia Artificial (CSAIL) del MIT, el Instituto Max Planck de Sistemas Inteligentes, el Laboratorio Europeo de Aprendizaje y Sistemas Inteligentes, ETH y Liquid AI ahora han desarrollado un nuevo método que evita por completo esta compensación, comprimiendo los modelos durante el entrenamiento, en lugar de después.

La técnica, llamada CompreSSM, se dirige a una familia de arquitecturas de inteligencia artificial conocidas como modelos de espacio de estados, que impulsan aplicaciones que van desde el procesamiento del lenguaje hasta la generación de audio y la robótica. Al tomar prestadas herramientas matemáticas de la teoría del control, los investigadores pueden identificar qué partes de un modelo están ejerciendo su peso y cuáles son peso muerto, antes de eliminar quirúrgicamente los componentes innecesarios en las primeras etapas del proceso de entrenamiento.

“Es esencialmente una técnica para hacer que los modelos crezcan más pequeños y más rápido a medida que se entrenan”, dice Makram Chahine, estudiante de doctorado en ingeniería eléctrica e informática, afiliado a CSAIL y autor principal del artículo. “Durante el aprendizaje, también se deshacen de piezas que no son útiles para su desarrollo”.

La idea clave es que la importancia relativa de los diferentes componentes dentro de estos modelos se estabiliza sorprendentemente temprano durante el entrenamiento. Utilizando una cantidad matemática llamada valores singulares de Hankel, que miden cuánto contribuye cada estado interno al comportamiento general del modelo, el equipo demostró que pueden clasificar de manera confiable qué dimensiones importan y cuáles no después de solo alrededor del 10 por ciento del proceso de entrenamiento. Una vez establecidas esas clasificaciones, los componentes menos importantes pueden descartarse de forma segura y el 90 por ciento restante del entrenamiento se desarrolla a la velocidad de un modelo mucho más pequeño.

“Lo interesante de este trabajo es que convierte la compresión de una ocurrencia tardía en parte del proceso de aprendizaje en sí”, dice la autora principal Daniela Rus, profesora del MIT y directora de CSAIL. “En lugar de entrenar un modelo grande y luego descubrir cómo hacerlo más pequeño, CompreSSM permite que el modelo descubra su propia estructura eficiente a medida que aprende. Esa es una forma fundamentalmente diferente de pensar en la construcción de sistemas de IA”.

Los resultados son sorprendentes. En los puntos de referencia de clasificación de imágenes, los modelos comprimidos mantuvieron casi la misma precisión que sus homólogos de tamaño completo mientras se entrenaban hasta 1,5 veces más rápido. Un modelo comprimido reducido a aproximadamente una cuarta parte de su dimensión de estado original logró una precisión del 85,7 por ciento en el punto de referencia CIFAR-10, en comparación con sólo el 81,8 por ciento de un modelo entrenado en ese tamaño más pequeño desde cero. En Mamba, una de las arquitecturas de espacio de estados más utilizadas, el método logró aceleraciones de entrenamiento de aproximadamente 4 veces, comprimiendo un modelo de 128 dimensiones a alrededor de 12 dimensiones manteniendo al mismo tiempo un rendimiento competitivo.

“Se obtiene el rendimiento del modelo más grande, porque se captura la mayor parte de la dinámica compleja durante la fase de calentamiento y luego sólo se mantienen los estados más útiles”, dice Chahine. “El modelo aún puede funcionar a un nivel más alto que entrenar un modelo pequeño desde el principio”.

Lo que diferencia a CompreSSM de los enfoques existentes es su base teórica. Los métodos de poda convencionales entrenan un modelo completo y luego eliminan los parámetros después del hecho, lo que significa que aún pagas el costo computacional total de entrenar el modelo grande. La destilación del conocimiento, otra técnica popular, requiere entrenar un gran modelo de “maestro” hasta su finalización y luego entrenar un segundo modelo de “estudiante” más pequeño encima de él, esencialmente duplicando el esfuerzo de capacitación. CompreSSM evita ambos costos al tomar decisiones de compresión informadas a mitad de camino.

El equipo comparó CompreSSM cara a cara con ambas alternativas. En comparación con la regularización de la norma nuclear de Hankel, una técnica espectral propuesta recientemente para fomentar modelos compactos de espacio de estados, CompreSSM fue más de 40 veces más rápido y al mismo tiempo logró una mayor precisión. El enfoque de regularización ralentizó el entrenamiento aproximadamente 16 veces porque requería costosos cálculos de valores propios en cada paso del gradiente, e incluso entonces, los modelos resultantes tuvieron un rendimiento inferior. Frente a la destilación de conocimientos en CIFAR-10, CompressSM tenía una clara ventaja para los modelos muy comprimidos: en dimensiones de estado más pequeñas, los modelos destilados experimentaron caídas significativas en la precisión, mientras que los modelos comprimidos con CompreSSM mantuvieron un rendimiento casi completo. Y debido a que la destilación requiere un paso hacia adelante tanto por el maestro como por el estudiante en cada paso del entrenamiento, incluso sus modelos de estudiantes más pequeños entrenaron más lentamente que la línea de base de tamaño completo.

Los investigadores demostraron matemáticamente que la importancia de los estados individuales del modelo cambia suavemente durante el entrenamiento, gracias a una aplicación del teorema de Weyl, y demostraron empíricamente que las clasificaciones relativas de esos estados permanecen estables. En conjunto, estos hallazgos dan a los profesionales la confianza de que las dimensiones identificadas como insignificantes desde el principio no se volverán repentinamente críticas más adelante.

El método también viene acompañado de una red de seguridad pragmática. Si un paso de compresión provoca una caída inesperada del rendimiento, los profesionales pueden volver a un punto de control guardado previamente. “Le da a la gente control sobre cuánto están dispuestos a pagar en términos de rendimiento, en lugar de tener que definir un umbral de energía menos intuitivo”, explica Chahine.

Hay algunos límites prácticos a la técnica. CompreSSM funciona mejor en modelos que exhiben una fuerte correlación entre la dimensión del estado interno y el rendimiento general, una propiedad que varía según las tareas y arquitecturas. El método es particularmente eficaz en modelos de múltiples entradas y múltiples salidas (MIMO), donde la relación entre el tamaño del estado y la expresividad es más fuerte. Para las arquitecturas por canal, de una sola entrada y de una sola salida, las ganancias son más modestas, ya que, en primer lugar, esos modelos son menos sensibles a los cambios de dimensión de estado.

La teoría se aplica más claramente a sistemas lineales invariantes en el tiempo, aunque el equipo ha desarrollado extensiones para las cada vez más populares arquitecturas dependientes de entradas y variables en el tiempo. Y debido a que la familia de modelos de espacio de estados se extiende a arquitecturas como la atención lineal, un área de interés creciente como alternativa a los transformadores tradicionales, el alcance potencial de aplicación es amplio.

Chahine y sus colaboradores ven el trabajo como un trampolín. El equipo ya ha demostrado una extensión a sistemas lineales variables en el tiempo como Mamba, y las direcciones futuras incluyen impulsar CompreSSM aún más hacia sistemas dinámicos con valores matriciales utilizados en mecanismos de atención lineal, lo que acercaría la técnica a las arquitecturas de transformadores que sustentan la mayoría de los sistemas de IA más grandes de la actualidad.

“Este tenía que ser el primer paso, porque aquí es donde la teoría es clara y el enfoque puede basarse en principios”, dice Chahine. “Es el trampolín para luego extendernos a otras arquitecturas que la gente utiliza hoy en día en la industria”.

“El trabajo de Chahine y sus colegas proporciona una perspectiva intrigante y teóricamente fundamentada sobre la compresión para modelos modernos de espacio de estados (SSM)”, dice Antonio Orvieto, investigador principal del Instituto ELLIS de Tübingen y líder del grupo independiente MPI para Sistemas Inteligentes, que no participó en la investigación. “El método proporciona evidencia de que la dimensión de estado de estos modelos se puede reducir efectivamente durante el entrenamiento y que una perspectiva teórica de control puede guiar exitosamente este procedimiento. El trabajo abre nuevas vías para futuras investigaciones, y el algoritmo propuesto tiene el potencial de convertirse en un enfoque estándar cuando se entrenan previamente grandes modelos basados ​​en SSM”.

El trabajo, que fue aceptado como documento de conferencia en la Conferencia Internacional sobre Representaciones del Aprendizaje 2026, se presentará a finales de este mes. Fue apoyado, en parte, por el Centro Max Planck ETH para Sistemas de Aprendizaje, la Fundación Hector, Boeing y la Oficina de Investigación Naval de EE. UU.