de LLM, gradientes y mecánica cuántica | de Riccardo Di Sipio | noviembre de 2024

¿Puede la Computación Cuántica ayudar a mejorar nuestra capacidad para entrenar modelos de lenguaje de codificación (LLM) de grandes redes neuronales?

Foto de Alessio Soggetti (@asoggetti) de Unsplash.com

¿Qué es “entrenamiento”?

En la jerga de los estudios de Inteligencia Artificial (IA), “entrenamiento” significa optimizar un análisis estadístico. modeloa menudo implementado como un red neuronalpara hacer predicciones basadas en algunos datos de entrada y una medida de qué tan buenas son estas predicciones (función de “costo” o “pérdida”). hay tres principales paradigmas en el que dicho procedimiento puede ocurrir: supervisado, sin supervisión (a menudo autorregresivo), y reforzamiento aprendiendo. En supervisado En el aprendizaje, cada punto de datos está etiquetado para que las predicciones del modelo se puedan comparar directamente con los valores verdaderos (p.ej esta es la imagen de un gato o un perro). En sin supervisión entrenamiento, no hay etiquetas explícitas, pero la comparación se realiza con características extraídas de los propios datos (p.ej predecir la siguiente palabra en una oración). Finalmente, reforzamiento el aprendizaje se basa en optimizar los retornos a largo plazo de una secuencia de decisiones (predicciones) basadas en la interacción entre el modelo estadístico y el entorno (¿el coche debe frenar o acelerar en un semáforo en amarillo?).

En todos estos casos, la optimización de la parámetros del modelo Es un proceso largo que requiere un…