De los modelos de IA posibles a los probables

Durante años, he estado involucrado en muchas conversaciones sobre IA generativa (¡y probablemente tú también!). Estas conversaciones variaron en enfoque, desde aquellas con el público en general sobre el uso de la IA hasta otras con personas más técnicas sobre la precisión de los modelos. Independientemente de con quién hable, la gente suele sentirse fascinada y curiosa por lo que pueden hacer los modelos.

¿Puede un LLM escribir un controlador de kernel funcional? Puede. ¿Puede escribir una canción sobre cuánto amas a tu gato? Seguro que puede. ¿Puede un modelo de difusión generar una imagen fotorrealista de un astronauta medieval? Puede.

Pero, ¿“puede” significa que será bueno? Resulta que lo que es “posible” para la mayoría de los modelos puede ser un listón sorprendentemente bajo.

Como alguien que ha estudiado probabilidad o estadística, probablemente sepa que en un espacio muestral suficientemente grande, casi todo es posible. El desafío no es determinar si se puede lograr un resultado; es comprender qué tan probable es ese resultado y si podemos depender de él repetidamente.

Así es, hay algo que muchos confunden acerca de la teoría de la probabilidad: si está relacionada con la IA generativa. Esa distinción es importante porque construir un sistema de IA de producción es muy diferente a construir una demostración. Las demostraciones prosperan en casos extremos interesantes. Los sistemas de producción dependen de la coherencia.

A medida que los sistemas de IA se convierten en una parte cada vez más grande e importante de los flujos de trabajo y la toma de decisiones, vale la pena revisar las ideas fundamentales de la teoría de la probabilidad y examinar dónde comienzan a desmoronarse los supuestos comunes sobre la confiabilidad de la IA.

1. Dimensionalidad y el espacio de posibilidades

Para ser justos, hablar de sistemas fiables es mucho más fácil que construirlos. Para comprender por qué la confiabilidad sigue siendo tan difícil, es útil dar un paso atrás y pensar en los espacios muestrales. Comencemos con el caso más simple: lanzar una moneda al aire. Para un lanzamiento de moneda: Ω={H,T}\Omega = \{H, T\}. Los posibles resultados son fáciles de visualizar porque hay un pequeño espacio de posibilidades.

Ahora considere un modelo de lenguaje que genera una secuencia de 512 tokens con un vocabulario de 50.000 tokens posibles, lo que da un espacio muestral de tamaño 5000051250000^{512}. El tamaño de este espacio muestral es casi imposible de comprender, y mucho menos visualizar (en la cabeza o en la práctica).

En tales casos, cuando tenemos un espacio grande, la región correspondiente a resultados útiles, coherentes y objetivamente correctos puede llegar a ser sorprendentemente pequeña en relación con el número de alternativas plausibles. O sea, el mar de resultados posibles, lo probable es un estanque…

Cuando el modelo arroja una respuesta de que es posible, pero no probable, lo llamamos alucinación. Y una alucinación, entonces, no es necesariamente un error de software. Más bien, sucede porque el modelo toma muestras de regiones de la distribución con probabilidad distinta de cero pero con poco valor práctico.

A primera vista, puedes pensar:

“Si simplemente recopilamos más datos, las alucinaciones desaparecerán”.

Pero el desafío es que las alucinaciones surgen naturalmente en los sistemas probabilísticos. El muestreo de una distribución siempre introduce la posibilidad de aterrizar en regiones de baja probabilidad.

Imagen del autor

2. Mediciones frecuentistas versus expectativas bayesianas

Al evaluar los sistemas de IA, suele haber dos enfoques muy diferentes. La primera es, más o menos, una perspectiva frecuentista: ejecutas 1000 tareas comparativas y mides el rendimiento. Si un modelo resuelve 850 correctamente, lo llamamos un sistema con una precisión del 85%.

La segunda es una perspectiva bayesiana, en la que se comienza con expectativas sobre cómo debería comportarse un sistema inteligente y se actualizan esas creencias cuando ocurren fallas inesperadas.

Esta diferencia se vuelve importante porque las indicaciones rara vez son eventos independientes. Supongamos que un modelo responde correctamente nueve preguntas de matemáticas. Con base en eso, podemos asumir que la probabilidad de acertar en la pregunta diez es su precisión reportada.

Pero los modelos lingüísticos no son una colección de ensayos aislados de Bernoulli. Sus resultados dependen del contexto previo, las representaciones ocultas y la densidad de ejemplos relacionados dentro de la distribución de capacitación.

Lo que significa que su desempeño es a menudo condicional más que estático.

3. Confianza no es lo mismo que probabilidad

Una de las funciones más utilizadas en el aprendizaje automático es la función Softmax. A menudo interpretamos los resultados de Softmax como puntuaciones de confianza: “Si el modelo genera 0,90 para cat, es 90% seguro”. Pero esta interpretación puede resultar engañosa.

Bien, retroceda un segundo: la función Softmax establece que debido al término exponencial, se pueden amplificar pequeñas diferencias entre logits.

Por lo tanto, un modelo puede parecer muy seguro no porque “sabe” algo, sino porque un logit resultó ser ligeramente más grande que los demás y la operación exponencial amplificó la diferencia.

Entonces, cuando ChatGPT predice la siguiente palabra, lo que esencialmente hace es responder:

“De todos los tokens posibles, después de Softmax, ¿cuál es el más probable?”

Esto crea lo que yo llamo el problema del “tonto confiado”: ​​un sistema que afirma con confianza algo incorrecto porque no ha aprendido a expresar la incertidumbre.

Imagen del autor

4. La Ley de los Grandes Números y por qué más datos no significan automáticamente más verdad

La Ley de los Grandes Números establece que a medida que aumentan los tamaños de muestra, los promedios observados se acercan a sus valores esperados. Esta idea suele motivar el uso de conjuntos de datos extremadamente grandes para entrenar nuestros modelos. Después de todo, si un modelo ve suficientes ejemplos, eventualmente debería aprender la verdad, ¿verdad?

A primera vista, esto parece razonable, ¡sobre todo porque así es como aprendemos! Pero hay un supuesto importante oculto en la Ley de los Grandes Números: la distribución subyacente debe permanecer relativamente estable.

El conocimiento y el lenguaje humanos no son distribuciones estables. Cambian continuamente y contienen contradicciones, sesgos e imprecisiones. El lenguaje hablado varía de una zona a otra. Incluso dentro de la misma ciudad, la gente usaría el mismo idioma, las mismas expresiones y las mismas palabras de manera diferente.

Como resultado, el modelo no necesariamente converge hacia la “verdad”. Más bien, converge hacia patrones dominantes. Entonces, si un concepto erróneo aparece con suficiente frecuencia en los datos, el modelo puede aprenderlo porque, estadísticamente, se convierte en la continuación más probable.

5. La estocasticidad no es necesariamente creatividad

Muchos suelen describir los sistemas de IA como “creativos” cuando producen resultados sorprendentes. Sin embargo, desde una perspectiva probabilística, algo más puede estar sucediendo.

El muestreo de temperatura cambia la probabilidad de que el modelo seleccione tokens menos probables. ¡Las muestras a baja temperatura son predecibles y seguras! Las personas con temperatura alta tienden a ser más diversas y sorprendentes, lo que a menudo conlleva un mayor riesgo de alucinaciones.

Por lo tanto, aumentar el muestreo de temperatura efectivamente aplana la distribución de probabilidad. Lo que significa que los resultados de menor probabilidad se muestrearán con mayor frecuencia. Lo que a veces interpretamos como creatividad puede ser, en cambio, la exploración modelo de regiones menos probables de la distribución.

Imagen del autor

6. Pasar de lo posible a lo confiable

Si nuestro objetivo es construir sistemas de IA que funcionen consistentemente en entornos reales, debemos ir más allá de preguntar si algo es posible y centrarnos en la confiabilidad. Una vez más, es más fácil decirlo que hacerlo. Pero algunos enfoques útiles para hacerlo incluyen:

1- Usar técnicas como la escala de Platt y la regresión isotónica para ayudar a alinear las puntuaciones de confianza con el desempeño observado.

2- Utilizar métodos como las redes neuronales bayesianas o Monte Carlo Dropout para ayudar a cuantificar lo que un modelo no sabe.

3- Usar métodos de validación externos para hacer cumplir la estructura y los requisitos de salida, en lugar de asumir que el modelo seguirá reglas de forma natural.

Pensamientos finales

Hace unos años, todo el mundo quedó impresionado con los sistemas de inteligencia artificial que simplemente predecían la siguiente palabra. Ahora estamos descubriendo que predecir la siguiente palabra es sólo una parte del problema.

El desafío más difícil es predecir la palabra correcta de manera repetida y confiable. Especialmente con nuevos modelos que aparecen cada día. Con modelos impresionantes y muchas promesas de un gran rendimiento. Entonces, la próxima vez que veas una demostración impresionante de IA, te animo a que preguntes (a ti mismo o a la persona que presenta el modelo):

“¿Es esto lo que normalmente hace el modelo o es una muestra particularmente afortunada?”

En un mundo con posibilidades casi infinitas, casi cualquier cosa puede suceder. Sin embargo, la ingeniería rara vez se trata de lo que puede suceder. Se trata de aquello en lo que puedes confiar que volverá a suceder.