La compensación de la variación del sesgo y cómo da forma a los LLM de hoy | de Michael Zakhary | noviembre de 2024

En primer lugar, debemos volver a la memoria y definir algunas bases para lo que está por venir.

Diferencia

La variación es casi sinónimo de sobreajuste en la ciencia de datos. La elección lingüística central para el término es el concepto de variación. Un modelo de alta varianza es un modelo cuyo valor predicho para la variable objetivo Y varía en gran medida cuando pequeños cambios en la variable de entradami incógnita ocurrir.

Entonces, en los modelos de alta varianza, un pequeño cambio en X provoca una gran respuesta en Y (por eso a Y generalmente se le llama variable de respuesta). En el ejemplo clásico de varianza a continuación, puede ver que esto sale a la luz: con solo cambiar ligeramente X, inmediatamente obtenemos un valor diferente para Y.

Esto también se manifestaría en tareas de clasificación en la forma de clasificar al ‘Señor Michael’ como Masculino, pero al ‘Señor Miichael’ como femenino, una respuesta inmediata y significativa en la salida de la red neuronal que hizo que el modelo cambiara su clasificación solo por agregar una letra.

Imagen del autor, que ilustra un modelo de alta varianza que genera una curva compleja que se sobreajusta y diverge de la función verdadera.

Inclinación

El sesgo está estrechamente relacionado con el ajuste insuficiente y el término en sí tiene raíces que ayudan a explicar por qué se usa en este contexto. Sesgo en general, significa desviarse del valor real por inclinarse hacia algo, en términos de ML, Un modelo de alto sesgo es un modelo que tiene sesgo hacia ciertas características de los datos.y elige ignorar el resto, esto generalmente se debe a una parametrización insuficiente, donde el modelo no tiene suficiente complejidad para ajustarse con precisión a los datos, por lo que crea una vista demasiado simplista.

En la imagen a continuación puede ver que el modelo no le da suficiente importancia al patrón general de los datos y se ajusta ingenuamente a ciertos puntos o características de los datos e ignora la característica o patrón parabólico de los datos.

Imagen del autor, que muestra un modelo con alto sesgo que ignora patrones claros en los datos.

Sesgo inductivo

El sesgo inductivo es una preferencia previa por reglas o funciones específicas y es un caso específico de sesgo. Esto puede provenir de un conocimiento previo sobre los datos, ya sea mediante heurísticas o leyes de la naturaleza que ya conocemos. Por ejemplo: si queremos modelar la desintegración radiactiva, entonces la curva debe ser exponencial y suave, ese es el conocimiento previo que afectará mi modelo y es arquitectura.

El sesgo inductivo no es malo; si tiene un conocimiento a priori sobre sus datos, puede alcanzar mejores resultados con menos datos y, por lo tanto, menos parámetros.

Un modelo con un alto sesgo inductivo (que es correcto en su suposición) es un modelo que tiene muchos menos parámetros, pero que da resultados perfectos.

Elegir una red neuronal para su arquitectura equivale a elegir un sesgo inductivo explícito.

En el caso de un modelo como las CNN, existe un sesgo implícito en la arquitectura por el uso de filtros (detectores de características) y su deslizamiento por toda la imagen. Estos filtros que detectan cosas como objetos, sin importar dónde se encuentren en la imagen, es una aplicación del conocimiento a priori de que un objeto es el mismo objeto independientemente de su posición en la imagen, este es el sesgo inductivo de las CNN.

Formalmente esto se conoce como la suposición de Independencia traslacional, donde un detector de características que se utiliza en una parte de la imagen probablemente sea útil para detectar la misma característica en otras partes de la imagen. Puede ver instantáneamente aquí cómo esta suposición nos ahorra parámetros, estamos usando el mismo filtro pero deslizándolo alrededor de la imagen en lugar de, tal vez, un filtro diferente para la misma característica para las diferentes esquinas de la imagen.

Otra parte del sesgo inductivo incorporado en las CNN es la suposición de localidad que es suficiente buscar características localmente en áreas pequeñas de la imagen, un solo detector de características no necesita abarcar toda la imagen, sino una fracción mucho más pequeña de ella; también puede ver cómo esta suposición acelera las CNN y ahorra una gran cantidad de dinero. de parámetros. La siguiente imagen ilustra cómo estos detectores de características se deslizan por la imagen.

Imagen por Vincent Dumoulin, Francesco Visin

Estas suposiciones provienen de nuestro conocimiento de imágenes y gráficos por computadora. En teoría, una red densa de retroalimentación podría aprender las mismas características, pero requeriría muchos más datos, tiempo y recursos computacionales. También tendríamos que esperar que la red densa haga estas suposiciones por nosotros, suponiendo que esté aprendiendo correctamente.

Para los RNN, la teoría es muy similar, las suposiciones implícitas aquí son que los datos están vinculados entre sí en forma de secuencia temporal, fluyendo en una determinada dirección (de izquierda a derecha o de derecha a izquierda). Sus mecanismos de activación y la forma en que procesan las secuencias los hacen más sesgados hacia la memoria a corto plazo (uno de los principales inconvenientes de los RNN)