Si analizamos las matemáticas y los datos, revelamos que los transformadores se utilizan tanto en exceso como en subutilización.
Los transformadores son mejor conocidos por sus aplicaciones en el procesamiento del lenguaje natural. Fueron diseñados originalmente para traducir entre idiomas,[1] y ahora son más famosos por su uso en grandes modelos de lenguaje como ChatGPT (generativo preentrenado transformador).
Pero desde su introducción, los transformadores se han aplicado a cada vez más tareas, con excelentes resultados. Estos incluyen reconocimiento de imágenes,[2] aprendizaje por refuerzo,[3] e incluso predicción del tiempo.[4]
Incluso la tarea aparentemente específica de generar lenguaje con transformadores tiene una serie de sorpresas, como ya hemos visto. Los modelos de lenguaje grandes tienen propiedades emergentes que parecen más inteligentes que simplemente predecir la siguiente palabra. Por ejemplo, pueden conocer varios hechos sobre el mundo o replicar matices del estilo de habla de una persona.
El éxito de los transformadores ha hecho que algunas personas se pregunten si los transformadores pueden hacerlo todo. Si los transformadores se generalizan a tantas tareas, ¿hay alguna razón? no ¿Usar un transformador?
Claramente, todavía hay argumentos a favor de otros modelos de aprendizaje automático y, como a menudo se olvida hoy en día, modelos de aprendizaje no automático y el intelecto humano. Pero los transformadores tienen una serie de propiedades únicas y hasta ahora han mostrado resultados increíbles. También existe una base matemática y empírica considerable…