Comencé a aprender a aprender a aprender a aprender más de seis años, el campo estaba en medio de realmente la tracción. En 2018-ISS, cuando tomé mis primeros cursos universitarios sobre el aprendizaje automático clásico, detrás de escena, ya se estaban desarrollando métodos clave que conducirían al auge de la IA a principios de la década de 2020. Se estaban publicando los modelos GPT, y otras compañías hicieron lo mismo, empujando los límites, tanto en tamaños de rendimiento como de parámetros, con sus modelos. Para mí, fue un buen momento para comenzar a aprender el aprendizaje automático, porque el campo se movía tan rápido que siempre había algo nuevo.
De vez en cuando, generalmente cada 6 a 12 meses, miro hacia atrás en los años, que avanzan mentalmente desde las conferencias universitarias hasta la investigación comercial de IA. Al mirar hacia atrás, a menudo encuentro nuevos principios que me han acompañado durante el aprendizaje de ML. En esta revisión, descubrí que trabajar profundamente en un tema estrecho ha sido un principio clave para mi progreso en los últimos años. Más allá del trabajo profundo, he identificado otros tres principios. No son necesariamente información técnica, sino más bien patrones de mentalidad y métodos.
La importancia del trabajo profundo
Winston Churchill es famoso no solo por su oratorio sino también por su increíble rapidez mental. Hay una historia popular sobre una disputa verbal entre él y Lady Astor, la primera mujer en el parlamento británico. Tratando de terminar una discusión con él, ella bromeó:
Si yo fuera tu esposa, pondría veneno en tu té.
Churchill, con su marca registrada, respondió:
Y si yo fuera tu esposo, lo bebería.
Dar una réplica ingeniosa como esa es admirada porque es una habilidad rara, y no todos nacen con tal brillantez reflexivo. Afortunadamente, en nuestro dominio, haciendo ML de investigación e ingeniería, el ingenio rápido no es la superpotencia que te lleva lejos. Lo que hace es la capacidad de concentrarse profundamente.
El trabajo de aprendizaje automático, especialmente el lado de la investigación, no tiene un ritmo rápido en el sentido tradicional. Requiere largos tramos de pensamiento ininterrumpido e intenso. Codificación de algoritmos ML, depuración de problemas de datos oscuros, elaboración de una hipótesis, todo exige un trabajo profundo.
Por “trabajo profundo”, me refiero a ambos:
- La habilidad para concentrarse profundamente durante períodos prolongados
- El medio ambiente que permite y fomenta tal enfoque
En los últimos dos o tres años, he llegado a ver un trabajo profundo como esencial para hacer un progreso significativo. Las horas que he pasado en inmersión enfocada, varias veces a la semana, han sido mucho más productivas que los bloques mucho más fragmentados de productividad distraída. Y, afortunadamente, se puede aprender profundamente y su entorno configurado para apoyarlo.
Para mí, los períodos más satisfactorios son siempre aquellos que llevan a los plazos de presentación en papel. Estos son momentos en los que puedes concentrarte con láser: el mundo se reduce a tu proyecto y estás en flujo. Richard Feynman lo dijo bien:
Para hacer una buena física, necesita longitudes de tiempo sólidas absolutas … necesita mucha concentración.
Reemplazar “física” con “aprendizaje automático“Y el punto todavía se mantiene.
Deberías (en su mayoría) ignorar las tendencias
¿Has oído hablar de modelos de idiomas grandes? Por supuesto, usted tiene: nombres como Llama, Gemini, Claude o Bard llenan el ciclo de noticias tecnológicas. Son los niños geniales de la IA generativa, o “Genai”, como ahora se llama elegante.
Pero aquí está la trampa: cuando recién comienzas, perseguir las tendencias puede dificultar el aumento del impulso.
Una vez trabajé con un investigador, y ambos estábamos comenzando en “hacer ML”. Llamaremos a mi ex colega John. Para su investigación, se lanzó de cabeza al nuevo campo de generación de generación (RAG) (RAG) de la recuperación, con la esperanza de mejorar las salidas del modelo de idioma integrando la búsqueda de documentos externa. También quería analizar las capacidades emergentes de los LLM, cosas que estos modelos pueden hacer a pesar de que no fueron entrenados explícitamente, y las destilas en modelos más pequeños.
El problema para John? Los modelos en los que basó su trabajo en evolucionar demasiado rápido. Simplemente obtener un nuevo modelo de última generación en funcionamiento tomó semanas. Para cuando lo hizo, ya se publicó un modelo más nuevo y mejor. Ese ritmo de cambio, combinado con criterios de evaluación poco claros para su nicho, hizo que fuera casi inmanejable para él mantener su investigación. Especialmente para alguien que todavía es nuevo en la investigación, como John y yo en ese entonces.
Esto no es una crítica a John (probablemente yo también hubiera fallado). En cambio, estoy contando esta historia para hacerte considerar: ¿Su progreso depende de surfear continuamente la ola más importante de la última tendencia?
Haciendo un análisis de datos aburridos (una y otra vez)
Cada vez que puedo entrenar una modelo, respiro mentalmente un suspiro de alivio.
¿Por qué? Porque significa que he terminado con la parte difícil oculta: análisis de datos.
Aquí está la secuencia habitual:
- Tienes un proyecto.
- Usted adquiere algún conjunto de datos (del mundo real).
- Desea entrenar modelos ML.
- Pero primero … necesitas preparar los datos.
A lote puede salir mal en ese último paso.
Permítanme ilustrar esto con un error que cometí mientras trabajaba con los datos meteorológicos ERA5: un conjunto de datos masivo y cuadrados del Centro Europeo para pronósticos meteorológicos de mediano alcance. Quería predecir NDVI (índice de vegetación de diferencia de diferencia normalizada), lo que indica la densidad de la vegetación, utilizando patrones climáticos históricos de los datos ERA5.
Para mi proyecto, tuve que fusionar los datos meteorológicos ERA5 con los datos satelitales NDVI que obtuve de la NOAA, la Agencia Meteorológica de los Estados Unidos. Traducí los datos de NDVI a la resolución de ERA5, los agregué como otra capa y, sin desajuste de forma, felizmente procedió a entrenar un transformador de visión.
Unos días después, visualicé las predicciones del modelo y … ¡sorpresa! El modelo pensaba que la Tierra estaba al revés. Literalmente: mis datos de entrada mostraron un mundo normalmente orientado, pero mis datos de vegetación se voltearon en el ecuador.
¿Qué salió mal? Había pasado por alto cómo la traducción de resolución volcó la orientación de los datos NDVI.
¿Por qué me perdí eso? Simple: no quería hacer la ingeniería de datos, pero saltar directamente hacia el aprendizaje automático. Pero la realidad es esta: en el trabajo de ML del mundo real, obtener los datos correctos es el trabajo.
Sí, la investigación académica a menudo le permite trabajar con conjuntos de datos seleccionados como Imagenet, CIFAR o Escuadrón. ¿Pero para proyectos reales? Tendrás que:
- Limpiar, alinear, normalizar y validar
- Depurar casos de borde extraño
- Inspeccionar visualmente los datos intermedios
Y luego repite esto hasta que esté realmente listo
Aprendí esto de la manera difícil omitiendo los pasos que pensé que no eran necesarios para mis datos. No hagas lo mismo.
(Aprendizaje automático) La investigación es un tipo específico de prueba y error
Desde el exterior, el progreso científico siempre parece ser elegantemente suave:
Problema → Hipótesis → Experimento → Solución
Pero en la práctica, es mucho más desordenado. Cometirás errores, algunos pequeños, algunos dignos de cara. (Por ejemplo, la Tierra volteada.) Eso está bien. Lo que importa es cómo tratas esos errores.
Los malos errores simplemente suceden. Pero los errores perspicaces te enseñan algo.
Para ayudarme a aprender más rápido de las fallas percibidas, ahora mantengo un cuaderno de laboratorio simple. Antes de ejecutar un experimento, escribo:
- Mi hipótesis
- Lo que espero suceder
- Por qué lo espero
Luego, cuando los resultados experimentales regresan (a menudo como un “no, no funcionó”), puedo reflexionar sobre por qué podría haber fallado y qué dice sobre mis suposiciones.
Esto transforma los errores en retroalimentación y retroalimentación en el aprendizaje. Como dice el dicho:
Un experto es alguien que ha cometido todos los errores que se pueden cometer en un campo muy estrecho.
Eso es investigación.
Pensamientos finales
Después de 6.5 años, me he dado cuenta de que hacer bien el aprendizaje automático tiene poco que ver con las tendencias llamativas o simplemente ajustar los modelos (lenguaje grande). En retrospectiva, creo que se trata más de:
- Creando tiempo y espacio para un trabajo profundo
- Elegir la profundidad sobre la exageración
- Tomar el análisis de datos en serio
- Abrazando el desorden de la prueba y el error
Si recién estás comenzando, o incluso tienes unos años después, vale la pena internalizar estas lecciones. No aparecerán en las notas clave de la conferencia, pero aparecerán a través de su progreso real.
- La cita de Feynman es del libro Trabajo profundopor Cal Newport
- Para la cita de Churchill, existen varias variaciones, algunas con café, algunas con té, envenenados