Los algoritmos de aprendizaje automático son ahora tan accesibles que incluso mi esposa, que no tiene conocimientos técnicos, pregunta constantemente: “¿No es eso de lo que ChatGPT es capaz de hacer?”
Ha llegado el momento de que los científicos de datos permanezcan atentos a los porqués y cómo detrás de los algoritmos de aprendizaje automático.
Esta publicación de blog de dos partes es un viaje real en el que intenté explicarle a mi esposa cómo funciona la asignación latente de Dirichlet (LDA, un elemento básico en el arsenal de todos los científicos de datos para modelado de temas, recomendaciones y más) con la ayuda de un pedigrí de perro. modelo. Al final de la serie, debería poder responder lo siguiente:
Parte 1:
- ¿Cómo funciona LDA?
- ¿Cómo explicar LDA a una persona no técnica?
Parte 2:
- ¿Cómo converge LDA?
- ¿Cuándo usar LDA y cuándo no?
- ¿Cuáles son las alternativas y variantes de los LDA (excluidos los LLM)?
Empecemos.
Imagina que tienes el mejor trabajo del mundo:
Estima la combinación de pedigrí de un montón de adorables fotos de perros.
¡Suficientemente fácil!
Patas cortas = Corgi o Dachshund;
Cuerpo largo = Perro salchicha;
Cara de muffin con chispas de chocolate = Chihuahua.
Pero cada perro tiene una combinación única de rasgos. Un perro puede tener las patas cortas de un Corgi pero la cara de un chihuahua. No sólo estamos identificando razas sino modelar un mosaico de rasgos en grupos de razas.
Número de temas y corpus
Aunque no clasificamos las fotografías de perros según su raza, es útil considerar los rasgos físicos que podemos observar en todas las imágenes y aproximadamente cómo…