Comprensión de la asignación latente de Dirichlet (LDA): una guía para científicos de datos (Parte 1) | de Louis Chan

Comprensión de la asignación latente de Dirichlet (LDA): una guía para científicos de datos (Parte 1) | de Louis Chan | febrero de 2024

LDA explicada con un modelo de pedigrí de perro

Los algoritmos de aprendizaje automático son ahora tan accesibles que incluso mi esposa, que no tiene conocimientos técnicos, pregunta constantemente: “¿No es eso de lo que ChatGPT es capaz de hacer?”

Ha llegado el momento de que los científicos de datos permanezcan atentos a los porqués y cómo detrás de los algoritmos de aprendizaje automático.

Esta publicación de blog de dos partes es un viaje real en el que intenté explicarle a mi esposa cómo funciona la asignación latente de Dirichlet (LDA, un elemento básico en el arsenal de todos los científicos de datos para modelado de temas, recomendaciones y más) con la ayuda de un pedigrí de perro. modelo. Al final de la serie, debería poder responder lo siguiente:

Parte 1:

¿Cómo funciona LDA?
¿Cómo explicar LDA a una persona no técnica?

Parte 2:

¿Cómo converge LDA?
¿Cuándo usar LDA y cuándo no?
¿Cuáles son las alternativas y variantes de los LDA (excluidos los LLM)?

Empecemos.

Imagina que tienes el mejor trabajo del mundo:

Estima la combinación de pedigrí de un montón de adorables fotos de perros.

¡Suficientemente fácil!

Patas cortas = Corgi o Dachshund;

Cuerpo largo = Perro salchicha;

Cara de muffin con chispas de chocolate = Chihuahua.

Pero cada perro tiene una combinación única de rasgos. Un perro puede tener las patas cortas de un Corgi pero la cara de un chihuahua. No sólo estamos identificando razas sino modelar un mosaico de rasgos en grupos de razas.

Número de temas y corpus

Aunque no clasificamos las fotografías de perros según su raza, es útil considerar los rasgos físicos que podemos observar en todas las imágenes y aproximadamente cómo…

Comprensión de la asignación latente de Dirichlet (LDA): una guía para científicos de datos (Parte 1) | de Louis Chan | febrero de 2024

ByEquipo de 7 minutos

LDA explicada con un modelo de pedigrí de perro

Número de temas y corpus

By Equipo de 7 minutos

Related Post

Google lanza Gemini-SQL2: Gemini 3.1 Pro Text-to-SQL obtiene una puntuación del 80,04 % en la tabla de clasificación de modelo único de BIRD

Zyphra lanza Zamba2-VL: modelos híbridos de lenguaje de visión Mamba2-Transformer que reducen el tiempo hasta el primer token en aproximadamente un orden de magnitud

Construido de adentro hacia afuera: cómo los servicios profesionales de AWS se convirtieron por primera vez en un equipo de vanguardia

You missed

¿Qué aerolíneas están prohibidas en la Unión Europea y por qué?

¿Quién es el hombre más rico del mundo? Top multimillonarios clasificados – Hollywood Life

¿Alguna vez has tenido una reunión de Recursos Humanos aterradora en tu calendario? Así descubrió la tripulación de Artemis 3 sus tareas

La diferencia cultural “no puede aceptarse como motivo para mitigar” la mala conducta relacionada con la deshonestidad de un abogado nacido en Etiopía