Por qué los modelos no paramétricos merecen una segunda mirada

no siempre reciben el crédito que merecen. Los métodos como los k-vecinos más cercanos (k-NN) y los estimadores de densidad del kernel a veces se descartan por ser simples o anticuados, pero su verdadera fortaleza está en estimar relaciones condicionales directamente a partir de datos, sin imponer una forma funcional fija. Esta flexibilidad los hace interpretables y poderosos, especialmente cuando los datos son limitados o cuando queremos incorporar conocimiento del dominio.

En este artículo, mostraré cómo los métodos no paramétricos proporcionan una base unificada para la inferencia condicional, que abarca la regresión, la clasificación e incluso la generación de datos sintéticos. Utilizando el conjunto de datos clásico de Iris como ejemplo, ilustraré cómo estimar distribuciones condicionales en la práctica y cómo pueden respaldar una amplia gama de tareas de ciencia de datos.

Estimación de distribuciones condicionales

La idea clave es simple: en lugar de predecir un solo número o etiqueta de clase, estimamos el rango completo de resultados posibles para una variable dada alguna otra información. En otras palabras, en lugar de centrarnos únicamente en el valor esperado, capturamos toda la distribución de probabilidad de resultados que podrían ocurrir en condiciones similares.

Para hacer esto, miramos puntos de datos cercanos a la situación que nos interesa; es decir, aquellos con variables condicionantes cerca de nuestro punto de consulta en el espacio de características. Cada punto contribuye a la estimación, y su influencia está ponderada por la similitud: los puntos más cercanos a la consulta tienen más impacto, mientras que los puntos más distantes cuentan menos. Al agregar estas contribuciones ponderadas, obtenemos una estimación fluida basada en datos de cómo se comporta la variable objetivo en diferentes contextos.

Este enfoque nos permite ir más allá de las predicciones puntuales y alcanzar una comprensión más rica de la incertidumbre, la variabilidad y la estructura de los datos.

Objetivo continuo: estimación de densidad condicional

Para concretar esto, tomemos dos variables continuas del conjunto de datos de Iris: la longitud del sépalo (x1) como variable condicionante y la longitud del pétalo (y) como objetivo. Para cada valor de x1, observamos los puntos de datos cercanos y formamos una densidad sobre sus valores de y centrando granos pequeños y ponderados en ellos, con pesos que reflejan la proximidad en la longitud del sépalo. El resultado es una estimación suave de la densidad condicional p(y ∣ x1).

La Figura 1 muestra la distribución condicional resultante. En cada valor de x1, un corte vertical a través del mapa de colores representa p(y ∣ x1). A partir de esta distribución podemos calcular estadísticas como la media o la moda; También podemos muestrear un valor aleatorio, un paso clave para la generación de datos sintéticos. La figura también muestra la curva de regresión modal, que pasa por los picos de estas distribuciones condicionales. A diferencia de un ajuste de mínimos cuadrados tradicional, esta curva proviene directamente de las distribuciones condicionales locales, adaptándose naturalmente a patrones no lineales, sesgados o incluso multimodales.

Figura 1. Distribución condicional y curva de regresión modal de la longitud del pétalo dada la longitud del sépalo para el conjunto de datos Iris (Imagen del autor).

¿Qué pasa si tenemos más de una variable condicionante? Por ejemplo, supongamos que queremos estimar p(y ∣ x1, x2).

En lugar de tratar (x1​, x2) como una única entrada conjunta y aplicar un núcleo bidimensional, podemos construir esta distribución secuencialmente:

p(y ∣ x1, x2) ∝ p(y ∣ x2) p(x2 ∣ x1),

lo que efectivamente supone que una vez que se conoce x2​, y depende principalmente de x2 en lugar de directamente de x1. Este enfoque paso a paso captura la estructura condicional gradualmente: primero se modelan las dependencias entre los predictores y luego se vinculan al objetivo.

Los pesos de similitud siempre se calculan en el subespacio de las variables condicionantes relevantes. Por ejemplo, si estuviéramos estimando p(x3 ∣ x1, x2), la similitud se determinaría usando x1 y x2. Esto asegura que la distribución condicional se adapta con precisión a los predictores elegidos.

Objetivo categórico: probabilidades de clase condicionales

Podemos aplicar el mismo principio de estimación condicional cuando la variable objetivo es categórica. Por ejemplo, supongamos que queremos predecir la especie y de una flor de iris dada la longitud del sépalo (x1) y la longitud del pétalo (x2). Para cada clase y = c, utilizamos estimación secuencial para estimar la distribución conjunta p(x1, x2 | y = c). Estas distribuciones conjuntas luego se combinan usando el teorema de Bayes para obtener las probabilidades condicionales p(y = c ∣ x1​, x2​), que pueden usarse para clasificación o muestreo estocástico.

La Figura 2, paneles 1 a 3, muestra las distribuciones conjuntas estimadas para cada especie. A partir de estas podemos clasificar seleccionando las especies más probables o generar muestras aleatorias según las probabilidades estimadas. El cuarto panel muestra los límites de clase previstos, que parecen suaves en lugar de abruptos, lo que refleja la incertidumbre sobre dónde se superponen las especies.

Figura 2. Panorama de probabilidad de clase para el conjunto de datos Iris. Los paneles 1 a 3 muestran las distribuciones conjuntas estimadas para cada especie: Setosa, Versicolor y Virginica. El panel 4 muestra los límites de clase previstos. (Imagen del autor)

Generación de datos sintéticos

Las distribuciones condicionales no paramétricas hacen más que respaldar la regresión o la clasificación. También nos permiten generar conjuntos de datos completamente nuevos que preservan la estructura de los datos originales. En el enfoque secuencial, modelamos cada variable en función de las que le preceden y luego extraemos valores de estas distribuciones condicionales estimadas para construir registros sintéticos. La repetición de este proceso nos proporciona un conjunto de datos sintético completo que mantiene las relaciones entre todos los atributos.

El procedimiento funciona de la siguiente manera:

Comience con una variable y tome una muestra de su distribución marginal. Para cada variable subsiguiente, estime su distribución condicional dadas las variables ya muestreadas. Extraiga un valor de esta distribución condicional. Repita hasta que se hayan muestreado todas las variables para formar un registro sintético completo.

La Figura 3 muestra los conjuntos de datos de Iris originales (izquierda) y sintéticos (derecha) en el espacio de medición original. Sólo tres de los cuatro atributos continuos se muestran para ajustarse a la visualización 3D. El conjunto de datos sintéticos reproduce fielmente los patrones y relaciones del original, lo que muestra que las distribuciones condicionales no paramétricas pueden capturar eficazmente la estructura multivariada.

Figura 3. Datos de Iris originales y sintéticos en el espacio original (se muestran tres atributos continuos) (Imagen del autor).

Aunque hemos ilustrado el enfoque con el pequeño conjunto de datos Iris de baja dimensión, este marco no paramétrico se escala naturalmente a conjuntos de datos mucho más grandes y complejos, incluidos aquellos con una combinación de variables numéricas y categóricas. Al estimar distribuciones condicionales paso a paso, captura relaciones ricas entre muchas características, lo que lo hace ampliamente útil en las tareas modernas de ciencia de datos.

Manejo de atributos mixtos

Hasta ahora, nuestros ejemplos han considerado la estimación condicional con variables condicionantes continuas, aunque el objetivo puede ser continuo o categórico. En estos casos, la distancia euclidiana funciona bien como medida de similitud. Sin embargo, en la práctica, a menudo necesitamos condicionar atributos mixtos, lo que requiere una métrica de distancia adecuada. Para tales conjuntos de datos, se pueden utilizar medidas como la distancia de Gower. Con una métrica de similitud adecuada, el marco no paramétrico se aplica perfectamente a datos heterogéneos, manteniendo su capacidad para estimar distribuciones condicionales y generar muestras sintéticas realistas.

Ventajas del enfoque secuencial

Una alternativa a la estimación secuencial es modelar distribuciones conjuntas sobre todas las variables condicionantes. Esto se puede hacer utilizando núcleos multidimensionales centrados en los puntos de datos, o mediante un modelo mixto, que represente, por ejemplo, la distribución con N gaussianos, donde N es mucho menor que el número de puntos de datos. Si bien esto funciona en dimensiones bajas (funcionaría para el conjunto de datos Iris), rápidamente se vuelve intensivo en datos, costoso desde el punto de vista computacional y escaso a medida que aumenta el número de variables, especialmente cuando los predictores incluyen tipos tanto numéricos como categóricos. El enfoque secuencial evita estos problemas al modelar las dependencias paso a paso y calcular la similitud solo en el subespacio relevante, mejorando la eficiencia, la escalabilidad y la interpretabilidad.

Conclusión

Los métodos no paramétricos son flexibles, interpretables y eficientes, lo que los hace ideales para estimar distribuciones condicionales y generar datos sintéticos. Al centrarse en los vecindarios locales en el espacio de acondicionamiento, capturan dependencias complejas directamente de los datos sin depender de suposiciones paramétricas estrictas. También puede incorporar conocimiento del dominio de manera sutil, como ajustando medidas de similitud o esquemas de ponderación para enfatizar características importantes o relaciones conocidas. Esto mantiene el modelo basado principalmente en datos mientras se guía por conocimientos previos, lo que produce resultados más realistas.

💡 ¿Interesado en ver estas ideas en acción? Compartiré una breve publicación en LinkedIn en los próximos días con ejemplos e ideas clave. Conéctate conmigo aquí: https://www.linkedin.com/in/andrew-skabar/