Aprendizaje supervisado: la base del modelado predictivo

Aprendizaje supervisado: la base del modelado predictivo
Imagen por autor

Nota del editor: este artículo es parte de nuestra serie sobre cómo visualizar los fundamentos del aprendizaje automático.

Bienvenido a la última entrada de nuestra serie sobre cómo visualizar los fundamentos del aprendizaje automático. En esta serie, nuestro objetivo será desglosar conceptos técnicos importantes y, a menudo, complejos, en guías visuales intuitivas para ayudarle a dominar los principios básicos del campo. Esta entrada se centra en el aprendizaje supervisado, la base del modelado predictivo.

La base del modelado predictivo

El aprendizaje supervisado se considera ampliamente como la base del modelado predictivo en el aprendizaje automático. ¿Pero por qué?

En esencia, es un paradigma de aprendizaje en el que un modelo se entrena con datos etiquetados, ejemplos en los que se conocen tanto las características de entrada como las salidas correctas (verdad básica). Al aprender de estos ejemplos etiquetados, el modelo puede hacer predicciones precisas sobre datos nuevos e invisibles.

Una forma útil de entender el aprendizaje supervisado es mediante la analogía del aprendizaje con un profesor. Durante la capacitación, al modelo se le muestran ejemplos junto con las respuestas correctas, de manera muy similar a un estudiante que recibe orientación y corrección de un instructor. Cada predicción que hace el modelo se compara con la etiqueta de verdad fundamental, se proporciona retroalimentación y se realizan ajustes para reducir errores futuros. Con el tiempo, este proceso guiado ayuda al modelo a internalizar la relación entre entradas y salidas.

El objetivo del aprendizaje supervisado es aprender un mapeo confiable desde características hasta etiquetas. Este proceso gira en torno a tres componentes esenciales:

Primero están los datos de entrenamiento, que consisten en ejemplos etiquetados y sirven como base para el aprendizaje. Segundo está el algoritmo de aprendizaje, que ajusta iterativamente los parámetros del modelo para minimizar el error de predicción en los datos de entrenamiento. Finalmente, el modelo entrenado emerge de este proceso, capaz de generalizar lo que ha aprendido para hacer predicciones sobre nuevos datos.

Los problemas de aprendizaje supervisado generalmente se dividen en dos categorías principales: las tareas de regresión se centran en predecir valores continuos, como los precios de la vivienda o las lecturas de temperatura; Las tareas de clasificación, por otro lado, implican predecir categorías discretas, como identificar correos electrónicos no deseados y no spam o reconocer objetos en imágenes. A pesar de sus diferencias, ambos se basan en el mismo principio básico de aprender de ejemplos etiquetados.

El aprendizaje supervisado juega un papel central en muchas aplicaciones de aprendizaje automático del mundo real. Por lo general, requiere conjuntos de datos grandes y de alta calidad con etiquetas de verdad confiables, y su éxito depende de qué tan bien el modelo entrenado pueda generalizarse más allá de los datos con los que fue entrenado. Cuando se aplica de manera efectiva, el aprendizaje supervisado permite a las máquinas realizar predicciones precisas y procesables en una amplia gama de dominios.

La siguiente visualización proporciona un resumen conciso de esta información para una referencia rápida. Puedes descargar un PDF de la infografía en alta resolución aquí.

Aprendizaje supervisado: visualización de los fundamentos del aprendizaje automático

Aprendizaje supervisado: visualización de los fundamentos del aprendizaje automático (haga clic para ampliar)
Imagen por autor

Recursos de dominio del aprendizaje automático

Estos son algunos recursos seleccionados para aprender más sobre el aprendizaje supervisado:

Algoritmos de aprendizaje automático supervisados ​​y no supervisados: este artículo para principiantes explica las diferencias entre el aprendizaje supervisado, no supervisado y semisupervisado, describe cómo se utilizan los datos etiquetados y no etiquetados y destaca los algoritmos comunes para cada enfoque.
Conclusión clave: saber cuándo utilizar datos etiquetados o no etiquetados es fundamental para elegir el paradigma de aprendizaje correcto. Tutorial de regresión lineal simple para aprendizaje automático: este tutorial práctico y amigable para principiantes presenta la regresión lineal simple y explica cómo se usa un modelo de línea recta para describir y predecir la relación entre una única variable de entrada y una salida numérica.
Conclusión clave: relaciones de modelos de regresión lineal simples utilizando una línea definida por coeficientes aprendidos. Regresión lineal para el aprendizaje automático: este artículo introductorio proporciona una descripción general más amplia de la regresión lineal, y cubre cómo funciona el algoritmo, los supuestos clave y cómo se aplica en los flujos de trabajo de aprendizaje automático del mundo real.
Conclusión clave: la regresión lineal sirve como algoritmo de referencia central para tareas de predicción numérica. 4 tipos de tareas de clasificación en el aprendizaje automático: este artículo explica los cuatro tipos principales de problemas de clasificación (clasificación binaria, de múltiples clases, de múltiples etiquetas y desequilibrada) utilizando explicaciones claras y ejemplos prácticos.
Conclusión clave: Identificar correctamente el tipo de problema de clasificación guía la estrategia de selección y evaluación del modelo. Uno contra resto y Uno contra uno para clasificación de clases múltiples: este tutorial práctico explica cómo los clasificadores binarios se pueden extender a problemas de múltiples clases usando estrategias Uno contra Resto y Uno contra Uno, con orientación sobre cuándo usar cada una.
Conclusión clave: los problemas de clases múltiples se pueden resolver descomponiéndolos en múltiples tareas de clasificación binaria.

Esté atento a entradas adicionales en nuestra serie sobre cómo visualizar los fundamentos del aprendizaje automático.

Mateo Mayo

Acerca de Matthew Mayo

Matthew Mayo (@mattmayo13) tiene una maestría en informática y un diploma de posgrado en minería de datos. Como editor jefe de KDnuggets & Statology y editor colaborador de Machine Learning Mastery, Matthew tiene como objetivo hacer accesibles conceptos complejos de ciencia de datos. Sus intereses profesionales incluyen el procesamiento del lenguaje natural, modelos de lenguaje, algoritmos de aprendizaje automático y la exploración de la IA emergente. Lo impulsa la misión de democratizar el conocimiento en la comunidad de ciencia de datos. Matthew ha estado codificando desde que tenía 6 años.