Capa convolucional: componente básico de las CNN |  de Egor Howell |  enero de 2024

Qué son las capas convolucionales y cómo permiten el aprendizaje profundo para la visión por computadora

https://www.flaticon.com/free-icons/neural-network” title=”iconos de redes neuronales”>Iconos de redes neuronales creados por jugoso_fish — Flaticon..

A diferencia de ti y de mí, las computadoras solo funcionan con números binarios. Por lo tanto, no pueden ver ni comprender una imagen. Sin embargo, podemos representar imágenes usando píxeles. Para una imagen en escala de grises, cuanto más pequeño es el píxel, más oscuro es. Un píxel toma valores entre 0 (negro) y 255 (blanco), los números en el medio son un espectro de grises. Este rango de números es igual a byte en binario, que es ²⁸, esta es la unidad de trabajo más pequeña de la mayoría de las computadoras.

A continuación se muestra una imagen de ejemplo que creé en Python y sus valores de píxeles correspondientes:

Ejemplo de una imagen parecida a una flor dividida en píxeles. Trama generada por el autor en LaTeX.

Usando este concepto, podemos desarrollar algoritmos que puedan ver patrones en estos píxeles para clasificar imágenes. Esto es exactamente lo que un Red neuronal convolucional (CNN) hace.

La mayoría de las imágenes no están en escala de grises y tienen algo de color. Por lo general, se representan mediante RGB, donde tenemos tres canales que son rojo, verde y azul. Cada color es una cuadrícula de píxeles bidimensional, que luego se apila uno encima del otro. Entonces, la imagen de entrada es tridimensional.

El código utilizado para generar el gráfico está disponible en mi GitHub:

Descripción general

La parte clave de las CNN es la circunvolución operación. Tengo un artículo completo que detalla cómo funciona la convolución, pero aquí haré un resumen rápido para que esté completo. Si desea una comprensión profunda, le recomiendo que consulte la publicación anterior: