1thyaghiogxpbjwdygunh A@2x.jpeg

Resolver ecuaciones matriciales Ax= b

Prefacio

Bienvenido de nuevo a la cuarta edición de mi serie en curso sobre los conceptos básicos del álgebra lineal, la matemática fundamental detrás del aprendizaje automático. en mi anterior artículo, Introduje vectores, combinaciones lineales y tramos de vectores. Este ensayo analizará la ecuación matricial. Ax = b y veremos cómo el principio mismo de resolver un sistema de ecuaciones lineales está vinculado a la ecuación matricial.

Este artículo sería de mayor utilidad para los lectores si lo leyeran junto con Álgebra lineal y sus aplicaciones de David C. Lay, Steven R. Lay y Judi J. McDonald. Considere esta serie como un recurso complementario.

Siéntase libre de compartir pensamientos, preguntas y críticas.

La intuición

La última vez que dejamos de aprender sobre combinaciones lineales que prometí tendrían implicaciones importantes. Recuerde que dados los vectores v₁, v₂, … vₐ en ℝⁿ y escalares (también conocidos como pesos) c₁, c₂, … cₐ, el combinación lineal es el vector definido por la suma de los múltiplos escalares, c₁v₁ + c₂v₂ +… + cₐvₐ.¹

Decimos que un vector b es una combinación lineal de un conjunto de vectores v₁, v₂, .. vₐₚ en Rⁿ, si existe un conjunto de pesos c₁, c₂, … cₐ (una solución) tal que c₁v₁ + c₂v₂ + … + cₐvₐ = b.

Para determinar si b es una combinación lineal de algunos vectores dados v₁, v₂, .. vₐ organizamos nuestros vectores en un sistema de ecuaciones lineales, luego creamos una matriz aumentada de nuestras ecuaciones y utilizamos operaciones de reducción de filas para reducir la matriz a una forma escalonada reducida. Si la fila escalonada reducida tenía una inconsistencia, es decir, una fila que se veía así: [0, 0, … | m] dónde metro ≠ 0, eso significaba que nuestro vector b no es una combinación lineal de los vectores porque no existe un conjunto de pesos para la ecuación c₁v₁ + c₂v₂ + … + cₐvₐ = b a consideramos verdaderos.

Si no existía tal inconsistencia, eso significaba que podíamos escribir el vector b como una combinación lineal de un conjunto de vectores, como en el ejemplo anterior. ¿Recuerdas cómo verificamos nuestra respuesta al final? Multiplicaríamos cada vector por su respectivo escalar y luego encontraríamos la suma del vector. Si la suma vectorial fuera igual bsabíamos que habíamos hecho nuestros cálculos correctamente y que b De hecho, era una combinación lineal.

Este proceso de verificación es la ecuación matricial. Ax = b ¡disfrazada!

hacha = b

Si A es un metro X norte matriz, y x está en Rⁿ (verás por qué es importante que x esté en Rⁿ en la siguiente sección), entonces el producto Ax es la combinación lineal de los vectores (columnas) en Ausando los escalares correspondientes en x.

Tenga en cuenta que nada de esto es material nuevo; sin saberlo, ya hemos calculado Ax al verificar nuestras combinaciones lineales en mi artículo anterior. El Ax = b Sin embargo, la ecuación matricial sigue siendo fundamental porque formaliza todo esto en una notación compacta y resurgirá más adelante de nuevas maneras.

Ahora sabemos que si nos dan una metro X norte matriz A y x y calculamos el producto matricial Ax y es igual a bentonces b se puede escribir como una combinación lineal de los vectores (columnas) en A y los escalares/entradas en x. Entonces en resumen: la ecuación Ax = b sólo tendrá solución (x) si b puede escribirse como una combinación lineal de las columnas de A.

Multiplicación de matrices

he presentado Ax = b como producto matricial, pero aún no he explicado la multiplicación de matrices (que es lo que Ax es)!

Multiplicación de matrices es la operación de multiplicar dos matrices para producir una, su producto. Ya hemos visto la suma de matrices donde se suman dos matrices para producir su suma. Para que se defina la suma de matrices, las dos matrices que se están sumando, la matriz A y la matriz B, deben ser del mismo tamaño. De manera similar, la multiplicación de matrices también tiene un requisito. para multiplicar matriz A y matriz B y producir ABel número de columnas en la matriz A debe ser igual al número de filas de la matriz B. El tamaño del producto de la matriz. A y Bque llamaremos matriz C dependerá del número de filas de la matriz A y número de columnas en la matriz B. Matriz C tendrá m (# de filas en la matriz A) filas y p (# de columnas en la matriz B) columnas.

Entonces, ¿cómo funciona la multiplicación de matrices? Si tuviéramos que multiplicar las matrices A y B, cada una de las entradas de la i-ésima fila y j-ésima columna en el producto de la matriz es la producto escalar de la i-ésima fila de la matriz A y de la j-ésima fila de la matriz B.

Por ahora, todo lo que necesitas saber es que el producto escalar es la suma del producto de las entradas correspondientes entre dos vectores y que solo se define cuando los dos vectores tienen el mismo número de entradas. Esta explicación está lejos de hacer justicia al producto escalar, pero guardaré la intuición geométrica completa para más adelante.

Para abreviar, he calculado el producto matricial de dos matrices de 2 x 2, pero el mismo procedimiento se generaliza para matrices de cualquier tamaño siempre que las matrices cumplan con los criterios para la multiplicación de matrices; de lo contrario, su producto no estará definido.

Propiedades de la multiplicación de matrices

Si A, B y C son norte X norte matrices y C y d son escalares, entonces las siguientes propiedades son verdaderas.³

  1. ABBA (no conmutativo en general)
  2. (AB)C = A(BC) (asociativo)
  3. A(B+C) = AB + AC y (B+C)A = BA + CA (distributivo)
  4. 0A = 0 (propiedad multiplicativa del cero)

Tenga cuidado al tener en cuenta que la multiplicación de matrices no es conmutativa; esta propiedad puede tardar un poco en mantenerse dado que estamos acostumbrados intuitivamente a la conmutatividad con números reales.

Estas propiedades son útiles para calcular productos matriciales, que serán un tema recurrente en todo el álgebra lineal.

Conclusión

La multiplicación de matrices es una operación matemática fundamental que sustenta la funcionalidad central de las redes neuronales, particularmente en sus fases de propagación hacia adelante y hacia atrás.

En la fase de avance de una red neuronal, los datos se procesan a través de sus distintas capas, y la multiplicación de matrices es el núcleo de esta operación. Cada capa de una red neuronal está compuesta por neuronas, que se representan como sumas ponderadas de las entradas, seguidas de una función de activación. Estas sumas ponderadas se calculan mediante la multiplicación de matrices.

Durante el paso de retropropagación, la red neuronal aprende de sus errores. Ajusta los pesos de las neuronas para minimizar el error entre las salidas previstas y reales. La multiplicación de matrices vuelve a ser un componente clave de este proceso, específicamente en el cálculo de gradientes, que indican cuánto se debe ajustar cada peso para minimizar el error.

Aprender matemáticas es una aventura emocionante por sí solo, pero aprender sobre las aplicaciones del álgebra lineal junto con la teoría puede hacer que el viaje por una curva de aprendizaje empinada sea aún más inspirador.

Resumen

En este capítulo aprendimos sobre:

  • La intuición detrás de las combinaciones lineales y el producto matricial Ax = b: ¡cómo el producto matricial no es necesariamente un concepto nuevo, sino que formaliza un procedimiento que ya habíamos estado usando!
  • Ax = b: el producto de la matriz tiene una solución x si b es una combinación lineal de un conjunto de vectores (columnas) en A.
  • Multiplicación de matrices: la operación detrás Ax = b que se usa ampliamente en aplicaciones de aprendizaje automático, ejemplos específicos que incluyen redes neuronales.
  • Propiedades de la multiplicación de matrices: no conmutatividad, asociatividad, distributiva y propiedad multiplicativa del cero.

Notas

*Todas las imágenes creadas por el autor a menos que se indique lo contrario.
*Pido disculpas por tomarme un tiempo para continuar donde lo dejamos la última vez. Actualmente estoy tomando exámenes parciales (incluido uno de álgebra lineal, ¡jaja!)
¹Definición de combinaciones lineales a la que se hace referencia en Álgebra lineal y sus aplicaciones, sexta edición por David C. Lay, Steven R. Lay y Judi J. McDonald
²Definición de propiedades del producto matricial a la que se hace referencia en Álgebra lineal y sus aplicaciones, sexta edición por David C. Lay, Steven R. Lay y Judi J. McDonald
³Propiedades de matriz a las que se hace referencia desde src.