Este artículo analiza tres medidas de distancia: (1) la distancia del Earth Mover (EMD; Rubner et al., 1998); (2) la distancia del motor de palabras (ADM; Kusner et al., 2015); y (3) el concepto de distancia del motor (CMD; Stoltz & Taylor, 2019). Estas medidas se complementan entre sí, de modo que la CMD surge de las ADM, que a su vez surgen de la DME; la progresión de un compás al siguiente no es del todo lineal, ya que una obra se construye indirectamente a partir de la anterior para cumplir un propósito diferente y, por lo tanto, es interesante considerar el movimiento de una obra a la siguiente. Por este motivo, en este artículo se tratarán tanto las medidas de distancia en sí como la progresión de una a otra.
La distancia del movimiento de tierras (EMD) es presentada por Rubner et al. (1998) como medida de distancia para mejorar la búsqueda en bases de datos de imágenes. La medida se describe mediante una metáfora en la que tierra distribuida de alguna manera se utiliza para rellenar huecos distribuidos de otra manera, pero el caso considerado en el artículo no es tan literal. Más específicamente, tomando como caso de uso la búsqueda en bases de datos de imágenes, Rubner et al. muestran que la EMD se puede calcular entre pares de imágenes y que una EMD más baja indica una mayor similitud. El análisis se centra en el color y la textura como propiedades puntuales y regionales de las imágenes, respectivamente, pero el análisis de la textura se limita a imágenes de textura uniforme. La discusión vincula estas propiedades con su importancia para la percepción humana y concluye que la DME proporciona una medida intuitiva de similitud de imágenes. Para exhibir el potencial del EMD para navegar por grandes conjuntos de imágenes, se utiliza el escalado multidimensional para trazar imágenes en dos dimensiones de modo que se conserve la información proporcionada por el EMD.
Rubner et al. se basa en medidas existentes para calcular la distancia entre histogramas, y una de las principales contribuciones del artículo es el uso de “firmas” de imágenes en lugar de histogramas completos; allí, una firma se define agrupando las características de una imagen (por ejemplo, características de color, características de textura) y representando la imagen como un conjunto de contenedores (para tomar prestada la terminología del histograma), donde cada contenedor está definido por el centro del grupo y el tamaño. del cúmulo. En otras palabras, una firma es una alternativa a un histograma para el cual los contenedores están definidos por los datos en lugar de a priori. El uso de firmas mejora la compacidad de los datos y, por tanto, mejora la eficiencia computacional de los cálculos de distancia, al tiempo que reduce el riesgo de sobreestimar o subestimar una distancia en comparación con métodos anteriores. Además, Rubner et al. informan que el EMD permite coincidencias parciales y que es una “métrica verdadera” cuando los pesos totales de dos firmas son iguales.
A la luz de las propiedades algebraicas de las representaciones de palabras destacadas por Mikolov et al. (2013), Kusner et al. presentan la distancia del motor de palabras (WMD). (2015) para ampliar el EMD desde la recuperación de imágenes hasta la clasificación y recuperación de documentos. Al representar cada palabra de un documento, donde un documento es una bolsa de palabras, mediante la representación vectorial derivada de un algoritmo de incrustación como word2vec, la distancia entre dos documentos se puede calcular minimizando la distancia que debe viajar cada palabra incrustada para transformar una documento en otro. En comparación con el EMD, el WMD opera con un tipo diferente de datos, pero el cálculo de la distancia es muy similar y se puede utilizar la misma maquinaria de optimización. Además, similar al caso del color considerado por Rubner et al., Kusner et al. Considere un documento como una nube de puntos de palabras (pero lo que podría considerarse la textura de un documento se deja a la imaginación).
De acuerdo con las firmas de imágenes presentadas por Rubner et al., Kusner et al. mostrar que los requisitos computacionales se pueden reducir en el contexto de recuperación de documentos aprovechando la distancia del centroide de la palabra, que se puede calcular usando un promedio de los vectores de palabras de un documento, para colocar un límite inferior en las armas de destrucción masiva; sin embargo, las armas de destrucción masiva tal como se presentan no agrupan primero las palabras de un documento para crear una firma de documento y, de hecho, la interpretabilidad de las armas de destrucción masiva, que surge de la posibilidad de considerar el movimiento puntual de un documento a otro, se presenta como una de los mayores beneficios de utilizar la medida.
En las presentaciones de EMD y WMD, la cercanía entre elementos se toma para indicar su similitud, y esta noción de similitud se toma como una forma útil de realizar tareas de recuperación. El concepto de distancia del motor (CMD) presentado por Stoltz y Taylor (2019), por un ligero contraste, supone que existe un valor analítico en tal medida de similitud. Más específicamente, Stoltz & Taylor diferencian CMD de WMD mediante el uso de un “pseudo documento ideal” contra el cual se pueden analizar los documentos. Este pseudo documento lo define el analista según las necesidades del estudio y, según Stoltz y Taylor, este enfoque tiene los siguientes beneficios: (1) capta bien la estructura de los conceptos; (2) es robusto para documentar la extensión y la poda de términos dispersos; y (3) se puede utilizar independientemente de que el concepto de interés esté presente en el documento.
Para exhibir el poder analítico del CMD, Stoltz y Taylor examinan tres hipótesis (es decir, la hipótesis de Jaynes (1976) sobre la conciencia (o su falta) en el Ilíada, Odiseay Versión King James de la Biblia; uno afirma que el número de muertes en las obras de Shakespeare se correlaciona con el compromiso con el concepto de muerte; y, siguiendo la teoría de Lakoff (2002) sobre los modelos de moralidad en la política estadounidense, que examina el compromiso con los conceptos de “padre estricto” y “padre cariñoso” en los discursos sobre el estado de la Unión), y muestran que el CMD produce valores que alinearse con las expectativas. Es importante destacar que Stoltz y Taylor señalan que el enfoque CMD es útil cuando existe una teoría que probar y no comentan sobre el carácter físico de la CMD.
Las tres medidas discutidas aquí apuntan a definir la distancia entre un par de elementos como una forma de cuantificar la diferencia, pero al pasar de uno al siguiente, la fisicidad de la distancia se debilita. Más específicamente, en comparación con la DME, que se basa en una conexión relativamente directa con la percepción humana, la DME difiere en gran medida de la alta calidad de las incrustaciones de palabras y la validez de los puntos de referencia de clasificación para respaldar su capacidad de medir la distancia semántica (esta deferencia puede razonable dado el tipo específico de complejidad que caracteriza a los datos textuales, pero de todos modos la fisicidad de la medida relativa a los datos se debilita). Además, al pasar de las armas de destrucción masiva a las armas químicas, el destino con respecto al cual se puede medir una fuente ya no se observa sino que se construye como un ideal, una práctica que en este momento parece más un arte que una ciencia. Los cambios de una medida a otra no necesariamente denigran el potencial de tales enfoques para medir la diferencia, ya que el potencial es relativo a los requisitos de la tarea en cuestión, sino que se pasa de la noción de mover tierra para llenar agujeros al propio DME. y luego, las armas de destrucción masiva y las armas nucleares implican una estratificación de abstracción que debe tenerse en cuenta al evaluar el significado de la diferencia.
- Jaynes, Julián. 1976. Los orígenes de la conciencia en la ruptura de la mente bicameral. Houghton Mifflin.
- Kusner, MJ, Sun, Y., Kolkin, NI y Weinberger, KQ (2015). Desde incrustaciones de Word hasta distancias de documentos. Actas de la 32ª Conferencia Internacional sobre Aprendizaje Automático. Conferencia Internacional sobre Aprendizaje Automático, Lille, Francia.
- Lakoff, George. (2002). Política moral: cómo piensan los liberales y los conservadores. Chicago, IL: Prensa de la Universidad de Chicago.
- Mikolov, T., Chen, K., Corrado, G. y Dean, J. (2013). Estimación eficiente de representaciones de palabras en el espacio vectorial. http://arxiv.org/abs/1301.3781
- Rubner, Y., Tomasi, C. y Guibas, LJ (1998). Una métrica para distribuciones con aplicaciones a bases de datos de imágenes. Sexta Conferencia Internacional sobre Visión por Computadora (IEEE Cat. №98CH36271)59–66. https://doi.org/10.1109/ICCV.1998.710701
- Stoltz, DS y Taylor, MA (2019). Distancia del motor de conceptos: medir la participación del concepto mediante la incorporación de palabras en los textos. Revista de ciencias sociales computacionales, 2(2), 293–313. https://doi.org/10.1007/s42001-019-00048-6