Prediciendo el pasado con Ítaca

Restaurar, colocar y fechar textos antiguos mediante la colaboración entre la IA y los historiadores.

El nacimiento de la escritura humana marcó el inicio de la Historia y es crucial para nuestra comprensión de las civilizaciones pasadas y del mundo en el que vivimos hoy. Por ejemplo, hace más de 2500 años, los griegos comenzaron a escribir en piedra, cerámica y metal para documentar todo, desde contratos de arrendamiento y leyes hasta calendarios y oráculos, brindando una visión detallada de la región mediterránea. Desafortunadamente, es un registro incompleto. Muchas de las inscripciones supervivientes han sido dañadas a lo largo de los siglos o han sido trasladadas de su ubicación original. Además, las técnicas modernas de datación, como datación por radiocarbonono se puede utilizar en estos materiales, lo que hace que la interpretación de las inscripciones sea difícil y lleve mucho tiempo.

En línea con La misión de DeepMind de resolver la inteligencia para hacer avanzar la ciencia y la humanidad, colaboramos con el Departamento de Humanidades de la Universidad Ca’ Foscari de Veneciael Facultad de Clásicas de la Universidad de Oxfordy el Departamento de Informática de la Universidad de Economía y Negocios de Atenas explorar cómo el aprendizaje automático puede ayudar a los historiadores a interpretar mejor estas inscripciones, brindando una comprensión más rica de la historia antigua y desbloqueando el potencial de cooperación entre la IA y los historiadores.

en un papel publicado hoy en Naturaleza, presentamos conjuntamente Ithaca, la primera red neuronal profunda que puede restaurar el texto faltante de inscripciones dañadas, identificar su ubicación original y ayudar a establecer la fecha en que fueron creadas. Ítaca lleva el nombre de la isla griega de de homero Odisea y se basa y se extiende pitia, nuestro sistema anterior que se centraba en la restauración textual. Nuestras evaluaciones muestran que Ithaca logra un 62 % de precisión en la restauración de textos dañados, un 71 % de precisión en la identificación de su ubicación original y puede fechar textos dentro de los 30 años de sus rangos de fechas reales. Los historiadores ya han utilizado la herramienta para reevaluar períodos importantes de la historia griega.

Para que nuestra investigación esté ampliamente disponible para investigadores, educadores, personal de museos y otros, nos asociamos con Nube de Google y Google Arte y Cultura para lanzar un versión interactiva gratuita de Ítaca. Y para ayudar a realizar más investigaciones, también hemos de código abierto nuestro código, el modelo previamente entrenado y un cuaderno de colaboración interactivo.

Figura 1. Esta inscripción restaurada (IG I3 4B) registra un decreto relativo a la Acrópolis de Atenas y data del 485/4 a.C. (CC BY-SA 3.0, WikiMedia).
Figura 2. Arquitectura de Ítaca. Las partes dañadas de un texto se representan con un guión “-“. Aquí, corrompimos artificialmente los caracteres “δημ”. Provista de estas entradas, Ítaca restaura el texto e identifica el tiempo y el lugar en el que se escribió el texto.

Herramientas colaborativas

Ítaca está entrenada en el mayor conjunto de datos digitales de inscripciones griegas desde el Instituto de Humanidades Packard. Procesamiento natural del lenguaje Los modelos se entrenan comúnmente utilizando palabras porque el orden en el que aparecen en las oraciones y las relaciones entre ellas proporcionan contexto y significado adicionales. Por ejemplo, “había una vez” tiene más significado que cada carácter o palabra vista por separado. Sin embargo, muchas de las inscripciones que los historiadores están interesados ​​en analizar con Ítaca están dañadas y a menudo les faltan fragmentos de texto. Para garantizar que nuestro modelo siga funcionando cuando se le presenta uno de estos, lo entrenamos utilizando palabras y caracteres individuales como entradas. El escaso mecanismo de autoatención en el núcleo del modelo evalúa estas dos entradas en paralelo, lo que permite a Ithaca evaluar las inscripciones según sea necesario.

Figura 3. Salidas de Ítaca. (a) Predicciones de restauración de 6 caracteres faltantes (guiones) en una inscripción ateniense (IG II² 116). La restauración superior, en verde, es correcta (συμμαχία, “alianza”). Observe cómo las siguientes hipótesis (ἐκκλησία, “asamblea” y προξενία, “tratado entre Estado y extranjero”), resaltadas en rojo, aparecen típicamente en los decretos políticos atenienses, lo que revela la receptividad de Ítaca al contexto. (b) Atribución geográfica de una inscripción de Amorgos (IG XII 7, 2). La principal predicción de Ítaca es correcta y las predicciones más cercanas son las regiones vecinas. (c) Distribución de fecha para una inscripción de Delos (IG XI 4, 579). El intervalo de fechas de la verdad sobre el terreno 300-250 a. C. está en gris; La distribución prevista de Ítaca está en amarillo y tiene una media en 273 a. C. (en verde).

Para maximizar el valor de Ítaca como herramienta de investigación, también creamos una serie de ayudas visuales para garantizar que los historiadores puedan interpretar fácilmente los resultados de Ítaca:

  • Hipótesis de restauración: Ithaca genera varias hipótesis de predicción para la tarea de restauración de textos para que los historiadores elijan utilizando su experiencia.
  • Atribución geográfica: Ithaca muestra su incertidumbre al darles a los historiadores una distribución de probabilidad sobre todas las predicciones posibles, en lugar de un solo resultado. Como resultado, devuelve probabilidades para 84 regiones antiguas diferentes que representan su nivel de certeza. Visualiza estos resultados en un mapa para arrojar luz sobre posibles conexiones geográficas subyacentes en todo el mundo antiguo.
  • Atribución cronológica: Al fechar un texto, Ítaca produce una distribución de fechas predichas en todas las décadas desde el 800 a. C. hasta el 800 d. C. Esto puede permitir a los historiadores visualizar la confianza del modelo para rangos de fechas específicos, lo que puede ofrecer información histórica valiosa.
  • Mapas de prominencia: Para transmitir los resultados a los historiadores, Ithaca utiliza una técnica comúnmente utilizada en visión por computadora que identifica qué secuencias de entrada contribuyen más a una predicción. El resultado resalta las palabras en diferentes intensidades de color que llevaron a las predicciones de Ithaca sobre texto faltante, ubicación y fechas.
Figura 4. Este texto (IG II² 116, Atenas 361/0 a. C.) registra una alianza entre el pueblo de Atenas y Tesalia. Al utilizar mapas de prominencia, podemos visualizar a Ítaca “centrándose” en las palabras contextualmente importantes “atenienses” y “tesalios” al restaurar la palabra corrupta “alianza”.

Contribuyendo a los debates históricos.

Nuestra evaluación experimental muestra cómo las decisiones de diseño y las ayudas de visualización de Ithaca facilitan a los investigadores la interpretación de los resultados. Los historiadores expertos con los que trabajamos lograron un 25 % de precisión cuando trabajaron solos para restaurar textos antiguos. Pero, cuando se utiliza Ithaca, su rendimiento aumenta al 72 %, superando el rendimiento individual del modelo y mostrando el potencial de la cooperación hombre-máquina para avanzar en la interpretación histórica, establecer dataciones relativas para eventos históricos e incluso contribuir a los debates metodológicos actuales.

Por ejemplo, los historiadores actualmente no están de acuerdo sobre la fecha de una serie de importantes Decretos atenienses realizado en una época en la que vivieron figuras notables como Sócrates y Pericles. Durante mucho tiempo se pensó que los decretos se escribieron antes del 446/445 a. C., aunque nueva evidencia sugiere una fecha del año 420 a. C. Aunque pueda parecer una pequeña diferencia, estos decretos son fundamentales para nuestra comprensión de la historia política de la Atenas clásica.

Nuestro conjunto de datos de entrenamiento contiene la cifra anterior de 446/445 a.C. Para probar las predicciones de Ithaca, lo volvimos a entrenar en un conjunto de datos que no contenía las inscripciones fechadas y luego enviamos estos textos ocultos para su análisis. Sorprendentemente, la fecha promedio prevista para los decretos en Ítaca es 421 a. C., lo que se alinea con los avances en datación más recientes y muestra cómo el aprendizaje automático puede contribuir a los debates en torno a uno de los momentos más significativos de la historia griega.

Figura 5. Las predicciones de Ithaca frente a las verdades del conjunto de datos del Packard Humanities Institute (PHI) en comparación con reevaluaciones históricas recientes. Las etiquetas de PHI están en promedio a 27 años de las reevaluaciones, mientras que las predicciones de Ithaca están en promedio a solo 5 años de las verdades sobre el terreno recientemente propuestas.

Creemos que esto es solo el comienzo de herramientas como Ithaca y del potencial de colaboración entre el aprendizaje automático y las humanidades. La antigua Grecia desempeña un papel fundamental en nuestra comprensión del mundo mediterráneo, pero sigue siendo sólo una parte de un vasto panorama global de civilizaciones. Con ese fin, actualmente estamos trabajando en versiones de Ítaca entrenadas en otras lenguas antiguas y los historiadores ya pueden usar sus conjuntos de datos en la arquitectura actual para estudiar otros sistemas de escritura antiguos, desde acadio a Demótico y hebreo a maya. Esperamos que modelos como Ithaca puedan desbloquear el potencial cooperativo entre la IA y las humanidades, impactando de manera transformadora la forma en que estudiamos y escribimos sobre algunos de los períodos más importantes de la historia de la humanidad.