Un bebé con cámara enseñó a una IA a aprender palabras

Cuando la mayoría de los niños tienen dos años, puede entender unas 300 palabras. A la edad de cuatro años, el vocabulario promedio se ha disparado a más de 1.000 palabras. La increíble capacidad de nuestra especie para adquirir palabras rápidamente no se comprende del todo. Algunos científicos cognitivos y lingüistas han teorizado que las personas nacen con expectativas incorporadas y limitaciones lógicas que lo hacen posible. Ahora, sin embargo, la investigación sobre aprendizaje automático está mostrando que no son necesarias suposiciones preprogramadas para captar rápidamente el significado de las palabras a partir de datos mínimos.

Un equipo de científicos cognitivos e informáticos ha conseguido con éxito entrenó un modelo básico de inteligencia artificial para unir imágenes con palabras utilizando solo 61 horas de metraje y sonido naturalistas, previamente capturados desde la perspectiva de un niño llamado Sam en 2013 y 2014. El estudio, publicado el jueves en Ciencia, Usó video y audio transcrito grabado por una cámara montada en la cabeza que se colocó a Sam de forma intermitente cuando tenía entre seis y 25 meses de edad. Aunque es una pequeña porción de la vida de un niño, aparentemente fue suficiente para que la IA descubriera qué significan ciertos sustantivos.

Los hallazgos sugieren que la receta para la adquisición del lenguaje podría ser más sencilla de lo que se pensaba anteriormente. Tal vez los niños “no necesiten un mecanismo específico del lenguaje hecho a medida y elegante” para captar eficientemente el significado de las palabras, dice Jessica Sullivan, profesor asociado de psicología en Skidmore College. Sullivan estudia el desarrollo del lenguaje y no participó en la nueva investigación, aunque ella y otros produjeron el conjunto de datos de vídeo que se utilizó en la obra. “Este es un estudio realmente hermoso”, dice, porque ofrece evidencia de que la información simple proveniente de la cosmovisión de un niño es lo suficientemente rica como para impulsar el reconocimiento de patrones y la comprensión de palabras.


Sobre el apoyo al periodismo científico

Si está disfrutando este artículo, considere apoyar nuestro periodismo galardonado al suscribiéndose. Al comprar una suscripción, ayudas a garantizar el futuro de historias impactantes sobre los descubrimientos y las ideas que dan forma a nuestro mundo actual.


El nuevo estudio también demuestra que es posible que las máquinas aprendan de manera similar a como lo hacen los humanos. Grandes modelos de lenguaje como GPT-4, la última versión de la IA que subyace a ChatGPT, se entrenan en enormes cantidades de datos eso puede incluir miles de millones y, a veces, billones de combinaciones de palabras. Los humanos se las arreglan con órdenes de magnitud menos de información, dice el autor principal del artículo Wai Keen Vong, investigador cognitivo computacional de la Universidad de Nueva York. Con el tipo de datos adecuado, esa brecha entre el aprendizaje automático y el humano podría reducirse drásticamente.

Brenden Lake, autor principal del estudio y profesor asociado de psicología y ciencia de datos en la Universidad de Nueva York, está de acuerdo. “Los modelos actuales no necesitan tanta información como la que reciben para hacer generalizaciones significativas”, afirma Lake. “Mostramos, por primera vez, que se puede entrenar un modelo de IA para aprender palabras a través de los ojos y oídos de un solo niño”.

Lake, Vong y sus colegas comenzaron con un genérico, aprendizaje automático multimodal modelo compuesto por un codificador de visión y un codificador de texto. Juntas, las redes neuronales sincronizadas tradujeron imágenes y lenguaje escrito al mismo espacio matemático para que su IA los interpretara. Los investigadores alimentaron a su modelo con 61 horas de metraje de la cámara frontal de Sam en forma de fotogramas fijos, combinados con texto transcrito del audio que lo acompaña. Debido a que la cámara simplemente registró lo que Sam vio y escuchó, el conjunto de datos parecía confuso y algo aleatorio. Contenía casos de cuidadores hablando directamente con el niño, así como conversaciones de fondo entre otras personas. Los fragmentos de audio a menudo no describían directamente escenas u objetos. Aún así, tanto Sam como el modelo de IA lograron deducir el significado de las palabras.

A lo largo de múltiples pruebas, el modelo relacionó correctamente muchas palabras con las imágenes correspondientes. También se acercó al punto de referencia de precisión de otros dos modelos de IA, ambos entrenados con muchos más datos lingüísticos. En una evaluación, los científicos presentaron su modelo básico con lotes de cuatro imágenes del conjunto de entrenamiento y le pidieron que señalara cuál contenía un objeto específico, como una pelota. La IA fue precisa aproximadamente el 62 por ciento de las veces (mucho mejor que el 25 por ciento de precisión de las conjeturas aleatorias de la IA). Los investigadores también probaron su modelo con nuevas imágenes de objetos que no provenían del repositorio de grabaciones de Sam, y el modelo pudo identificar correctamente muchos de esos objetos de todos modos, demostrando la capacidad de generalizar lo que había aprendido. “Eso nos sorprendió bastante”, dice Vong.

El estudio se basa en investigaciones anteriores sobre aprendizaje automático y cognición humana. Estudios anteriores de IA han utilizado datos de varios niños para entrenar modelos, y experimentos anteriores de psicología del desarrollo han evaluado las experiencias de niños individuales, dice Linda Smith, profesora de psicología y ciencias del cerebro en la Universidad de Indiana en Bloomington. Aunque el conjunto de datos de Sam también se ha utilizado en otros estudios, Smith dice que el nuevo trabajo es “una contribución real” a la ciencia.

Sullivan está de acuerdo. “Yo era una de las personas que pensaba que el problema de aprender un idioma es infinitamente complejo y que no sería posible aprender el significado de una palabra sin tener una maquinaria específica integrada en la mente”, dice. Pero este estudio la ha influido. “Ahora veo que, al menos en un caso, es posible”.

Sin embargo, existen limitaciones importantes a lo que revela la nueva investigación. Por un lado, los científicos reconocen que sus hallazgos no prueban cómo los niños adquieren palabras; el estudio sólo indica lo que es factible para una máquina y lo que también podría serlo para un ser humano. Aunque “es una demostración elegante”, no es evidencia suficiente de lo que sucede cuando un niño aprende el lenguaje, dice Smith. Es probable que otros factores más allá del simple reconocimiento de patrones sigan contribuyendo al aprendizaje humano, añade. Y aunque el modelo logró captar decenas de palabras, todavía había muchas que no podía entender. Por ejemplo, fue muy bueno para identificar correctamente “arena” y “automóvil”, pero similar o peor que el aleatorio para identificar “mano” y “habitación”. Lake señala que estas peculiaridades no se alinean con los tipos de palabras que los niños aprenden más rápidamente, lo que sugiere que el modelo tiene idiosincrasias no humanas.

Además, el estudio sólo se centró en reconocer los sustantivos de objetos físicos. El aprendizaje del lenguaje humano es mucho más complejo que eso, afirma Eva Portelance, investigadora de lingüística computacional del Instituto de Inteligencia Artificial de Mila-Québec. El lenguaje también involucra verbos, estructuras y conceptos abstractos que los niños comienzan a comprender desde el principio simplemente a partir de su propia experiencia. Esta investigación no demostró que la IA pueda hacer lo mismo con los datos limitados con los que se entrenó el modelo de estudio.

Aún así, es un paso hacia una comprensión más profunda de nuestra propia mente, dice Portelance, que en última instancia puede ayudarnos a mejorar la educación humana. Señala que la investigación de IA no tiene por qué centrarse únicamente en maximizar la capacidad de los bots y las ganancias corporativas; también puede aportar claridad a preguntas que llevan mucho tiempo sin respuesta sobre nosotros mismos. “Podemos utilizar estos modelos en el buen sentido: en beneficio de la ciencia y la sociedad”, añade Portelance.