Conozca Talkie-1930: un LLM de peso abierto 13B capacitado en textos en inglés anteriores a 1931 para el razonamiento histórico y la investigación de generalización

¿Qué pasaría si un modelo lingüístico nunca hubiera oído hablar de Internet, de los teléfonos inteligentes o incluso de la Segunda Guerra Mundial? Esto no es hipotético: es exactamente lo que ha construido un equipo de investigadores dirigido por Nick Levine, David Duvenaud y Alec Radford. Lo llaman cine sonoro y puede que sea el modelo de lenguaje extenso más disciplinado históricamente jamás presentado al público.

Talkie es un modelo de lenguaje abierto de 13 mil millones de parámetros entrenado exclusivamente en texto en inglés anterior a 1931. El proyecto es desarrollado por un equipo sin fines de lucro e introduce lo que los investigadores llaman un “modelo de lenguaje antiguo”: un LM con un límite de conocimiento estricto vinculado no al momento en que fue entrenado, sino a un momento específico de la historia.

¿Qué es exactamente un modelo de lenguaje antiguo?

Para entender el cine sonoro, primero hay que entender el concepto que hay detrás. La mayoría de los LLM modernos como GPT-4, LLaMA, Mistral, etc. están capacitados en rastreos masivos de la web contemporánea. Su conocimiento refleja el mundo tal como existe hoy, o en la fecha límite de su capacitación. Un modelo de lenguaje antiguo le da la vuelta a esto: se entrena deliberadamente sólo con datos históricos para que su “visión del mundo” quede congelada en un punto particular del pasado.

Para el cine sonoro, ese límite es el 31 de diciembre de 1930, elegido precisamente porque esa es la fecha en que las obras pasan al dominio público en los Estados Unidos, lo que hace que el texto anterior a 1931 sea legalmente utilizable para la formación.

El modelo, formalmente llamado talkie-1930-13b-base, se entrenó en 260 mil millones de tokens de texto histórico en inglés anterior a 1931, incluidos libros, periódicos, publicaciones periódicas, revistas científicas, patentes y jurisprudencia. También está disponible para uso interactivo un punto de control conversacional post-entrenado por separado, talkie-1930-13b-it. El equipo ha configurado una demostración en vivo las 24 horas del día, los 7 días de la semana en talkie-lm.com/chat, donde Claude Sonnet 4.6 activa continuamente el modelo sintonizado con instrucciones, lo que permite a los visitantes observar la voz y el conocimiento del talkie en tiempo real.

¿Por qué un modelo de 1930?

Este no es un proyecto de nostalgia. El equipo de investigación ha identificado varios casos de uso concretos y técnicamente significativos que hacen que el cine sonoro sea interesante para la comunidad de investigación de IA.

1. Experimentos de generalización libres de contaminación: la contaminación de referencia, donde los datos de las pruebas se filtran inadvertidamente a los datos de entrenamiento, es uno de los problemas más persistentes y subestimados en la evaluación LLM moderna. Debido a que el cine sonoro se formó únicamente con texto anterior a 1931, su construcción está libre de contaminación con respecto a cualquier punto de referencia moderno. Esto abre un entorno experimental limpio para probar qué tan bien un LM puede generalizar más allá de sus datos previos al entrenamiento. Por ejemplo, el equipo probó si el cine sonoro podía aprender Python (un lenguaje que no existía en 1930) proporcionando algunos ejemplos de demostración en contexto. Utilizando el punto de referencia HumanEval, descubrieron que, si bien los modelos antiguos tienen un rendimiento muy inferior a los modelos entrenados en la web, están “mejorando lenta pero constantemente en esta tarea a escala”.

2. Evaluación de la previsión y la sorpresa temporal: Inspirándose en el trabajo de Calcifer Computing sobre modelos de lenguaje temporal, el equipo de investigación utilizó el sonido sonoro para medir el carácter sorprendente (medido en bits por byte) de las descripciones de eventos históricos del artículo “En este día” del New York Times. Los acontecimientos posteriores a 1930 (el límite del conocimiento del cine sonoro) son consistentemente más sorprendentes para el modelo, con el efecto más pronunciado en los acontecimientos de las décadas de 1950 y 1960, seguidos de una meseta. Esto crea una configuración de principios para estudiar cómo la capacidad de pronóstico aumenta con el tamaño del modelo y cómo el rendimiento decae en horizontes temporales más largos.

3. Identidad de LLM y formación de personalidad: debido a que el cine sonoro se entrenó en una distribución fundamentalmente diferente a la de cualquier modelo moderno, abre preguntas sobre qué da forma a la “identidad” de un LLM. Los LLM modernos, independientemente de su proveedor, comparten un ancestro común en los datos web, ya sea a través de capacitación directa o mediante destilación y canales de datos sintéticos. Talkie rompe ese linaje por completo, brindando a los investigadores una herramienta para examinar qué comportamientos y capacidades son universales para el modelado del lenguaje versus cuáles son artefactos de entrenamiento en la web contemporánea.

El proceso de formación: lo que lo hace difícil

Crear un modelo de lenguaje antiguo no es tan simple como filtrar un conjunto de datos moderno por fecha. El equipo de investigación del cine sonoro se topó con varios desafíos de ingeniería no triviales.

La fuga temporal es la más crítica. Si algún texto posterior a 1930 se cuela en el corpus de formación (a través de documentos mal fechados o textos antiguos con introducciones editoriales anacrónicas), la fidelidad histórica del modelo queda comprometida. Una versión anterior del cine sonoro 7B conocía claramente la presidencia de Roosevelt y la legislación del New Deal, lo que revela un filtrado imperfecto. El equipo construyó un clasificador de anacronismo basado en n-gramas a nivel de documento para filtrar el corpus, pero reconoce que esto aún es imperfecto: la versión 13B conserva cierta conciencia de la Segunda Guerra Mundial y el orden de la posguerra.

La calidad de los datos es otro obstáculo importante. Debido a que en 1930 no existía la publicación digital, cada token del corpus de entrenamiento del cine sonoro tuvo que ser transcrito de fuentes físicas mediante reconocimiento óptico de caracteres (OCR). En experimentos controlados, el equipo descubrió que el entrenamiento con texto transcrito mediante sistemas OCR convencionales produjo solo el 30% de la eficiencia de aprendizaje de un modelo entrenado con versiones transcritas por humanos de los mismos textos. La simple limpieza de expresiones regulares mejoró eso al 70%, pero permaneció una brecha significativa. Para cerrarlo, están construyendo un sistema OCR antiguo dedicado y optimizado para diseños de documentos históricos.

Post-entrenamiento clásico: la fase de ajuste de instrucciones: requirió la construcción de un canal completamente nuevo desde cero. El uso de pares modernos de instrucción-respuesta inyectaría expectativas contemporáneas en el comportamiento del modelo. En cambio, el equipo generó pares instrucción-respuesta a partir de textos históricos estructurados: manuales de etiqueta, manuales de redacción de cartas, libros de cocina, diccionarios, enciclopedias y colecciones de poesía y fábulas. Luego ejecutaron la optimización de preferencia directa (DPO) en línea utilizando Claude Sonnet 4.6 como juez, mejorando la calificación promedio de seguimiento de instrucciones de los talkies de 2,0 a 3,4 en una escala de cinco puntos. Una ronda final de ajuste supervisado utilizó chats sintéticos de múltiples turnos con muestreo de rechazo generados entre Claude Opus 4.6 y el cine sonoro.

Puntos de referencia: ¿Cómo se compara un modelo de 1930?

Para proporcionar un contexto significativo, el equipo de investigación entrenó un “gemelo moderno”, un modelo 13B arquitectónicamente idéntico entrenado con datos web modernos (FineWeb), y lo comparó con el cine sonoro. Como era de esperar, el sonido sonoro tiene un rendimiento inferior a su homólogo moderno en las evaluaciones LM estándar. Sin embargo, cuando se controla el anacronismo de las preguntas (filtrando preguntas que hacen referencia a conceptos que no existirían en 1930), la brecha de desempeño se reduce aproximadamente a la mitad. El equipo de investigación observa una paridad alentadora en la comprensión del lenguaje básico y las tareas de aritmética, y atribuye la brecha restante principalmente al ruido del OCR y a las diferencias en la distribución de la materia.

Conclusiones clave

Talkie es un “modelo de lenguaje antiguo” de peso abierto 13B entrenado en 260 mil millones de tokens de texto exclusivamente en inglés anterior a 1931, lo que lo convierte en el LM antiguo más grande conocido, con un límite de conocimiento estricto del 31 de diciembre de 1930. La contaminación de referencia se elimina por diseño. Debido a que el cine sonoro nunca ha visto datos modernos, sirve como un banco de pruebas excepcionalmente limpio para experimentos de generalización, incluido si un modelo sin conocimiento de computadoras digitales puede aprender a escribir código Python solo a partir de ejemplos en contexto. Crear un LM antiguo es más difícil que filtrar por fecha. El equipo de investigación tuvo que resolver la fuga temporal (introducción de datos posteriores a 1930), el ruido del OCR que redujo la eficiencia del entrenamiento a solo el 30% del texto transcrito por humanos y construir un canal posterior al entrenamiento completamente a partir de fuentes anteriores a 1931, como manuales de etiqueta y enciclopedias. Hay dos puntos de control disponibles públicamente en Apache 2.0: talkie-1930-13b-base para terminaciones sin procesar y talkie-1930-13b-it para conversaciones, pero ejecutarlos localmente requiere una GPU CUDA con al menos 28 GB de VRAM. Vienen modelos más grandes. El equipo de investigación apunta a un modelo antiguo de nivel GPT-3 para el verano de 2026, con un corpus que estiman puede escalar a más de un billón de tokens, potencialmente suficiente para igualar la capacidad del ChatGPT original, congelado en 1930.

Consulte los pesos del modelo, el repositorio y los detalles técnicos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 130.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

¿Necesita asociarse con nosotros para promocionar su repositorio de GitHub O su página principal de Hugging O su lanzamiento de producto O seminario web, etc.? Conéctate con nosotros