Se discute ampliamente en Douban, una plataforma social china, sobre una impresora averiada. El propietario comentó que cuando la impresora se quedó sin tinta, cada carácter salía con solo la mitad superior impresa. Y, sin embargo, el texto era completamente legible.
Mire estas tres versiones de 人工智能 (“inteligencia artificial”):
Puedes leer los tres al instante: el carácter completo, 80% retenido, 50% retenido. Eso no es un truco; probablemente sea algo fundamentalmente arraigado en el sistema chino.
Una aclaración: el 80% y el 50% se refieren a la proporción de la imagen en sí retenida, no a caracteres individuales. Al notar que cada carácter ocupa una cantidad diferente de píxeles en la imagen, simplemente cortamos la imagen horizontalmente a una altura fija.
Esto me hizo pensar: ¿es el lenguaje (al menos el chino) fundamentalmente visual? Pasé unos días dándole vueltas a esto en mi cerebro y finalmente decidí descubrirlo de la manera que sé: entrenar algunos modelos de lenguaje y ver qué sucede realmente.
El experimento: píxeles dentro, fichas fuera
Cada modelo de lenguaje tiene que lidiar primero con la tokenización. La idea básica es: las computadoras no entienden texto, por eso asignamos a cada palabra o carácter un ID, es decir, un número. Por ejemplo, el carácter 你 se convierte en 100, 好 se convierte en 3, etc. A partir de ahí, el LLM aprende todo desde cero.
En este sentido, cuando reduce caracteres como 山 (montaña) y 水 (agua) a números enteros simples, desecha sus formas. Y los caracteres chinos tienen formas hermosas: configuraciones de trazos, componentes radicales, diseños espaciales que contienen información real. Otro ejemplo: 打 (golpear), 拍 (palmada) y 拉 (tirar) comparten el radical 扌 (mano). Los reduce a los ID 423, 1089 y 2341, y esa relación desaparece.
Entonces, en lugar de ID de token, representé cada carácter como una imagen en escala de grises y la introduje en un modelo de lenguaje. El trabajo del modelo era predecir el siguiente personaje.
No necesitas una gran vista
Si alguna vez te has quitado las gafas para leer, sabrás que el texto borroso aún se puede leer. El mismo principio ocurre aquí.
Eche un vistazo a estas versiones de 8×8 píxeles de 人工智能 (mantenga la pantalla con el brazo extendido):
Cada carácter tiene 64 píxeles. Y el modelo, entrenado con entradas a esta resolución, funciona tan bien como uno entrenado con imágenes de 80×80.
De hecho, probamos resoluciones de imagen desde 4×4 hasta 80×80, y descubrimos que: Pasar de 8×8 a 80×80 (100 veces más píxeles) no compra prácticamente nada.
Los resultados del recorte son aún más sorprendentes y emocionantes. Con el 50% de cada personaje eliminado, la precisión cae en menos del 2%. El modelo no necesita una imagen completa y clara. Resulta que se necesita la estructura suficiente para saber a qué familia radical pertenece un personaje.
(Una nota sobre la metodología: en los ejemplos anteriores, he colocado las versiones completa y recortada una al lado de la otra para que puedas comparar. En los experimentos reales, cada condición de entrenamiento es completamente independiente: el modelo entrenado con caracteres recortados nunca ha visto una completa).
El efecto de arranque en caliente
Entonces, ¿el modelo visual es mejor que el basado en texto?
Al final no. Ambos convergen hacia una precisión final esencialmente idéntica. Pero el viaje se presenta muy diferente, especialmente el comienzo.
Después de ver solo el 0,4 % de los pasos de entrenamiento, el modelo visual ya es dos veces más preciso que la línea base basada en texto.
Esto es lo que llamamos efecto de arranque en caliente. El modelo visual llega al entrenamiento sabiendo algo útil: que 打, 拍 y 拉 se ven similares y probablemente se comportan de manera similar. El modelo basado en texto comienza con incrustaciones aleatorias y tiene que resolverlo desde cero.
Si observa el espacio de incrustación durante la inicialización (antes de cualquier entrenamiento), puede ver esto directamente:
Puedes ver que los personajes que comparten el mismo grupo radical se agrupan en la etapa de entrenamiento inicial. Similitud de coseno para pares que comparten radicales: ~0,27 para incrustaciones visuales, ~0,002 para incrustaciones de tokens aleatorias.
Por qué la carrera termina en empate
Aquí está la clave: el previo visual codifica la similitud visual, pero no la co-ocurrencia lingüística. Sin embargo, la predicción del próximo personaje depende en última instancia de este último.
Sí, 打, 拍 y 拉 comparten 扌 y se parecen. Pero en el texto real, pueden aparecer en contextos muy diferentes: 打击犯罪 (crimen de combate), 拍摄照片 (tomar fotografías), 拉动经济 (estimular la economía), etc. Una vez que el modelo basado en texto ha visto suficientes datos para aprender estos patrones, los antecedentes visuales comienzan ya no importan.
En otras palabras, las entradas visuales inician la optimización en caliente. Pero bueno, eso no cambia el techo de información.
Esto siempre me recuerda la historia de Ted Chiang, Story of Your Life (la base de la película Arrival). En la historia, el lenguaje escrito y hablado son dos sistemas independientes. Pero, en última instancia, tienen el mismo propósito: la comunicación. Dos caminos, mismo destino.
Donde esto realmente importa
A pesar del mismo destino, hay situaciones reales en las que importa:
Entornos de bajos recursos. Cuando no tienes muchos datos de entrenamiento, la ventaja visual se traduce en una ventaja práctica real. En nuestros experimentos, con solo 10.000 muestras, los modelos visuales ya superan a una línea base de texto completamente entrenada en los puntos de referencia chinos posteriores (C-eval).
Textos históricos dañados. Este es otro emocionante. Una imagen puede ayudar a comprobar manuscritos chinos clásicos, libros dañados y documentos escritos a mano en los que faltan trazos o están descoloridos.
¿Qué pasa con la informática?
Buenas noticias: casi no hay gastos generales. El codificador visual simplificado que utilicé en realidad tiene menos parámetros que la línea base de texto (12,6 millones frente a 19,0 millones). Sobrecarga de memoria: +1,3%. Por eso sostenemos que el previo visual es casi gratuito.
La respuesta corta
¿Es el idioma chino visual de su naturaleza? La respuesta parece ser: al principio, sí. Al final, no importa.
La estructura visual da a los modelos un buen comienzo. Es similar a lo que hace el lector humano cuando ve 扌 e inmediatamente sabe que está en el territorio de acciones relacionadas con las manos. Pero los patrones más profundos del lenguaje deben aprenderse de los datos. Ambas representaciones las aprenden igualmente bien.
El artículo está en arxiv: https://arxiv.org/abs/2601.09566