. Principalmente trabajo con mi asistente de codificación en chino. Sin embargo, mi escritura a menudo es mixta: muchos términos de ingeniería me resultan más familiares en inglés (especialmente términos que usamos en python, git, etc.), y algunos incluso son difíciles de traducir de forma natural al chino.
Ayer, le pregunté a mi asistente de codificación en chino: “run.py有早停吗?我在恒源云上跑,发现没有触发”, que significa: “¿run.py implementa la detención anticipada? Estaba ejecutando el proyecto en un servicio de GPU compartido y no vi que se activara la detención anticipada”. Como de costumbre, naturalmente escribí el token técnico run.py en su forma original en inglés. El modelo inspeccionó el código y respondió con lo siguiente:
Todos los tokens técnicos permanecieron en inglés (run.py, config.py, train_unified), mientras que la estructura explicativa pasó al coreano. Este no es un caso único. Ha sucedido de vez en cuando: mientras mezclaba términos de ingeniería en chino e inglés, siempre aparecía el coreano.
Esto me hizo preguntar: ¿Es esto una cuestión de lenguaje o algo más profundo en el espacio de incrustación?
Hipótesis
Los espacios de incrustación no están estructurados principalmente por la naturaleza de los lenguajes. Al haber sido entrenados junto con modelos de lenguaje, tienden a organizarse por registros de tareas como escritura académica, texto conversacional y, en el caso de asistentes de codificación, ingeniería/código. El chino, aunque lo habla la mayor población del mundo, no es un medio natural para el registro de ingeniería y tiene una representación limitada en los corpus técnicos.
En tal contexto, el texto puede dejar de comportarse como “chino” en el espacio de incrustación tan pronto como aparecen tokens de ingeniería como revisión/rama/compromiso/PR/diff. En cambio, puede derivar hacia un campo atractor de ingeniería.
Realizaremos algunos experimentos para proporcionar evidencia empírica de esta hipótesis.
Deriva controlada del lenguaje
Construimos la siguiente secuencia controlada de oraciones donde las palabras en inglés reemplazan gradualmente a las chinas:
Etapa 0: 请帮我检查这个分支
Etapa 1: revisión de 请帮我 这个分支
Etapa 2: 请帮我 revisión de la sucursal 这个
Etapa 3: revise esta confirmación de solicitud de extracción de rama
Etapa 4: revise esta diferencia de código de confirmación de solicitud de extracción de rama
Ahora calculamos la similitud utilizando la similitud del coseno entre incrustaciones de oraciones. Definimos los “grupos” en coreano e inglés como la incorporación promedio de un pequeño conjunto de oraciones representativas relacionadas con la ingeniería en cada idioma. Usamos Δ (EN − KO) para denotar la diferencia entre las puntuaciones de similitud en inglés y coreano, es decir, Δ = similitud (inglés) − similitud (coreano).
Observamos un fenómeno interesante: la similitud coreana aumenta primero y luego es superada por la similitud inglesa. Además, el crecimiento de la similitud en inglés no es lineal, lo que sugiere un comportamiento similar a una transición de fase en lugar de una deriva gradual.
Al proyectar las incrustaciones en dos dimensiones usando PCA, observamos una trayectoria suave en las primeras etapas, seguida de un salto direccional brusco entre la Etapa 2 y la Etapa 3, y la posterior estabilización. Este patrón indica que las incrustaciones no se mueven linealmente a través del espacio; en cambio, parecen hacer una transición entre cuencas atractoras.
Comportamiento del modelo del mundo real
Consideremos nuevamente la frase que mencionamos al principio. Yo pregunté:
A. “run.py有早停吗?我在恒源云上跑,发现没有触发”, que significa “¿run.py implementa la detención anticipada? Estaba ejecutando el proyecto en un servicio de GPU compartido y no vi que se activara la detención anticipada”.
B. “원인을 찾았습니다. 결론: run.py에는 실제로 조기 종료가 없습니다. config.py에 USE_EARLY_STOPPING = True” (en coreano).
Traducido nuevamente al chino, tenemos:
C. “我找到了原因。结论:run.py实际上没有早停。config.py里有 USE_EARLY_STOPPING = True。”.
Calculamos las similitudes de A, B y C usando similitud de coseno entre incrustaciones de oraciones. A modo de comparación, definimos tres grupos de referencia: el grupo chino como la incorporación promedio de oraciones generales en lenguaje natural chino, y los grupos correspondientes en inglés y coreano.
Como puede ver, traducir la respuesta coreana al chino no devuelve la incorporación a la región china. En cambio, se acerca aún más a los grupos ingleses.
Esto sugiere: La traducción podría restaurar la forma del lenguaje, pero probablemente no incrustar la ubicación.
Conclusión
Ambos experimentos llegan a la misma conclusión: el espacio de incrustación no está organizado por fronteras lingüísticas. En cambio, es más probable que esté estructurado por la naturaleza de las tareas, donde domina el inglés de ingeniería.
Cuando una oración ingresa a esta región, la forma del lenguaje puede cambiar, pero la estructura incrustada permanece en la cuenca de ingeniería, lo que lleva a comportamientos extraños como responder en coreano incluso si no hablas coreano en absoluto.