Por qué mi asistente de codificación comenzó a responder en coreano cuando escribí chino

. Principalmente trabajo con mi asistente de codificación en chino. Sin embargo, mi escritura a menudo es mixta: muchos términos de ingeniería me resultan más familiares en inglés (especialmente términos que usamos en python, git, etc.), y algunos incluso son difíciles de traducir de forma natural al chino.

Ayer, le pregunté a mi asistente de codificación en chino: “run.py有早停吗？我在恒源云上跑，发现没有触发”, que significa: “¿run.py implementa la detención anticipada? Estaba ejecutando el proyecto en un servicio de GPU compartido y no vi que se activara la detención anticipada”. Como de costumbre, naturalmente escribí el token técnico run.py en su forma original en inglés. El modelo inspeccionó el código y respondió con lo siguiente:

Imagen del autor: captura de pantalla del asistente de codificación respondiendo en coreano

Todos los tokens técnicos permanecieron en inglés (run.py, config.py, train_unified), mientras que la estructura explicativa pasó al coreano. Este no es un caso único. Ha sucedido de vez en cuando: mientras mezclaba términos de ingeniería en chino e inglés, siempre aparecía el coreano.

Imagen del autor: Otra captura de pantalla del asistente de codificación respondiendo en coreano

Esto me hizo preguntar: ¿Es esto una cuestión de lenguaje o algo más profundo en el espacio de incrustación?

Hipótesis

Los espacios de incrustación no están estructurados principalmente por la naturaleza de los lenguajes. Al haber sido entrenados junto con modelos de lenguaje, tienden a organizarse por registros de tareas como escritura académica, texto conversacional y, en el caso de asistentes de codificación, ingeniería/código. El chino, aunque lo habla la mayor población del mundo, no es un medio natural para el registro de ingeniería y tiene una representación limitada en los corpus técnicos.

En tal contexto, el texto puede dejar de comportarse como “chino” en el espacio de incrustación tan pronto como aparecen tokens de ingeniería como revisión/rama/compromiso/PR/diff. En cambio, puede derivar hacia un campo atractor de ingeniería.

Realizaremos algunos experimentos para proporcionar evidencia empírica de esta hipótesis.

Deriva controlada del lenguaje

Construimos la siguiente secuencia controlada de oraciones donde las palabras en inglés reemplazan gradualmente a las chinas:

Etapa 0: 请帮我检查这个分支
Etapa 1: revisión de 请帮我这个分支
Etapa 2: 请帮我 revisión de la sucursal 这个
Etapa 3: revise esta confirmación de solicitud de extracción de rama
Etapa 4: revise esta diferencia de código de confirmación de solicitud de extracción de rama

Ahora calculamos la similitud utilizando la similitud del coseno entre incrustaciones de oraciones. Definimos los “grupos” en coreano e inglés como la incorporación promedio de un pequeño conjunto de oraciones representativas relacionadas con la ingeniería en cada idioma. Usamos Δ (EN − KO) para denotar la diferencia entre las puntuaciones de similitud en inglés y coreano, es decir, Δ = similitud (inglés) − similitud (coreano).

EtapaSimilitud coreanaSimilitud inglesaΔ (EN − KO)00.47830.51410.035810.52350.57280.049220.54740.61400.066530.56160.73140.169840.54270.73980.1972

Observamos un fenómeno interesante: la similitud coreana aumenta primero y luego es superada por la similitud inglesa. Además, el crecimiento de la similitud en inglés no es lineal, lo que sugiere un comportamiento similar a una transición de fase en lugar de una deriva gradual.

Al proyectar las incrustaciones en dos dimensiones usando PCA, observamos una trayectoria suave en las primeras etapas, seguida de un salto direccional brusco entre la Etapa 2 y la Etapa 3, y la posterior estabilización. Este patrón indica que las incrustaciones no se mueven linealmente a través del espacio; en cambio, parecen hacer una transición entre cuencas atractoras.

Imagen del autor: Trayectoria de deriva controlada en el espacio PAC

Comportamiento del modelo del mundo real

Consideremos nuevamente la frase que mencionamos al principio. Yo pregunté:

A. “run.py有早停吗？我在恒源云上跑，发现没有触发”, que significa “¿run.py implementa la detención anticipada? Estaba ejecutando el proyecto en un servicio de GPU compartido y no vi que se activara la detención anticipada”.

B. “원인을 찾았습니다. 결론: run.py에는 실제로 조기 종료가 없습니다. config.py에 USE_EARLY_STOPPING = True” (en coreano).

Traducido nuevamente al chino, tenemos:

C. “我找到了原因。结论：run.py实际上没有早停。config.py里有 USE_EARLY_STOPPING = True。”.

Calculamos las similitudes de A, B y C usando similitud de coseno entre incrustaciones de oraciones. A modo de comparación, definimos tres grupos de referencia: el grupo chino como la incorporación promedio de oraciones generales en lenguaje natural chino, y los grupos correspondientes en inglés y coreano.

TextoCoreano simInglés simChino simA. (mensaje chino) 0.20030.26880.3134B. (Respuesta coreana) 0.27450.29830.1641C. (Traducido al chino) 0.16340.31060.2798

Como puede ver, traducir la respuesta coreana al chino no devuelve la incorporación a la región china. En cambio, se acerca aún más a los grupos ingleses.

Esto sugiere: La traducción podría restaurar la forma del lenguaje, pero probablemente no incrustar la ubicación.

Conclusión

Ambos experimentos llegan a la misma conclusión: el espacio de incrustación no está organizado por fronteras lingüísticas. En cambio, es más probable que esté estructurado por la naturaleza de las tareas, donde domina el inglés de ingeniería.
Cuando una oración ingresa a esta región, la forma del lenguaje puede cambiar, pero la estructura incrustada permanece en la cuenca de ingeniería, lo que lleva a comportamientos extraños como responder en coreano incluso si no hablas coreano en absoluto.

Por qué mi asistente de codificación comenzó a responder en coreano cuando escribí chino

ByEquipo de 7 minutos

Hipótesis

Deriva controlada del lenguaje

Comportamiento del modelo del mundo real

Conclusión

By Equipo de 7 minutos

Related Post

Comience a construir con Nano Banana 2 Lite y Gemini Omni Flash

Las aplicaciones iMessage de Linq llevan pagos, boletos, vuelos y juegos a la burbuja de iMessage a través de la parte imessage_app

Sobrevivir a la entrevista conductual sobre ciencia de datos

You missed

Desde remolcar plataformas petrolíferas en el Mar del Norte hasta navegar por Mallorca en un superyate

25 cosas que te harán sentir los mensajes de voz de Isabelle

Comience a construir con Nano Banana 2 Lite y Gemini Omni Flash

Los bebés nacen con los fundamentos neuronales de las matemáticas