ByteDance Seed lanzó recientemente una investigación que podría cambiar la forma en que construimos inteligencia artificial de razonamiento. Durante años, los desarrolladores e investigadores de IA han luchado por “iniciar en frío” modelos de lenguajes grandes (LLM) en modelos de cadena de pensamiento larga (CoT larga). La mayoría de los modelos pierden el rumbo o no logran transferir patrones durante el razonamiento de varios pasos.
El equipo de ByteDance descubrió el problema: hemos estado analizando el razonamiento de manera incorrecta. En lugar de solo palabras o nodos, el razonamiento eficaz de la IA tiene una estructura estable de tipo molecular.
Los 3 ‘enlaces químicos’ del pensamiento
Los investigadores postulan que las trayectorias de razonamiento de alta calidad se mantienen unidas mediante tres tipos de interacción. Estos reflejan las fuerzas que se encuentran en la química orgánica:
Razonamiento profundo como enlaces covalentes: forma el “hueso” principal del proceso de pensamiento. Codifica fuertes dependencias lógicas donde el Paso A debe justificar el Paso B. Romper este vínculo desestabiliza toda la respuesta. Autorreflexión como enlaces de hidrógeno: actúa como estabilizador. Así como las proteínas ganan estabilidad cuando las cadenas se pliegan, el razonamiento se estabiliza cuando pasos posteriores (como el Paso 100) revisan o refuerzan premisas anteriores (como el Paso 10). En sus pruebas, el 81,72% de los pasos de reflexión se reconectaron con éxito a grupos previamente formados. Autoexploración como fuerzas de Van der Waals: son puentes débiles entre grupos distantes de lógica. Permiten que el modelo explore nuevas posibilidades o hipótesis alternativas antes de imponer restricciones lógicas más fuertes.
Por qué ‘Espera, déjame pensar’ no es suficiente
La mayoría de los desarrolladores/investigadores de IA intentan corregir el razonamiento entrenando modelos para imitar palabras clave como “esperar” o “tal vez”. El equipo de ByteDance demostró que los modelos en realidad aprenden el comportamiento de razonamiento subyacente, no las palabras superficiales.
El equipo de investigación identifica un fenómeno llamado Isómeros Semánticos. Se trata de cadenas de razonamiento que resuelven la misma tarea y utilizan los mismos conceptos, pero difieren en cómo se distribuyen sus “vínculos” lógicos.
Los hallazgos clave incluyen:
La imitación falla: el ajuste de los rastros anotados por humanos o el uso del aprendizaje en contexto (ICL) a partir de modelos débiles no logra construir estructuras Long CoT estables. Conflicto estructural: mezclar datos de razonamiento de diferentes maestros fuertes (como DeepSeek-R1 y OpenAI-OSS) en realidad desestabiliza el modelo. Incluso si los datos son similares, las diferentes estructuras “moleculares” causan caos estructural y reducen el rendimiento. Flujo de información: a diferencia de los humanos, que obtienen información uniforme, los modelos de razonamiento fuerte exhiben una oscilación metacognitiva. Alternan entre exploración de alta entropía y validación convergente estable.
MOLE-SYN: El método de síntesis
Para solucionar estos problemas, el equipo de ByteDance presentó MOLE-SYN. Este es un método de ‘gráfico de transferencia de distribución’. En lugar de copiar directamente el texto de un profesor, transfiere la estructura de comportamiento al modelo del estudiante.
Funciona estimando un gráfico de transición de comportamiento a partir de modelos sólidos y guiando un modelo más barato para sintetizar sus propias estructuras Long CoT efectivas. Este desacoplamiento de la estructura del texto superficial produce ganancias consistentes en 6 puntos de referencia principales, incluidos GSM8K, MATH-500 y OlymBench.
Protegiendo la ‘molécula del pensamiento’
Esta investigación también arroja luz sobre cómo las empresas privadas de IA protegen sus modelos. Exponer rastros de razonamiento completos permite a otros clonar los procedimientos internos del modelo.
El equipo de ByteDance descubrió que el resumen y la compresión del razonamiento son defensas eficaces. Al reducir el recuento de tokens (a menudo en más del 45%), las empresas alteran el razonamiento de las distribuciones de bonos. Esto crea una brecha entre lo que produce el modelo y sus “transiciones limitadas por errores” internas, lo que hace mucho más difícil destilar las capacidades del modelo.
Conclusiones clave
Razonamiento como vínculos ‘moleculares’: la larga cadena de pensamiento efectiva (Long CoT) se define por tres vínculos ‘químicos’ específicos: el razonamiento profundo (tipo covalente) forma la columna vertebral lógica, la autorreflexión (tipo enlace de hidrógeno) proporciona estabilidad global a través del plegamiento lógico y la autoexploración (tipo van der Waals) une conceptos semánticos distantes. Comportamiento sobre palabras clave: los modelos internalizan estructuras de razonamiento subyacentes y distribuciones de transición en lugar de solo señales léxicas a nivel superficial como “espera” o “tal vez”. Reemplazar palabras clave con sinónimos no afecta significativamente el rendimiento, lo que demuestra que la verdadera profundidad del razonamiento proviene de motivos de comportamiento aprendidos. El conflicto del ‘isómero semántico’: la combinación de datos de razonamiento heterogéneos de diferentes modelos sólidos (por ejemplo, DeepSeek-R1 y OpenAI-OSS) puede desencadenar un ‘caos estructural’. Incluso si las fuentes de datos son estadísticamente similares, las distribuciones de comportamiento incompatibles pueden romper la coherencia lógica y degradar el rendimiento del modelo. Metodología MOLE-SYN: este marco de ‘gráfico de transferencia de distribución’ permite a los modelos sintetizar estructuras Long CoT efectivas desde cero utilizando LLM de instrucción más económicos. Al transferir el gráfico de transición de comportamiento en lugar de texto directo, MOLE-SYN logra un rendimiento cercano a la costosa destilación al tiempo que estabiliza el aprendizaje por refuerzo (RL). Protección a través de disrupción estructural: los LLM privados pueden proteger sus procesos de razonamiento interno mediante resumen y compresión. Reducir el recuento de tokens en aproximadamente un 45% o más efectivamente “rompe” las distribuciones de bonos, lo que hace que sea significativamente más difícil para los modelos no autorizados clonar procedimientos de razonamiento interno mediante destilación.
Consulte el documento. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.