El entrenamiento de potentes modelos de IA depende de un recurso que se está agotando silenciosamente: los datos especializados. Si bien Internet proporcionó un suministro aparentemente infinito de texto e imágenes para entrenar los modelos generalistas actuales, la próxima ola de avances en IA (en ciberseguridad, razonamiento legal, atención médica y otros dominios especializados) requiere datos que simplemente no existen en un volumen suficiente o a los que no se puede acceder debido a preocupaciones de privacidad.
Un equipo de investigadores de Google y EPFL presenta Simula, un marco basado en el razonamiento para la generación y evaluación de datos sintéticos que prioriza la transparencia, el control detallado y la escalabilidad. A diferencia de los enfoques convencionales, Simula no se basa en datos iniciales de la distribución objetivo, indicaciones hechas a mano o algoritmos evolutivos: construye cada conjunto de datos a partir de primeros principios, tratando la generación de datos como un problema de diseño de mecanismos.
Por qué la generación de datos sintéticos es más difícil de lo que parece
Si ha trabajado con procesos de ajuste fino o entrenamiento de modelos de dominios específicos, probablemente se haya topado con el muro de “datos insuficientes”. Recopilar y anotar manualmente conjuntos de datos especializados es costoso, requiere mucho tiempo y es propenso a errores. Pero la solución obvia (simplemente solicitar a un modelo de lenguaje grande (LLM) que genere datos de entrenamiento) se topa con su propio conjunto de problemas.
La mayoría de los métodos de datos sintéticos existentes optimizan sólo un subconjunto de lo que los investigadores definen como los tres ejes de los datos “buenos”: calidad, diversidad y complejidad. La calidad se refiere a si un dato cumple con requisitos semánticos y sintácticos específicos. La diversidad cubre tanto la cobertura global (¿tiene ejemplos de todo el espacio conceptual?) como la variación local (¿tiene múltiples enfoques distintos de cada concepto?). La complejidad captura cuán confuso, poco común o elaborado es un ejemplo determinado. Controlar simultáneamente los tres, a escala y con explicabilidad, es el desafío no resuelto al que Simula se enfrenta directamente.
Cómo funciona Simula: taxonomías, metaindicaciones y críticas duales
Simula divide el proceso de generación en cuatro pasos distintos y controlables, cada uno de los cuales tiene como objetivo una propiedad de datos específica.
El primer paso aborda la diversidad global utilizando taxonomías jerárquicas. Dada una descripción de un conjunto de datos, digamos, “un conjunto de datos de preguntas de inteligencia sobre amenazas a la ciberseguridad”, se solicita un modelo multimodal (denominado M3) para identificar los principales factores de variación para ese dominio (por ejemplo, tipo de ataque, actor de amenaza, clase de vulnerabilidad). Luego, cada factor se expande primero en amplitud en un árbol de taxonomía jerárquica. Para reducir el riesgo de perder subcategorías importantes, el sistema utiliza una estrategia de propuesta Best-of-N combinada con un paso de refinamiento crítico, donde el modelo propone N nodos secundarios candidatos y luego los critica por su integridad, solidez y especificidad. Las taxonomías resultantes funcionan como andamios de muestreo estructurados, lo que garantiza que cuando se extraen 512.000 ejemplos de entrenamiento, cubran genuinamente la larga cola del dominio en lugar de agruparse en torno a modos comunes.
El segundo paso se ocupa de la diversidad local. Las combinaciones muestreadas de nodos de taxonomía, llamadas “mezclas”, se pasan a un M3 para generar “metaindicaciones”. Por ejemplo, una combinación de {gato doméstico, poema, entusiasta de los viajes} se convierte en “Componga un haiku emocionante sobre un gato doméstico que se embarca en una aventura”. Para evitar el colapso del modo cuando se generan muchos metaindicadores a partir del mismo conjunto de nodos, Simula genera múltiples metaindicadores simultáneamente y submuestra la fracción requerida, asegurando instancias distintas en lugar de repeticiones idénticas.
El tercer paso es la complejización. Una fracción configurable por el usuario, c, de metaindicaciones pasa a través de un paso de complejización, lo que solicita al M3 que aumente la complejidad de las metaindicaciones y resultados generados manteniendo todos los demás requisitos. Esto separa el control de la complejidad del control de la cobertura: puedes elevar el límite de dificultad sin sacrificar la amplitud.
El cuarto paso mejora la calidad mediante un enfoque de “doble crítica”. En lugar de preguntarle al modelo una vez si una respuesta generada es correcta, Simula consulta de forma independiente al modelo si la respuesta es correcta y si es incorrecta. Este diseño de verificación dual mitiga el sesgo de adulación (la tendencia de los LLM a estar de acuerdo con resultados que suenan plausibles) y es particularmente importante para tareas con una noción definida de corrección, como preguntas de opción múltiple o problemas matemáticos.
Lo que muestran los experimentos
El equipo de investigación probó Simula utilizando Gemini 2.5 Flash (sin pensamiento) como modelo de maestro y Gemma 3 4B como modelo de estudiante, ejecutando 10 iteraciones de ajuste fino de LoRA con diferentes semillas por configuración y reportando una precisión media con intervalos de confianza del 95%. Generaron conjuntos de datos de hasta 512.000 puntos de datos en cinco dominios: CTI-MCQ, un conjunto de datos de preguntas de opción múltiple para evaluar la comprensión de los estándares, las amenazas y la mitigación de CTI; CTI-RCM, una tarea de generación abierta que requiere que el modelo produzca una categoría de enumeración de debilidades comunes (CWE) a partir de una descripción de vulnerabilidades y exposiciones comunes (CVE); LEXam, que cubre exámenes de derecho suizo, de la UE e internacional en inglés y alemán; GSM8k (matemáticas de primaria); y Global MMLU (Matemáticas, Informática y Física en inglés, coreano y nepalí).
En todos los conjuntos y tamaños de datos, el sistema Simula completo (que combina diversificación global, diversificación local, complejización y crítica) superó consistentemente a las configuraciones de referencia más simples. En particular, era fundamental combinar la diversificación global y local; cualquiera de los dos de forma aislada produjo resultados subóptimos según el conjunto de datos y la escala.
Los resultados de complejidad fueron particularmente instructivos. En GSM8k, la división de Alta Complejidad arrojó una ganancia de precisión del 10 % sobre la división de Baja Complejidad en 64 000 elementos de datos. Pero en LEXam, donde el modelo docente logró solo un 57% de precisión, los datos de mayor complejidad en realidad perjudicaron el rendimiento, lo que demuestra que los datos complejos solo son beneficiosos cuando el modelo docente es lo suficientemente sólido como para generar etiquetas confiables para ellos. La tasa de rechazo de críticas para LEXam alcanzó el 61%, en comparación con sólo el 2% para CTI-MCQ, el 9% para CTI-RCM y el 9% para GSM8k, lo que refleja directamente la debilidad del modelo docente en ese ámbito.
Un hallazgo separado y prácticamente importante es lo que el equipo de investigación llama el efecto de la brecha entre estudiantes y maestros en las leyes de escala. Para CTI-RCM, el rendimiento del modelo de estudiante se saturó en alrededor de 128.000 puntos de datos, después de cerrar aproximadamente el 83 % de la brecha entre la precisión inicial del estudiante (40 %) y el rendimiento del modelo del profesor (70 %). GSM8k, por el contrario, no mostró tal saturación porque el rendimiento máximo del modelo de estudiante (75%) permaneció suficientemente alejado del del profesor (88%).
La evaluación intrínseca se replantea
Más allá de la generación, el equipo de investigación introduce dos nuevos enfoques de evaluación. La cobertura taxonómica mide qué fracción de nodos de taxonomía en cada nivel están representados en un conjunto de datos, una alternativa estructurada a las métricas de distancia de coseno basadas en incrustaciones burdas que no brindan información procesable. La puntuación de complejidad calibrada asigna calificaciones Elo a puntos de datos individuales mediante la ejecución de comparaciones por pares por lotes, un método que el equipo de investigación llama “puntuación de atributos calibrados”, que demostró alinearse bien con las etiquetas de complejidad anotadas por humanos en el conjunto de datos MATH.
Un hallazgo destaca: desde el punto de vista de la cobertura taxonómica, los conjuntos de datos de referencia del mundo real casi siempre cubren menos del dominio objetivo que las variantes generadas por Simula, incluso cuando las métricas de diversidad basadas en la incorporación cuentan la historia opuesta. Esto subraya la limitación de depender únicamente de la distancia del coseno como indicador de la calidad del conjunto de datos.
Conclusiones clave
El marco sin semillas de Simula, que prioriza el razonamiento, controla la calidad, la diversidad y la complejidad como ejes independientes, lo que permite un diseño de conjuntos de datos sintéticos detallados sin depender de indicaciones manuales, algoritmos evolutivos o datos semilla de la distribución objetivo. Combinar la diversificación global y local es fundamental: cualquiera de los componentes de forma aislada produce resultados subóptimos, pero juntos mejoran consistentemente el rendimiento del modelo posterior en todos los conjuntos de datos y tamaños de datos probados. La complejidad de los datos ayuda al rendimiento del modelo en la mayoría de los dominios, pero puede perjudicar cuando el modelo del profesor es débil: en LEXam, donde Gemini 2.5 Flash (sin pensamiento) logró solo un 57 % de precisión, la división de baja complejidad superó a la división de alta complejidad. Los conjuntos de datos de referencia del mundo real casi siempre cubren menos del dominio objetivo que las variantes generadas por Simula en términos de cobertura taxonómica, incluso cuando las métricas de distancia de coseno basadas en incrustaciones estándar sugieren lo contrario. Las leyes de escalamiento de datos están impulsadas por las propiedades de los datos, no solo por el tamaño: el sistema Simula completo alcanzó un mayor rendimiento posterior con menos muestras en comparación con los enfoques de referencia, lo que lo hace más rentable en todo el ciclo de vida de los datos a pesar de requerir hasta 5 veces más llamadas de inferencia por punto de datos.
Consulte el documento y los detalles técnicos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 130.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.
¿Necesita asociarse con nosotros para promocionar su repositorio de GitHub O su página principal de Hugging O su lanzamiento de producto O seminario web, etc.? Conéctate con nosotros