Prime Intellect publica Synthetic-1: un conjunto de datos de código abierto que consta de 1,4 m tareas seleccionadas que abarcan matemáticas, codificación, ingeniería de software, STEM y comprensión de código sintético

En inteligencia artificial y aprendizaje automático, los conjuntos de datos de alta calidad juegan un papel crucial en el desarrollo de modelos precisos y confiables. Sin embargo, la recopilación de datos extensos y verificados, particularmente en dominios especializados como las matemáticas, la codificación y la ciencia, aumenta un desafío. Los métodos tradicionales de recolección de datos a menudo no pueden producir conjuntos de datos que entrenan de manera efectiva modelos para tareas de razonamiento complejas. Esta brecha resalta la necesidad de nuevos enfoques para la creación y verificación del conjunto de datos.

Prime Intellect ha introducido Synthetic-1, un conjunto de datos de código abierto diseñado para proporcionar rastros de razonamiento verificados en matemáticas, codificación y ciencia. Construido con el soporte de Deepseek-R1, este conjunto de datos consta de 1,4 millones de tareas y verificadores estructurados. El objetivo de Synthetic-1 es mejorar los modelos de razonamiento al proporcionarles datos bien organizados y confiables, abordar las deficiencias de los recursos existentes.

Synthetic-1 incluye una gama de tipos de tareas, cada uno diseñado para garantizar la calidad y la relevancia:

  • 777,000 problemas matemáticos con verificadores simbólicos: Estos problemas, obtenidos del conjunto de datos de Numinamath, se centran en las preguntas a nivel de competencia de la escuela secundaria. Un proceso de filtrado basado en LLM elimina los problemas no verificables, como los que requieren pruebas, y reformula las preguntas de opción múltiple en formatos de respuesta directa.
  • 144,000 problemas de codificación con pruebas unitarias: Extraído de conjuntos de datos como aplicaciones, CodeContests, CodeForces y TACO, estos problemas vienen con pruebas unitarias para verificar las soluciones. El conjunto de datos inicialmente contenía problemas de pitón, que luego se expandieron para incluir JavaScript, Rust y C ++, aumentando la variedad y la profundidad de los desafíos.
  • 313,000 preguntas sobre STEM abiertas con LLM Evaluation: Utilizando el conjunto de datos stackexchange, este subconjunto cubre un amplio espectro de temas técnicos y científicos. El proceso de selección prioriza las preguntas que requieren razonamiento en lugar de recuperación de información simple. Un juez de LLM obtiene respuestas basadas en su alineación con las respuestas comunitarias de los mejores votos.
  • 70,000 tareas de ingeniería de software del mundo real: Estas tareas, extraídas de los compromisos de GitHub en el conjunto de datos CommitPack, implican modificar archivos de código basados ​​en instrucciones de confirmación. Un juez de LLM evalúa las soluciones comparándolas con los estados de código post-compromiso reales.
  • 61,000 tareas de predicción de salida del código: Centrado en predecir la salida de transformaciones de código en las cadenas, este subconjunto desafía modelos con tareas de manipulación de cadenas cada vez más complejas. Estos problemas están diseñados para ser particularmente difíciles para los modelos de IA modernos.

La naturaleza estructurada de Synthetic-1 lo convierte en un recurso valioso para los modelos de entrenamiento en el razonamiento estructurado. Al incluir problemas verificables programáticamente, como las tareas de codificación con pruebas unitarias, el conjunto de datos garantiza los criterios de corrección claros. Además, las preguntas de razonamiento abierta verificadas por los jueces de LLM brindan desafíos que impulsan los límites de las capacidades actuales de IA. El marco colaborativo del conjunto de datos también permite una mejora y expansión continuas, fomentando un esfuerzo compartido para refinar los recursos de capacitación de IA.

Synthetic-1 representa un paso adelante en la creación de conjuntos de datos de alta calidad para modelos de IA basados ​​en el razonamiento. Al abordar las brechas en los conjuntos de datos existentes, proporciona una base estructurada para mejorar el razonamiento de las máquinas en matemáticas, codificación y ciencias. El proyecto también fomenta las contribuciones continuas, por lo que es un recurso en evolución para los investigadores y desarrolladores que trabajan para avanzar en las capacidades de IA en la resolución estructurada de problemas.


Verificar el Detalles y Conjunto de datos en la cara abrazada. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos Gorjeo y únete a nuestro Canal de telegrama y LinkedIn GRsalpicar. No olvides unirte a nuestro 75k+ ml de subreddit.

🚨 Plataforma de IA de código abierto recomendada: ‘Intellagent es un marco de agente múltiple de código abierto para evaluar el complejo sistema de IA conversacional’ (promovido)


Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.