Numinamath 1.5: Segunda iteración de Numinamath que avanza en la resolución de problemas matemáticos con IA con conjuntos de datos de nivel de competencia mejorados, metadatos verificados y capacidades de razonamiento mejoradas

El razonamiento matemático sigue siendo uno de los desafíos más complejos en la IA. Si bien la IA ha avanzado en la PNL y el reconocimiento de patrones, su capacidad para resolver problemas matemáticos complejos con la lógica y el razonamiento de los humanos aún se retrasan. Muchos modelos de IA luchan con la resolución estructurada de problemas, el razonamiento simbólico y la comprensión de las relaciones profundas entre los conceptos matemáticos. Abordar esta brecha requiere conjuntos de datos estructurados de alta calidad que permitan a la IA aprender del razonamiento matemático experto y mejorar la precisión de resolución de problemas.

Reconociendo las necesidades anteriores, Project-Numina ha lanzado Numinamath 1.5la segunda versión de su conjunto de datos de entrenamiento de IA avanzado, Numinamathpersonalizado específicamente para el razonamiento matemático. Numinamath 1.5 se basa en sus predecesores al ofrecer una colección curada de aproximadamente 900,000 problemas matemáticos a nivel de competencia. Estos problemas se estructuran utilizando una metodología de cadena de pensamiento (COT), asegurando que los modelos de IA sigan un proceso lógico de razonamiento paso a paso para llegar a soluciones. El conjunto de datos obtiene problemas de matemáticas de secundaria china, competiciones de matemáticas de EE. UU. Y Olimpiadas internacionales, proporcionando un amplio espectro de niveles de dificultad para capacitar a los sistemas de IA de manera efectiva.

La principal innovación en Numinamath 1.5 son sus metadatos de problemas enriquecidos, que incluye:

Respuestas finales para problemas de palabras.
Los dominios matemáticos incluyen álgebra, geometría, teoría de números y cálculo.
Los tipos de problemas se clasifican en preguntas de opción múltiple (MCQS), problemas basados en pruebas y problemas de palabras.

Estas mejoras hacen que Numinamath 1.5 sea un recurso más estructurado y verificable para la capacitación de IA. Permiten una mejor generalización y razonamiento al abordar los desafíos matemáticos invisibles.

Project-Numina ha adoptado un enfoque de validación manual para los problemas obtenidos de los conjuntos de datos Olympiad para garantizar la precisión y confiabilidad del conjunto de datos. La versión anterior de Numinamath encontró problemas de análisis debido a técnicas de extracción automatizadas, que a veces malinterpretaban las estructuras de problemas. En respuesta, Numinamath 1.5 ahora utiliza fuentes oficiales de sitios web de la Olimpiada Nacional, asegurando que cada problema y solución se transcriba y formatee con precisión.

El último conjunto de datos incluye problemas curados manualmente en campos matemáticos críticos como:

Concursos de matemáticas chinas (CN_CONTEST)
Desigualdades y teoría de números, verificado por matemáticos expertos

Este enfoque en datos curados y verificados asegura que los modelos de IA aprendan de fuentes auténticas de alta calidad.

Otra mejora importante en Numinamath 1.5 es la eliminación de conjuntos de datos sintéticos, como Synthetic_AMC. Si bien las iteraciones anteriores incluyeron problemas sintéticos para expandir la diversidad del conjunto de datos, los estudios de ablación encontraron que los datos sintéticos obstaculizaron marginalmente el rendimiento de la IA al introducir inconsistencias en la estructura de problemas. Como resultado, Numinamath 1.5 elimina los problemas sintéticos, asegurando que los modelos de IA se involucren solo con las matemáticas de nivel de competencia en el mundo real en lugar de contenido generado artificialmente.

Numinamath 1.5 proporciona problemas de múltiples fuentes, asegurando diversos desafíos matemáticos. El conjunto de datos incluye:

PROBLEMAS DE OLYMPIAD: Problemas verificados de las Olimpiadas de Matemáticas Nacionales e Internacionales.
Datos del foro AOPS: obtenidos de foros de discusión matemática, con una combinación de problemas generales y de estilo de competencia.
Problemas de AMC y AIME: Preguntas de los American Mathematics Competits (AMC) y el American Invitational Mathematics Examination (AIME).
Matemáticas chinas K-12: un gran subconjunto de problemas de los planes de estudio de la escuela secundaria china, que proporciona una base sólida en álgebra y geometría.

En conclusión, Numinamath 1.5 ofrece 896,215 problemas de matemáticas a nivel de competencia verificada de olímpiadas, concursos nacionales y foros académicos. Los metadatos estructurados, incluido el tipo de problema, el formato de pregunta y las soluciones verificadas, garantizan la categorización y el análisis precisos. El conjunto de datos elimina los problemas sintéticos, centrándose en datos curados manualmente y de alta calidad. Es un recurso vital para la investigación y la capacitación de IA, que cubre más de 268,000 problemas K-12, 73,000 de foros y sets de competencia de élite.

Verificar el Conjunto de datos. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos Gorjeo y únete a nuestro Canal de telegrama y LinkedIn GRsalpicar. No olvides unirte a nuestro 75k+ ml de subreddit.

🚨 Plataforma de IA de código abierto recomendada: ‘Intellagent es un marco de múltiples agentes de código abierto para evaluar el complejo sistema de IA conversacional‘ _{(Promocionado)}

Nikhil es consultor interno en MarktechPost. Está buscando un doble grado integrado en materiales en el Instituto Indio de Tecnología, Kharagpur. Nikhil es un entusiasta de AI/ML que siempre está investigando aplicaciones en campos como biomateriales y ciencias biomédicas. Con una sólida experiencia en la ciencia material, está explorando nuevos avances y creando oportunidades para contribuir.

Numinamath 1.5: Segunda iteración de Numinamath que avanza en la resolución de problemas matemáticos con IA con conjuntos de datos de nivel de competencia mejorados, metadatos verificados y capacidades de razonamiento mejoradas

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Tutorial de NVIDIA Garak: cree un flujo de trabajo de equipo rojo LLM defensivo completo con sondas y detectores personalizados

Las 21 mejores herramientas de inteligencia artificial con y sin código en 2026

Conozca Harness-1: un subagente de recuperación 20B capacitado con aprendizaje por refuerzo dentro de un arnés de búsqueda con estado en gpt-oss-20b

You missed

Problemas cerca de la Vía Láctea: la Gran Nube de Magallanes está destrozando a su galaxia vecina más pequeña

Edición 1131 del Periódico Líder Costa Blanca y Costa Cálida 8 – 14 de junio de 2026 – El Líder

Blog de chismes deportivos n.° 1 en el mundo

Una dosis enorme de psilocibina tiene un efecto increíble en pacientes ancianos con demencia: ScienceAlert