La cuestión crítica del acceso restringido a los conjuntos de datos de razonamiento de alta calidad ha limitado los avances de razonamiento lógico y matemático impulsados por la IA de código abierto. Si bien los modelos patentados han aprovechado las demostraciones de razonamiento estructurado para mejorar el rendimiento, estos conjuntos de datos y metodologías permanecen cerradas, restringiendo la investigación e innovación independientes. La falta de conjuntos de datos de razonamiento abiertos y escalables ha creado un cuello de botella para el desarrollo de IA.
En los últimos años, modelos como SkyT1, Still-2 y Deepseek-R1 han demostrado que un conjunto relativamente pequeño de demostraciones de razonamiento de alta calidad en cientos de miles puede mejorar sustancialmente la capacidad de un modelo para realizar tareas de razonamiento lógico y matemático complejas. Aún así, la mayoría de los conjuntos de datos de razonamiento y las metodologías detrás de su creación siguen siendo propiedad, lo que limita el acceso a recursos cruciales necesarios para una mayor exploración en el campo.
La iniciativa de pensamientos abiertosdirigido por Bespoke Labs y la comunidad Datacomp de Stanford, UC Berkeley, UT Austin, UW, UCLA, UNC, TRI y Laion, es un ambicioso proyecto de código abierto con el objetivo de curar y desarrollar datos de razonamiento de alta calidad para abordar los conjuntos de datos anteriores preocupaciones con la disponibilidad de conjuntos de datos. Este proyecto busca establecer los mejores conjuntos de datos de razonamiento abiertos para mejorar las capacidades cognitivas de los modelos de lenguaje. El equipo tiene como objetivo proporcionar a los conjuntos de datos de razonamiento y estrategias de generación de datos disponibles públicamente. En este esfuerzo, han lanzado el OpentHouges-114K conjunto de datos de razonamiento y el asociado Openthinker-7b modelo. Veamos los detalles de ambos uno por uno.
El conjunto de datos OpentHoughts-114K: un nuevo estándar en datos de razonamiento abierto
Este conjunto de datos fue diseñado para proporcionar un corpus a gran escala y alta calidad de demostraciones de razonamiento para mejorar las habilidades de razonamiento de los modelos de idiomas. OpentHoughts-114K es una extensión de conjuntos de datos anteriores como Bespoke-Stratos-17k, que solo contenía 17,000 ejemplos. Al ampliar hasta 114,000 ejemplos de razonamiento, este conjunto de datos ha mejorado el rendimiento en varios puntos de referencia de razonamiento. OpentHoughts-114K se generó utilizando técnicas de destilación de razonamiento inspiradas en Deepseek-R1, que mostró que las demostraciones de razonamiento sintético podrían producirse de manera eficiente y a escala. Este conjunto de datos incorpora diversos desafíos de razonamiento, que van desde la resolución de problemas matemáticos hasta la deducción lógica, sirviendo así como un recurso valioso para mejorar la robustez del modelo en múltiples dominios de razonamiento.
Openthinker-7b: un modelo para razonamiento avanzado
Junto con el lanzamiento de OpentHoughts-114K, el equipo de Open Pensings también presentó OpentHinker-7B, una versión ajustada de QWEN-2.5-7B-Instructo. Este modelo fue entrenado específicamente en Opentents-114k y mejoró sustancialmente sobre sus predecesores. Más de 20 horas, fue entrenado con cuatro nodos 8xH100. Fue entrenado utilizando la biblioteca Transformers 4.46.1 y Pytorch 2.3.0 para garantizar la compatibilidad con ampliamente utilizado Ml marcos.
En algunas tareas de razonamiento, OpentHinker-7b supera a modelos comparables como Bespoke-Stratos-7B, Deepseek-R1-Distill-Qwen-7b e incluso GPT-4O. Benchmarked Usando EvalChemy, demostró resultados impresionantes en conjuntos de datos como AIME24: 43.3%, Math500: 83.0%, GPQA-D: 42.4%, LCB fácil: 75.3%y Medio LCB: 28.6%. Estos resultados indican que OpentHinker-7B es una formidable alternativa de código abierto a los modelos de razonamiento patentados.
Totalmente de código abierto: pesos, datos y código
Una característica definitoria del Proyecto de Pensamientos Abiertos es su compromiso con la plena transparencia. A diferencia de los modelos patentados como GPT-4O y O1-Mini, que mantienen sus conjuntos de datos y metodologías de capacitación cerradas, OpentHinker-7B y OpentHoughts-114k son completamente de código abierto. Esto significa:
- Pesos del modelo abierto: los pesos del modelo OpentHinker-7B son accesibles públicamente, lo que permite a los investigadores y desarrolladores ajustar y aprovechar el modelo.
- Datos abiertos: el conjunto de datos OpentHoughts-114k está disponible gratuitamente para que cualquiera lo use, modifique y se expanda.
- Código abierto: la generación de datos, la evaluación y el código de capacitación para OpentHinker-7b están alojados en GitHub, asegurando la transparencia completa y la reproducibilidad.
El proyecto de pensamientos abiertos se encuentra solo en sus primeras etapas, con planes para una mayor expansión. Algunas posibles direcciones futuras incluyen:
- Las iteraciones futuras de optimistas podrían incorporar millones de ejemplos de razonamiento, cubriendo un espectro más amplio de desafíos cognitivos.
- Openthinker-7b es un excelente punto de partida, pero los modelos más grandes ajustados en aún más datos podrían empujar aún más los límites de las capacidades de razonamiento.
- Alentar a más investigadores, ingenieros y entusiastas de la inteligencia artificial a contribuir a la creación de datos de datos, la capacitación de modelos y las metodologías de evaluación.
En conclusión, los pensamientos abiertos representan un esfuerzo transformador para democratizar el razonamiento de la IA. Al lanzar OpentHoughts-114K y OpentHinker-7b como recursos de código abierto, el proyecto faculta a la comunidad de IA con datos y modelos de alta calidad para avanzar en la investigación de razonamiento. Con la continua colaboración y la expansión, los pensamientos abiertos tienen el potencial de redefinir cómo la IA aborda las tareas lógicas, matemáticas y de razonamiento cognitivo.
Fuentes
Además, no olvides seguirnos Gorjeo y únete a nuestro Canal de telegrama y LinkedIn GRsalpicar. No olvides unirte a nuestro 70k+ ml de subreddit.
🚨 Conocer Intellagent: Un marco de múltiples agentes de código abierto para evaluar un sistema de IA conversacional complejo (Promocionado)
Sana Hassan, una pasante de consultoría en MarktechPost y estudiante de doble grado en IIT Madras, le apasiona aplicar tecnología e IA para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.