Conozca MathPile: un corpus diverso y de alta calidad centrado en las matemáticas que comprende alrededor de 9,5 mil millones de tokens

Los modelos conversacionales avanzados como ChatGPT y Claude están provocando cambios significativos en diversos productos y en la vida cotidiana. El factor clave que contribuye a su éxito radica en la solidez del modelo lingüístico fundamental. Los modelos fundamentales de vanguardia generalmente se entrenan previamente utilizando conjuntos de datos extensos, diversos y de alta calidad que abarcan diversas fuentes como Wikipedia, artículos científicos, foros comunitarios, repositorios de Github, páginas web y más. Se espera que estos modelos de lenguaje fundamentales posean capacidades completas, incluida la comprensión del lenguaje, el razonamiento de sentido común, el razonamiento matemático, la generación de lenguaje y más.

Un nuevo estudio realizado por la Universidad Jiao Tong de Shanghai, el Laboratorio de Inteligencia Artificial de Shanghai, la Universidad de Ciencia y Tecnología de Nanjing y el Laboratorio de Investigación de IA Generativa (GAIR) se centra en mejorar las capacidades de razonamiento matemático dentro de los modelos de lenguaje fundamentales, lo que potencialmente podría mejorar las aplicaciones en herramientas educativas. resolución automatizada de problemas, análisis de datos, programación de códigos y, en última instancia, mejorar la experiencia del usuario. En lugar de construir directamente un modelo, el objetivo es crear un conjunto de datos de preentrenamiento diverso y de alta calidad diseñado específicamente para el dominio de las matemáticas, MATHPILE.

Este enfoque se destaca del trabajo anterior en varios aspectos. Los conjuntos de datos de preentrenamiento de código abierto anteriores generalmente se han centrado en dominios generales (p. ej., Pile, RedPajama, Dolma), aspectos multilingües o lenguajes de programación (p. ej., ROOTS y The Stack), y carecían de un corpus específicamente diseñado para matemáticas. Aunque algunos conjuntos de datos están diseñados para entrenar modelos de lenguaje específicos de matemáticas (por ejemplo, el conjunto de datos de entrenamiento matemático de Minerva y MathMix de OpenAI), estos no están disponibles abiertamente.

Reconociendo esta brecha, este trabajo tiene como objetivo cerrar esta brecha mediante el desarrollo de un corpus matemático de código abierto, democratizando el acceso a datos matemáticos de alta calidad. Esta iniciativa permite a investigadores y desarrolladores avanzar de manera efectiva e inclusiva en las capacidades de los modelos de lenguaje en el razonamiento matemático. En cuanto a la diversidad, el corpus va más allá de las páginas web, integrando libros de texto de matemáticas de primer nivel, apuntes de conferencias, artículos científicos de arXiv y contenido cuidadosamente seleccionado de plataformas autorizadas como StackExchange, ProofWiki y Wikipedia. Esto posiciona al corpus como un recurso matemático más rico y variado para modelos de lenguaje.

Los investigadores enfatizan la alta calidad debido a estudios recientes que destacan los efectos adversos del contenido repetitivo y de baja calidad en conjuntos de datos previos al entrenamiento en el entrenamiento de modelos. Por ejemplo, la creación de un modelo centrado en código de 1.300 millones de parámetros se logró mediante una capacitación previa en páginas web cuidadosamente seleccionadas y libros de texto sintéticos. Se subraya que la calidad del corpus es más crucial que su cantidad. Para lograr esto, los investigadores llevaron a cabo extensos esfuerzos de preprocesamiento, limpieza, filtrado y deduplicación, comprometidos con el refinamiento y la optimización continuos para contribuir de manera distintiva a las matemáticas.

El equipo destaca que la transparencia y la documentación son aspectos clave. Documentar minuciosamente conjuntos de datos previos al entrenamiento a gran escala es crucial para identificar sesgos o contenido problemático. MATHPILE proporciona documentación completa, que incluye características, usos previstos y esfuerzos para eliminar sesgos o contenido no deseado para mejorar la confianza y la usabilidad entre los profesionales.

Esta iniciativa tiene como objetivo fomentar el crecimiento de la IA en matemáticas ofreciendo un corpus especializado, diverso y de alta calidad adaptado al dominio matemático, manteniendo al mismo tiempo una transparencia absoluta en los datos para los profesionales. El equipo espera que su trabajo ayude a sentar las bases para entrenar modelos de resolución de problemas matemáticos más potentes en el futuro.

Revisar la Papel, Proyectoy GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de más de 35.000 ml, 41k+ comunidad de Facebook, Canal de discordia, LinkedIn Grarribay Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.

Dhanshree

" data-medium-file="https://www.marktechpost.com/wp-content/uploads/2022/11/20221028_101632-Dhanshree-Shenwai-169x300.jpg" data-large-file="https://www.marktechpost.com/wp-content/uploads/2022/11/20221028_101632-Dhanshree-Shenwai-576x1024.jpg"/>

Dhanshree Shenwai es ingeniero en informática y tiene una buena experiencia en empresas de tecnología financiera que cubren el ámbito financiero, tarjetas y pagos y banca con un gran interés en las aplicaciones de IA. Le entusiasma explorar nuevas tecnologías y avances en el mundo en evolución de hoy que facilita la vida de todos.

🎯 Conozca AImReply: su nueva extensión de escritura de correo electrónico con IA… ¡Pruébela gratis ahora!.

Conozca MathPile: un corpus diverso y de alta calidad centrado en las matemáticas que comprende alrededor de 9,5 mil millones de tokens

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

CUP (Python útil común): creación de flujos de trabajo de Python confiables con el kit de herramientas de utilidad de Baidu

Cómo maximizar el comando ejecutivo del Codex

Lanzamiento seguro de modelos Frontier a los clientes

You missed

El resort de Mallorca lucha contra la pérdida de identidad y sufre decadencia

La ciudad de Nueva York podría experimentar el clima más caluroso en más de una década

La actuación sorpresa de Robbie Williams en Sevilla « Euro Weekly News

Manoj Bajpayee dice que ve la misma chispa en Abhay Verma que vio en Hrithik Roshan