Con la llegada de la IA, su uso se está sintiendo en todas las esferas de nuestras vidas. La IA está encontrando su aplicación en todos los ámbitos de la vida. Pero la IA necesita datos para el entrenamiento. La eficacia de la IA depende en gran medida de la disponibilidad de datos con fines de formación.
Convencionalmente, lograr precisión en el entrenamiento de modelos de IA se ha relacionado con la disponibilidad de cantidades sustanciales de datos. Abordar este desafío en este campo implica navegar por un amplio espacio de búsqueda potencial. Por ejemplo, The Open Catalyst Project utiliza más de 200 millones de puntos de datos relacionados con posibles materiales catalizadores.
Los recursos informáticos necesarios para el análisis y el desarrollo de modelos en dichos conjuntos de datos son un gran problema. Los conjuntos de datos de Open Catalyst utilizaron 16.000 días de GPU para analizar y desarrollar modelos. Estos presupuestos de formación sólo están disponibles para algunos investigadores, lo que a menudo limita el desarrollo de modelos a conjuntos de datos más pequeños o a una parte de los datos disponibles. En consecuencia, el desarrollo de modelos suele limitarse a conjuntos de datos más pequeños o a una fracción de los datos disponibles.
Un estudio realizado por investigadores de ingeniería de la Universidad de Toronto, publicado en comunicaciones de la naturaleza, sugiere que la creencia de que los modelos de aprendizaje profundo requieren una gran cantidad de datos de entrenamiento puede no ser siempre cierta.
Los investigadores dijeron que necesitamos encontrar una manera de identificar conjuntos de datos más pequeños que puedan usarse para entrenar modelos. El Dr. Kangming Li, investigador postdoctoral de Hattrick-Simpers, utilizó un ejemplo de un modelo que pronostica las puntuaciones finales de los estudiantes y enfatizó que funciona mejor en el conjunto de datos de estudiantes canadienses en el que se entrena, pero es posible que no pueda predecir calificaciones para estudiantes de otros países.
Una posible solución es encontrar subconjuntos de datos dentro de conjuntos de datos increíblemente grandes para abordar los problemas planteados. Estos subconjuntos deben contener toda la diversidad y la información del conjunto de datos original pero ser más fáciles de manejar durante el procesamiento.
Li desarrolló métodos para localizar subconjuntos de información de alta calidad a partir de conjuntos de datos de materiales que ya se han hecho públicos, como JARVIS, The Materials Project y Open Quantum Materials. El objetivo era obtener más información sobre cómo las propiedades de los conjuntos de datos afectan a los modelos que entrenan.
Para crear su programa de computadora, utilizó el conjunto de datos original y un subconjunto mucho más pequeño con un 95% menos de puntos de datos. El modelo entrenado en el 5 % de los datos tuvo un rendimiento comparable al modelo entrenado en todo el conjunto de datos al predecir las propiedades de los materiales dentro del dominio del conjunto de datos. De acuerdo con esto, el entrenamiento con aprendizaje automático puede excluir de manera segura hasta el 95% de los datos con poco o ningún efecto en la precisión de las predicciones en distribución. El material sobrerrepresentado es el tema principal de los datos redundantes.
Según Li, las conclusiones del estudio proporcionan una manera de evaluar cuán redundante es un conjunto de datos. Si agregar más datos no mejora el rendimiento del modelo, es redundante y no proporciona a los modelos ninguna información nueva para aprender.
El estudio respalda un creciente conjunto de conocimientos entre expertos en IA en múltiples dominios: los modelos entrenados en conjuntos de datos relativamente pequeños pueden funcionar bien, siempre que la calidad de los datos sea alta.
En conclusión, se destaca más la importancia de la riqueza de la información que el volumen de datos por sí solo. Se debe priorizar la calidad de la información sobre la recopilación de enormes volúmenes de datos.
Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 33k+ ML, 41k+ comunidad de Facebook, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.
Si te gusta nuestro trabajo, te encantará nuestra newsletter.
Rachit Ranjan es pasante de consultoría en MarktechPost. Actualmente está cursando su B.Tech en el Instituto Indio de Tecnología (IIT) de Patna. Está dando forma activamente a su carrera en el campo de la inteligencia artificial y la ciencia de datos y le apasiona y se dedica a explorar estos campos.