Navegando por los datos en los Datathons: ideas y directrices [NeurIPS’23] | de Carlos Mougán

Cuando se trata de maratones de datos, no cualquier dato sirve. Los datos deben ser “apropiados”, “suficientes” y sensibles a las cuestiones de privacidad. Los organizadores y participantes a menudo se enfrentan a preguntas como: ¿Qué hace que los datos sean adecuados para un maratón de datos? ¿Cuántos datos se consideran suficientes? ¿Cómo manejamos los datos confidenciales? Cada dimensión es crucial para garantizar que los datos utilizados en los datathons sean adecuados, éticos y propicios para lograr los objetivos del evento. Profundicemos en estos aspectos uno por uno.

La idoneidad de los datos tiene que ver con su relevancia y utilidad para abordar las preguntas desafiantes específicas del maratón de datos. Esta dimensión evalúa si los datos proporcionados se alinean con los objetivos del maratón de datos, asegurando que los participantes tengan el tipo correcto de datos con los que trabajar.

Insuficiente: Los datos no tienen una conexión aparente con los objetivos del maratón de datos, lo que hace imposible que los participantes los utilicen de manera efectiva. Por ejemplo, proporcionar datos meteorológicos para un desafío centrado en la previsión financiera está completamente fuera de lugar.
Desarrollando: Si bien los datos están algo relacionados con el desafío, carecen de elementos críticos o variables objetivo necesarias para un análisis integral o el desarrollo de una solución.
Funcional: Los datos son relevantes y se pueden aplicar directamente al desafío. Sin embargo, existen oportunidades para mejorar su valor mediante la inclusión de variables adicionales o metadatos más detallados que podrían proporcionar conocimientos más profundos.
Óptimo: Los datos proporcionados coinciden perfectamente con los requisitos del desafío, incluido un amplio conjunto de características, variables objetivo relevantes y metadatos completos. Este nivel representa un escenario ideal donde los participantes tienen acceso a toda la información necesaria para el análisis y el desarrollo de soluciones.

La preparación evalúa el estado de los datos con respecto a su preparación para el análisis inmediato. Implica factores como la limpieza, integridad, estructura y accesibilidad de los datos, que impactan significativamente la eficiencia del maratón de datos.

Insuficiente: Los datos no se recopilan o están tan mal organizados que se requiere un esfuerzo significativo para hacerlos utilizables. Este escenario plantea una grave limitación de lo que se puede lograr durante el período de tiempo del maratón de datos.
Desarrollando: Se han recopilado datos, pero pueden estar incompletos, tener un formato inconsistente o carecer de documentación, lo que requiere un trabajo preliminar antes de poder comenzar un análisis significativo.
Funcional: Si bien los datos requieren cierta limpieza o preprocesamiento, en gran medida se encuentran en un estado que permite el análisis. Es posible que se necesiten esfuerzos menores para consolidar las fuentes de datos o formatear los datos correctamente.
Óptimo: Los datos están listos para el análisis y están bien documentados, limpios y estructurados. Los participantes pueden centrarse en aplicar técnicas de ciencia de datos en lugar de tareas de preparación de datos.

La confiabilidad se refiere a la precisión y el sesgo de los datos. Cuestiona hasta qué punto los datos pueden considerarse una representación veraz del fenómeno o de la población que se supone que representan.

Insuficiente: Los datos están muy sesgados o contienen errores importantes que podrían llevar a conclusiones engañosas. Estos datos podrían tergiversar ciertos grupos o fenómenos, distorsionando los resultados del análisis.
Desarrollando: La confiabilidad de los datos es incierta debido a fuentes desconocidas de sesgo o posibles errores en la recopilación y el registro de datos. Esta situación exige cautela en la interpretación y puede limitar la confianza en los resultados.
Funcional: Existen sesgos o problemas conocidos, pero pueden abordarse mediante un análisis cuidadoso o reconocerse como limitaciones del estudio. Este nivel de confiabilidad requiere transparencia sobre las limitaciones de los datos.
Óptimo: Los datos se consideran muy fiables y no se conocen sesgos ni errores significativos. Representa con precisión los fenómenos objetivo, lo que permite un análisis fiable y sólido.

La sensibilidad se refiere a la privacidad, confidencialidad y consideraciones éticas de los datos. Evalúa el nivel de riesgo asociado con el uso y el intercambio de datos, particularmente en lo que respecta a información personal o de propiedad exclusiva.

Insuficiente (Nivel 4): Los datos son muy sensibles y plantean importantes riesgos legales, éticos o personales. Por lo general, estos datos no son adecuados para los maratones de datos debido al alto potencial de uso indebido o daño.
En desarrollo (Nivel 3): Si bien no son tan sensibles, los datos aún requieren medidas estrictas para proteger la privacidad y la confidencialidad, lo que posiblemente limite su usabilidad en un entorno de colaboración libre como un maratón de datos.
Funcional (Nivel 2): La confidencialidad de los datos se gestiona mediante la desidentificación u otras salvaguardas, pero la atención a la protección de los datos sigue siendo importante. Los participantes deben tener en cuenta las consideraciones de privacidad durante su análisis.
Óptimo (Nivel 0/1): Los datos presentan riesgos de sensibilidad mínimos, lo que permite compartirlos y analizarlos de manera más sencilla. Este nivel es ideal para fomentar la colaboración abierta sin comprometer la privacidad ni los estándares éticos.

La suficiencia evalúa si la cantidad y el tipo de datos proporcionados son adecuados para abordar las preguntas desafiantes de manera efectiva. Considera el volumen, la variedad y la granularidad de los datos en relación con los objetivos del datathon.

Insuficiente: El volumen o la diversidad de datos es demasiado limitado para permitir un análisis significativo o sacar conclusiones confiables. Esta insuficiencia puede obstaculizar gravemente el éxito del datathon.
Desarrollando: Aunque hay algunos datos disponibles, su cantidad o calidad pueden no ser suficientes para explorar plenamente las preguntas del desafío o construir modelos sólidos. A los participantes puede resultarles difícil lograr conocimientos significativos.
Funcional: Los datos proporcionados son adecuados para abordar las preguntas desafiantes de manera significativa. Si bien no es exhaustivo, permite a los participantes obtener conocimientos útiles y proponer soluciones viables.
Óptimo: Los datos son abundantes y variados, superando los requisitos básicos para el datathon. Este nivel proporciona un rico terreno de juego para que los participantes exploren soluciones innovadoras y realicen análisis exhaustivos.

Los Grupos de Estudio de Datos (DSG) son una premiado Evento colaborativo de datathon organizado por el Instituto Alan Turing, el instituto nacional de ciencia de datos e inteligencia artificial del Reino Unido. Los ADSG consisten en maratones de datos en los que un solo equipo trabaja de forma colaborativa (en lugar de que varios equipos compitan entre sí). El objetivo de los DSG es brindar oportunidades para que las organizaciones y los participantes del mundo académico y la industria trabajen juntos para resolver desafíos del mundo real utilizando ciencia de datos y metodologías de aprendizaje automático. Los DSG son administrados y preparados por un equipo interno especializado de organizadores de eventos y personal de apoyo académico interdisciplinario. Más información [here]

Un datathon exitoso es el resultado de la preparación, la flexibilidad y el esfuerzo colectivo de los organizadores, los propietarios del desafío y los participantes. Resumimos las siguientes recomendaciones.

Antes del evento: colaborar y alinear

Las bases para un datathon exitoso se sientan mucho antes del evento. El compromiso temprano con los propietarios del desafío (socios comerciales) es crucial. Su experiencia en el campo y su comprensión de los datos pueden moldear significativamente la dirección y los resultados del evento. Su comprensión del problema y su experiencia en el dominio pueden mejorar enormemente los datos, y la colaboración temprana ayuda a alinear los objetivos y expectativas de ambas partes, aumentando la probabilidad de un evento fructífero.

A medida que se acerca el maratón de datos, es beneficioso realizar comprobaciones de idoneidad sobre la preparación de los datos y considerar cambiar las preguntas de desafío en función de los aportes de un investigador experimentado que sea capaz de alinear los requisitos de la industria y los requisitos de la investigación teniendo en cuenta la perspectiva de los participantes.

Durante el Datathon: adáptese y participe

El evento en vivo es donde la planificación se encuentra con la realidad. Los IP desempeñan un papel crucial a la hora de guiar a los participantes a través de los desafíos de los datos y garantizar que se cumplan los objetivos. Además, los comentarios de los participantes son una mina de oro. Sus nuevos ojos sobre los datos pueden descubrir nuevos conocimientos o identificar áreas de mejora, lo que hace que el maratón de datos sea un entorno dinámico donde los ajustes no sólo son posibles sino también alentados.

¿Interesado en casos de uso reales? En el documento de actas, asignamos 10 casos de uso a nuestro marco.

Cefas: Centro de Ciencias del Medio Ambiente, la Pesca y la Acuicultura
Centro de investigación de fabricación avanzada de la Universidad de Sheffield: supervisión inteligente del proceso de mecanizado basada en sensores múltiples
CityMaaS: hacer que los viajes para las personas en las ciudades sean accesibles mediante la predicción y la personalización
WWF: Monitoreo Inteligente para Áreas de Conservación
Estudio Antártico Británico: focas desde el espacio
DWP: Departamento de Trabajo y Pensiones
Dementia Research Institute y DEMON Network: predicción de la relación funcional entre la secuencia de ADN y el estado epigenético
Automatización de la evaluación de la perfusión de la microcirculación sublingual en enfermedades críticas
Entale: sistemas de recomendación para el descubrimiento de podcasts
Odin Vision: exploración de la toma de decisiones respaldada por IA para el diagnóstico temprano del cáncer colorrectal

Los informes completos, junto con los resultados de otros grupos de estudio de datos, se pueden encontrar en [Reports Section]

Clasificación de evaluación de datos de recuento de informes de los últimos 10 informes DSG

En este documento, hemos analizado datos en el contexto de los datathons en cinco dimensiones clave: idoneidad, preparación, confiabilidad, sensibilidad y suficiencia, extraídas de la organización de más de 80 datathons desde 2016. Al hacerlo, esperamos mejorar el manejo de los datos para organizaciones antes de los eventos del datathon.

Nuestro análisis cualitativo propuesto proporciona un grado de estado de los datos a través de varias perspectivas; Estos títulos se pueden adaptar o ampliar, de forma similar a los niveles de preparación tecnológica proporcionados por la NASA, que se han ampliado con el tiempo y el trabajo posterior.

Cita Bibtex:

@inproceedings{
mougan2023how,
title={How to Data in Datathons},
author={Carlos Mougan and Richard Plant and Clare Teng and Marya Bazzi and Alvaro Cabrejas-Egea and Ryan Sze-Yin Chan and David Salvador Jasin and martin stoffel and Kirstie Jane Whitaker and JULES MANSER},
booktitle={Thirty-seventh Conference on Neural Information Processing Systems Datasets and Benchmarks Track},
year={2023},
url={https://openreview.net/forum?id=bjvRVA2ihO}
}

Mougan, C., Plant, R., Teng, C., Bazzi, M., Cabrejas-Egea, A., Chan, RS-Y., Jasin, DS, Stoffel, M., Whitaker, KJ y Manser, J. (2023). Cómo obtener datos en datathons. En Trigésima séptima conferencia sobre conjuntos de datos y puntos de referencia de sistemas de procesamiento de información neuronal.

Navegando por los datos en los Datathons: ideas y directrices [NeurIPS’23] | de Carlos Mougán | febrero de 2024

ByEquipo de 7 minutos

Antes del evento: colaborar y alinear

Durante el Datathon: adáptese y participe

By Equipo de 7 minutos

Related Post

Google lanza Gemini-SQL2: Gemini 3.1 Pro Text-to-SQL obtiene una puntuación del 80,04 % en la tabla de clasificación de modelo único de BIRD

Zyphra lanza Zamba2-VL: modelos híbridos de lenguaje de visión Mamba2-Transformer que reducen el tiempo hasta el primer token en aproximadamente un orden de magnitud

Construido de adentro hacia afuera: cómo los servicios profesionales de AWS se convirtieron por primera vez en un equipo de vanguardia

You missed

Arkeon de Gotemburgo cierra una ronda semilla de 594,2 mil euros para impulsar la precisión en la producción de chips cuánticos

Ryan Reynolds, Michael Bublé y más asisten al juego de Canadá

Google lanza Gemini-SQL2: Gemini 3.1 Pro Text-to-SQL obtiene una puntuación del 80,04 % en la tabla de clasificación de modelo único de BIRD

Las bicicletas eléctricas están relacionadas con un nuevo e inquietante fenómeno de lesiones, advierten los expertos: ScienceAlert