Mit Datacebo 01 Press.jpg

La IA generativa está recibiendo mucha atención por su capacidad para crear texto e imágenes. Pero esos medios representan sólo una fracción de los datos que proliferan en nuestra sociedad actual. Los datos se generan cada vez que un paciente pasa por un sistema médico, una tormenta impacta un vuelo o una persona interactúa con una aplicación de software.

El uso de IA generativa para crear datos sintéticos realistas en torno a esos escenarios puede ayudar a las organizaciones a tratar a los pacientes, desviar aviones o mejorar las plataformas de software de manera más efectiva, especialmente en escenarios donde los datos del mundo real son limitados o sensibles.

Durante los últimos tres años, DataCebo, empresa derivada del MIT, ha ofrecido un sistema de software generativo llamado Synthetic Data Vault para ayudar a las organizaciones a crear datos sintéticos para hacer cosas como probar aplicaciones de software y entrenar modelos de aprendizaje automático.

Synthetic Data Vault, o SDV, se ha descargado más de 1 millón de veces, y más de 10.000 científicos de datos han utilizado la biblioteca de código abierto para generar datos tabulares sintéticos. Los fundadores, el científico investigador principal Kalyan Veeramachaneni y la alumna Neha Patki ’15, SM ’16, creen que el éxito de la empresa se debe a la capacidad de SDV para revolucionar las pruebas de software.

SDV se vuelve viral

En 2016, el grupo de Veeramachaneni en el Data to AI Lab presentó un conjunto de herramientas de IA generativa de código abierto para ayudar a las organizaciones a crear datos sintéticos que coincidieran con las propiedades estadísticas de los datos reales.

Las empresas pueden utilizar datos sintéticos en lugar de información confidencial en los programas y al mismo tiempo preservar las relaciones estadísticas entre los puntos de datos. Las empresas también pueden utilizar datos sintéticos para ejecutar software nuevo mediante simulaciones para ver su rendimiento antes de lanzarlo al público.

El grupo de Veeramachaneni se encontró con el problema porque estaba trabajando con empresas que querían compartir sus datos para la investigación.

«El MIT te ayuda a ver todos estos casos de uso diferentes», explica Patki. «Se trabaja con empresas financieras y de atención médica, y todos esos proyectos son útiles para formular soluciones en todas las industrias».

En 2020, los investigadores fundaron DataCebo para crear más funciones SDV para organizaciones más grandes. Desde entonces, los casos de uso han sido tan impresionantes como variados.

Con el nuevo simulador de vuelo de DataCebo, por ejemplo, las aerolíneas pueden planificar eventos climáticos raros de una manera que sería imposible utilizando solo datos históricos. En otra aplicación, los usuarios de SDV sintetizaron registros médicos para predecir los resultados de salud de los pacientes con fibrosis quística. Un equipo de Noruega utilizó recientemente SDV para crear datos sintéticos de estudiantes para evaluar si varias políticas de admisión eran meritocráticas y estaban libres de sesgos.

En 2021, la plataforma de ciencia de datos Kaggle organizó una competencia para científicos de datos que utilizaron SDV para crear conjuntos de datos sintéticos para evitar el uso de datos propietarios. Participaron aproximadamente 30.000 científicos de datos, quienes crearon soluciones y predijeron resultados basados ​​en los datos realistas de la empresa.

Y a medida que DataCebo ha crecido, se ha mantenido fiel a sus raíces en el MIT: todos los empleados actuales de la empresa son ex alumnos del MIT.

Pruebas de software de sobrealimentación

Aunque sus herramientas de código abierto se utilizan para una variedad de casos de uso, la empresa se centra en aumentar su tracción en las pruebas de software.

«Se necesitan datos para probar estas aplicaciones de software», afirma Veeramachaneni. “Tradicionalmente, los desarrolladores escriben scripts manualmente para crear datos sintéticos. Con los modelos generativos, creados usando SDV, puede aprender de una muestra de datos recopilados y luego muestrear un gran volumen de datos sintéticos (que tienen las mismas propiedades que los datos reales), o crear escenarios específicos y casos extremos, y usar los datos para pruebe su aplicación”.

Por ejemplo, si un banco quisiera probar un programa diseñado para rechazar transferencias de cuentas sin dinero, tendría que simular muchas cuentas realizando transacciones simultáneamente. Hacer eso con datos creados manualmente llevaría mucho tiempo. Con los modelos generativos de DataCebo, los clientes pueden crear cualquier caso límite que quieran probar.

«Es común que las industrias tengan datos que son confidenciales en cierta medida», dice Patki. “A menudo, cuando estás en un dominio con datos confidenciales, estás lidiando con regulaciones y Incluso si no existen regulaciones legales, lo mejor para las empresas es ser diligentes sobre quién tiene acceso a qué y en qué momento. Por lo tanto, los datos sintéticos siempre son mejores desde una perspectiva de privacidad”.

Escalar datos sintéticos

Veeramachaneni cree que DataCebo está avanzando en el campo de lo que llama datos empresariales sintéticos, o datos generados a partir del comportamiento de los usuarios en las aplicaciones de software de las grandes empresas.

“Los datos empresariales de este tipo son complejos y no están disponibles universalmente, a diferencia de los datos lingüísticos”, afirma Veeramachaneni. “Cuando la gente usa nuestro software disponible públicamente e informa si funciona con un patrón determinado, aprendemos muchos de estos patrones únicos y eso nos permite mejorar nuestros algoritmos. Desde una perspectiva, estamos construyendo un corpus de estos patrones complejos, que está fácilmente disponible para el lenguaje y las imágenes. “

DataCebo también lanzó recientemente funciones para mejorar la utilidad de SDV, incluidas herramientas para evaluar el «realismo» de los datos generados, llamadas Biblioteca SDMetrics así como una forma de comparar el rendimiento de los modelos llamada SDGimnasio.

«Se trata de garantizar que las organizaciones confíen en estos nuevos datos», afirma Veeramachaneni. “[Our tools offer] datos sintéticos programables, lo que significa que permitimos a las empresas insertar su conocimiento e intuición específicos para construir modelos más transparentes”.

A medida que las empresas de todos los sectores se apresuran a adoptar la IA y otras herramientas de ciencia de datos, DataCebo, en última instancia, las está ayudando a hacerlo de una manera más transparente y responsable.

«En los próximos años, los datos sintéticos de los modelos generativos transformarán todo el trabajo con datos», afirma Veeramachaneni. «Creemos que el 90 por ciento de las operaciones empresariales se pueden realizar con datos sintéticos».