¿Y si el próximo gran avance médico estuviera oculto en un texto sin formato? Conozca NATURAL: un proceso para la estimación causal a partir de datos de texto no estructurados en horas, no en años

La estimación del efecto causal es fundamental para comprender el impacto de las intervenciones en diversos ámbitos, como la atención sanitaria, las ciencias sociales y la economía. Esta área de investigación se centra en determinar cómo los cambios en una variable provocan cambios en otra, lo que es esencial para tomar decisiones informadas. Los métodos tradicionales suelen implicar una amplia recopilación de datos y experimentos estructurados, que pueden llevar mucho tiempo y ser costosos.

La necesidad de contar con datos estructurados y de una curación manual de los mismos dificulta los enfoques actuales para la estimación de efectos causales. Este requisito aumenta el costo y el tiempo de los estudios y limita el alcance de los datos que se pueden analizar. Los datos no estructurados, como los textos en lenguaje natural de las redes sociales o los foros, representan una fuente de información rica pero subutilizada para el análisis causal.

Los métodos tradicionales para estimar los efectos causales incluyen los ensayos controlados aleatorizados (ECA) y los estudios observacionales. Los ECA se consideran el estándar de oro, pero suelen ser costosos y poco prácticos para muchas intervenciones. Los estudios observacionales utilizan datos existentes, pero requieren que estén estructurados y libres de variables de confusión. Las técnicas comunes incluyen la ponderación inversa de la puntuación de propensión y la imputación de resultados, que ajusta los sesgos en los datos.

Investigadores de la Universidad de Toronto, el Instituto Vector y Meta AI presentaron NATURAL, una nueva familia de estimadores de efectos causales que aprovechan los modelos de lenguaje de gran tamaño (LLM) para analizar datos de texto no estructurados. Este método permite extraer información causal de diversas fuentes, como publicaciones en redes sociales, informes clínicos y foros de pacientes. Al automatizar la curación de datos y aprovechar las capacidades de los LLM, NATURAL proporciona una solución escalable para diversas aplicaciones.

NATURAL utiliza LLM para procesar texto en lenguaje natural y estimar las distribuciones condicionales de las variables de interés. El proceso implica filtrar informes relevantes, extraer covariables y tratamientos, y utilizarlos para calcular los efectos promedio del tratamiento (ATE). El método imita las técnicas tradicionales de inferencia causal, pero opera con datos no estructurados, lo que lo convierte en una solución versátil y escalable. El proceso implica varios pasos:

Filtrado inicial para eliminar informes irrelevantes.
Extracción de información sobre el tratamiento y los resultados.
Asegurarse de que los informes cumplan criterios de inclusión específicos.

Esto da como resultado un conjunto de datos que puede estimar los efectos causales con precisión.

Los estimadores NATURAL propuestos demostraron una precisión notable, con valores estimados de ATE que se situaron dentro de tres puntos porcentuales de los valores reales de los experimentos aleatorios. Específicamente, el método se probó en seis conjuntos de datos, incluidos conjuntos de datos sintéticos y datos de ensayos clínicos del mundo real. Para el conjunto de datos de semaglutida frente a tirzepatida, NATURAL predijo con precisión los resultados de pérdida de peso con un error absoluto medio del 2,5 %. El enfoque también demostró un rendimiento sólido en la predicción de resultados para tratamientos de diabetes y migraña, logrando una alta coherencia con los resultados de los ensayos clínicos. El costo del análisis computacional fue significativamente menor, solo unos pocos cientos de dólares, en comparación con los métodos tradicionales.

La capacidad de NATURAL para estimar con precisión los efectos causales a partir de datos no estructurados sugiere un potencial transformador para los campos que dependen en gran medida del análisis causal. Al aprovechar los datos de texto disponibles de forma gratuita, este método puede reducir significativamente el tiempo y el costo asociados con las técnicas tradicionales de estimación de efectos causales. El enfoque es particularmente valioso para aplicaciones en las que los ensayos aleatorios son inviables o demasiado costosos.

En conclusión, el marco NATURAL presenta un enfoque innovador para la estimación de efectos causales utilizando datos de lenguaje natural no estructurados. Al automatizar la curación de datos y aprovechar los LLM, los investigadores proporcionaron una solución escalable que podría revolucionar los campos que dependen del análisis causal. Este método aborda las limitaciones actuales y abre nuevas vías para utilizar fuentes de datos ricas y no estructuradas.

Revisar la Papel y GitHubTodo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Más de 47 000 suscriptores de ML en Reddit

Encuentra lo próximo Seminarios web sobre IA aquí

Nikhil es consultor en prácticas en Marktechpost. Está cursando una doble titulación integrada en Materiales en el Instituto Indio de Tecnología de Kharagpur. Nikhil es un entusiasta de la IA y el aprendizaje automático que siempre está investigando aplicaciones en campos como los biomateriales y la ciencia biomédica. Con una sólida formación en ciencia de los materiales, está explorando nuevos avances y creando oportunidades para contribuir.

🐝 Únase al boletín de investigación de IA de más rápido crecimiento leído por investigadores de Google + NVIDIA + Meta + Stanford + MIT + Microsoft y muchos otros…

¿Y si el próximo gran avance médico estuviera oculto en un texto sin formato? Conozca NATURAL: un proceso para la estimación causal a partir de datos de texto no estructurados en horas, no en años

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Mistral Vibe para Code vs Claude Code vs Cursor vs Codex: cuatro agentes puntuados en una tarea de andamio a relaciones públicas

Google lanza LiteRT.js: un enlace JavaScript de LiteRT que ejecuta modelos .tflite en navegadores a través de WebGPU

PrismML lanza Bonsai 27B: compilaciones ternarias y de 1 bit de Qwen3.6-27B que se ejecutan en computadoras portátiles y teléfonos

You missed

Raro leopardo de Amur nace en el zoológico de Cleveland, menos de 100 permanecen en estado salvaje

Una nueva era de rendición de cuentas

El embajador británico visita a las víctimas del incendio en Almería ⋆ Madrid Metropolitan

‘¡Te encontré!’ Los astrónomos detectan el exoplaneta más débil jamás visto desde la Tierra después de una década de escondite