Una amplia variedad de áreas han demostrado un rendimiento excelente para los modelos de lenguajes grandes (LLM), que son herramientas flexibles para la generación de lenguajes. El potencial de estos modelos en la educación médica, la investigación y la práctica clínica no sólo es inmenso, sino transformador, y ofrece un futuro prometedor donde el lenguaje natural sirve como interfaz. Mejorados con datos específicos de la atención médica, los LLM se destacan en la respuesta a preguntas médicas, el análisis detallado de EHR, el diagnóstico diferencial de imágenes médicas, la evaluación estandarizada del funcionamiento mental y la realización de intervenciones psicológicas. Su éxito en estas pruebas es un testimonio de su capacidad para extraer señales valiosas de «datos clínicos» recopilados en un centro médico, lo que infunde esperanza para su uso generalizado en la atención sanitaria.
Las tecnologías portátiles pueden monitorear aspectos importantes de la salud y el bienestar humanos que las visitas clínicas tradicionales pasan por alto, como el sueño, la actividad física, el estrés y la salud cardiometabólica, según se evalúan mediante reacciones y comportamiento fisiológicos. La adquisición pasiva y continua de estos datos longitudinales constantes, que ofrecen señales directas de fisiología y comportamiento, es un beneficio importante para el seguimiento de la salud. A pesar de que las estadísticas sobre resultados de salud adversos, morbilidad y años de vida con discapacidad proporcionan evidencia de la influencia significativa de estos factores en la salud general, no se han integrado completamente en la práctica clínica ni se han incluido en conjuntos de datos estándar utilizados para responder preguntas médicas. Las razones de la baja aceptación incluyen que dichos datos a menudo se recopilan en el vacío, su retención y análisis son costosos desde el punto de vista computacional y solo a veces son fáciles de entender. Por lo tanto, es posible que incluso los LLM con orientación médica o los LLM de base general no puedan utilizar estos datos al razonar y sugerir terapias basadas en comportamientos de salud individualizados.
Un nuevo estudio de Google presenta un LLM adaptado a Gemini (PH-LLM) para llevar a cabo una serie de actividades que son pertinentes para el establecimiento y logro de objetivos de salud individuales específicos. Los investigadores descubrieron que PH-LLM puede tomar datos objetivos adquiridos pasivamente de los dispositivos portátiles y convertirlos en conocimientos específicos, posibles razones de los comportamientos observados y sugerencias para mejorar el ejercicio y la higiene del sueño. Tras el refinamiento del excepcional Gemini Ultra 1.0, que ya muestra un rendimiento agregado comparable al de los especialistas en fitness, PH-LLM mostró una marcada mejora en la utilización del conocimiento del dominio y la personalización de los datos pertinentes del usuario para obtener información sobre el sueño.
El estudio demuestra que PH-LLM puede responder correctamente preguntas técnicas de opción múltiple en los ámbitos del sueño y el estado físico, lo que se alinea con su sólido desempeño en esos estudios de casos de larga duración.
PH-LLM puede emplear un codificador multimodal para pronosticar resultados subjetivos del sueño, y los modelos especializados pueden utilizar datos de comportamiento de salud de series temporales de alta resolución como tokens de entrada. Los casos de uso clave para aplicaciones de LLM a funciones de salud personal en dispositivos portátiles incluyen estudios de casos abiertos y extensos, que son difíciles de evaluar con un método automatizado. Aquí, el equipo utilizó 857 estudios de casos recopilados de un grupo de participantes dispuestos a evaluar la preparación física para un entrenamiento y la calidad del sueño y combinó los estudios de casos con criterios de evaluación estrictos. Todos los expertos humanos, Gemini Ultra 1.0 y PH-LLM lograron un rendimiento promedio muy alto en todas las respuestas de los estudios de casos, lo que demuestra las sólidas habilidades de razonamiento y conocimiento de la familia de modelos Gemini. Como resultado de una mejor contextualización de los aspectos clave del sueño para estas tareas, PH-LLM puede aprovechar el conocimiento relevante del usuario y del dominio y mejorar su predicción de la comprensión del sueño y las partes de la etiología de los estudios de casos.
Para optimizar los modelos, también crearon herramientas para la revisión automatizada de estudios de casos y demostraron que pueden actuar como medidas proxy escalables para los expertos humanos que evalúan el desempeño del LLM. Los principales modelos de AutoEval lograron medidas de concordancia con evaluadores expertos que eran comparables a las métricas de concordancia entre evaluadores, y estos modelos priorizaron las fuentes de respuesta del estudio de una manera consistente con los expertos humanos. Encontraron una mejora sustancial en la velocidad de calificación en relación con los humanos al paralelizar la evaluación automática entre réplicas de modelos.
Para descifrar la experiencia subjetiva de un usuario, los investigadores incorporan de forma eficaz funciones de sensores de series temporales longitudinales. Los resultados demuestran que el rendimiento apropiado del modelo requiere la integración de datos multimodales nativos mediante la evaluación de la capacidad de PH-LLM para pronosticar PRO de alteraciones y deterioro del sueño (obtenidos a partir de instrumentos de encuesta validados) a partir de lecturas de sensores pasivos.
Se aplican varias restricciones a este trabajo. Para empezar, hubo un sesgo significativo en las evaluaciones de las rúbricas de los estudios de caso, lo que dificultó distinguir entre diferentes modelos y opiniones diversas de los expertos. La capacitación adicional de evaluadores expertos para mejorar la confiabilidad entre evaluadores o juzgar las respuestas actuales podría mejorar la intensidad de la señal del desempeño del modelo, aunque ciertas partes de los estudios de caso y los principios de las rúbricas de evaluación demostraron una divergencia sustancial. En tercer lugar, todavía hubo casos de confusión o referencias inexactas de los datos de los usuarios, incluso si hubo avances en la referencia e integración de los datos de los usuarios en las ideas. Para que estas tecnologías se integren de forma segura y eficaz en los aspectos con los que interactúan los usuarios, es esencial abordar y prevenir estos problemas.
Aunque existen ciertos límites, el estudio muestra que los modelos Gemini tienen mucho conocimiento sobre la salud y que el rendimiento del Gemini Ultra 1.0 puede mejorar muchos resultados de salud personales al ajustarlo. Los hallazgos del estudio allanaron el camino para que los LLM ayuden a las personas a alcanzar sus objetivos de salud brindándoles información y sugerencias personalizadas. Para mejorar el poder predictivo, los investigadores esperan que los estudios futuros tengan grandes conjuntos de datos que contengan datos de resultados emparejados para que sea posible aprender interacciones no lineales entre características.
Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo.
Únete a nuestro Canal de telegramas y LinkedIn Grarriba.
Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..
No olvides unirte a nuestro SubReddit de 44k+ ML
Dhanshree Shenwai es ingeniero en informática y tiene una buena experiencia en empresas de tecnología financiera que cubren el ámbito financiero, tarjetas y pagos y banca con un gran interés en las aplicaciones de IA. Le entusiasma explorar nuevas tecnologías y avances en el mundo en evolución de hoy que facilita la vida de todos.