Los LLM han avanzado significativamente, mostrando sus capacidades en varios dominios. La inteligencia, un concepto multifacético, involucra múltiples habilidades cognitivas, y los LLM han acercado a la IA a lograr la inteligencia general. Los desarrollos recientes, como el modelo o1 de OpenAI, integran técnicas de razonamiento como la incitación en cadena de pensamiento (CoT) para mejorar la resolución de problemas. Si bien o1 funciona bien en tareas generales, su efectividad en áreas especializadas como la medicina sigue siendo incierta. Los puntos de referencia actuales para los LLM médicos a menudo se centran en aspectos limitados, como el conocimiento, el razonamiento o la seguridad, lo que complica una evaluación integral de estos modelos en tareas médicas complejas.
Investigadores de la Universidad de California en Santa Cruz, la Universidad de Edimburgo y los Institutos Nacionales de Salud evaluaron el modelo o1 de OpenAI, el primer LLM que utiliza técnicas de CoT con aprendizaje de refuerzo. Este estudio exploró el desempeño de o1 en tareas médicas, evaluando la comprensión, el razonamiento y el multilingüismo en 37 conjuntos de datos médicos, incluidos dos nuevos puntos de referencia de control de calidad. El modelo o1 superó al GPT-4 en precisión en un 6,2 %, pero aún exhibió problemas como alucinaciones y capacidad multilingüe inconsistente. El estudio enfatiza la necesidad de métricas de evaluación consistentes y plantillas de instrucción mejoradas.
Los LLM han demostrado un progreso notable en las tareas de comprensión del lenguaje a través de la predicción del siguiente token y el ajuste fino de las instrucciones. Sin embargo, a menudo tienen dificultades con tareas complejas de razonamiento lógico. Para superar esto, los investigadores introdujeron la incitación de CoT, modelos guía para emular los procesos de razonamiento humano. El modelo o1 de OpenAI, entrenado con amplios datos de CoT y aprendizaje de refuerzo, tiene como objetivo mejorar las capacidades de razonamiento. Los LLM como GPT-4 han demostrado un sólido rendimiento en el ámbito médico, pero el ajuste fino específico del dominio es necesario para aplicaciones clínicas confiables. El estudio investiga el potencial de o1 para el uso clínico, mostrando mejoras en la comprensión, el razonamiento y las capacidades multilingües.
El proceso de evaluación se centra en tres aspectos clave de las capacidades del modelo: comprensión, razonamiento y multilingüismo, en consonancia con las necesidades clínicas. Estos aspectos se prueban en 37 conjuntos de datos que abarcan tareas como el reconocimiento de conceptos, la síntesis, la respuesta a preguntas y la toma de decisiones clínicas. Tres estrategias de estímulo (el estímulo directo, la cadena de pensamiento y el aprendizaje de pocos intentos) guían los modelos. Métricas como la precisión, la puntuación F1, BLEU, ROUGE, AlignScore y Mauve evalúan el rendimiento del modelo comparando las respuestas generadas con los datos de la verdad fundamental. Estas métricas miden la precisión, la similitud de las respuestas, la coherencia fáctica y la alineación con el texto escrito por humanos, lo que garantiza una evaluación integral.
Los experimentos comparan o1 con modelos como GPT-3.5, GPT-4, MEDITRON-70B y Llama3-8B en conjuntos de datos médicos. o1 se destaca en tareas clínicas como reconocimiento de conceptos, resumen y cálculos médicos, superando a GPT-4 y GPT-3.5. Logra mejoras notables en la precisión en puntos de referencia como NEJMQA y LancetQA, superando a GPT-4 en un 8,9% y un 27,1%, respectivamente. o1 también ofrece puntuaciones más altas de F1 y precisión en tareas como BC4Chem, lo que destaca su conocimiento médico superior y sus capacidades de razonamiento y lo posiciona como una herramienta prometedora para aplicaciones clínicas del mundo real.
El modelo o1 demuestra un progreso significativo en la PNL general y en el campo médico, pero tiene ciertos inconvenientes. Su mayor tiempo de decodificación (más del doble que el GPT-4 y nueve veces el GPT-3.5) puede provocar retrasos en tareas complejas. Además, el rendimiento de o1 es inconsistente en diferentes tareas, y tiene un rendimiento inferior en tareas más simples, como el reconocimiento de conceptos. Las métricas tradicionales como BLEU y ROUGE pueden no evaluar adecuadamente su resultado, especialmente en campos médicos especializados. Las evaluaciones futuras requieren métricas mejoradas y técnicas de estimulación para captar mejor sus capacidades y mitigar limitaciones como la alucinación y la precisión fáctica.
Echa un vistazo a la Papel y ProyectoTodo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..
No olvides unirte a nuestro Subreddit con más de 50 000 millones de usuarios
Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en el IIT Madrás, es un apasionado de la aplicación de la tecnología y la IA para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una perspectiva nueva a la intersección de la IA y las soluciones de la vida real.