Avance de la IA médica: evaluación del modelo de vista previa o1 de OpenAI y optimización de las estrategias de inferencia

Medprompt, una estrategia de dirección en tiempo de ejecución, demuestra el potencial de guiar a los LLM de propósito general para lograr un desempeño de vanguardia en dominios especializados como la medicina. Al emplear técnicas estructuradas de indicaciones de varios pasos, como el razonamiento en cadena de pensamiento (CoT), ejemplos seleccionados de algunas tomas y conjunto de elecciones aleatorias, Medprompt cierra la brecha entre los modelos generalistas y de dominio específico. Este enfoque mejora significativamente el rendimiento en puntos de referencia médicos como MedQA, logrando una reducción de casi el 50 % en las tasas de error sin necesidad de ajustar el modelo. El modelo o1-preview de OpenAI ejemplifica aún más los avances en el diseño de LLM al incorporar razonamiento en tiempo de ejecución para refinar los resultados de forma dinámica, yendo más allá de las estrategias tradicionales de CoT para abordar tareas complejas.

Históricamente, la formación previa en un dominio específico era esencial para un alto rendimiento en áreas especializadas, como se ve en modelos como PubMedBERT y BioGPT. Sin embargo, el auge de grandes modelos generalistas como GPT-4 ha cambiado este paradigma, superando a sus homólogos de dominios específicos en tareas como el USMLE. Estrategias como Medprompt mejoran el rendimiento del modelo generalista al integrar métodos de indicación dinámica, lo que permite que modelos como GPT-4 logren resultados superiores en los puntos de referencia médicos. A pesar de los avances en modelos médicos perfeccionados como Med-PaLM y Med-Gemini, los enfoques generalistas con estrategias refinadas de tiempo de inferencia, ejemplificadas por Medprompt y o1-preview, ofrecen soluciones escalables y efectivas para dominios de alto riesgo.

Los investigadores de Microsoft y OpenAI evaluaron el modelo o1-preview, que representa un cambio en el diseño de la IA al incorporar el razonamiento CoT durante el entrenamiento. Este enfoque de “razonamiento nativo” permite la resolución de problemas paso a paso mediante inferencia, lo que reduce la dependencia de técnicas de ingeniería rápidas como Medprompt. Su estudio encontró que o1-preview superó a GPT-4, incluso con Medprompt, en los puntos de referencia médicos, y pocas indicaciones obstaculizaron su desempeño, lo que sugiere que el aprendizaje en contexto es menos efectivo para tales modelos. Aunque las estrategias que requieren muchos recursos, como el ensamblaje, siguen siendo viables, o1-preview logra resultados de última generación a un costo mayor. Estos hallazgos resaltan la necesidad de nuevos puntos de referencia para desafiar los modelos nativos de razonamiento y perfeccionar la optimización del tiempo de inferencia.

Medprompt es un marco diseñado para optimizar modelos de propósito general como GPT-4 para dominios especializados como la medicina mediante la combinación de indicaciones dinámicas de pocos disparos, razonamiento CoT y ensamblaje. Selecciona dinámicamente ejemplos relevantes, emplea CoT para el razonamiento paso a paso y mejora la precisión mediante el conjunto de votos mayoritarios de múltiples ejecuciones de modelos. Las estrategias de metarazonamiento guían la asignación de recursos computacionales durante la inferencia, mientras que la integración de recursos externos, como la generación aumentada de recuperación (RAG), garantiza el acceso en tiempo real a información relevante. Las técnicas de indicación avanzadas y los marcos de razonamiento iterativos, como el razonamiento autodidacta (STaR), refinan aún más los resultados del modelo, enfatizando la escala de tiempo de inferencia sobre el entrenamiento previo. La orquestación multiagente ofrece soluciones colaborativas para tareas complejas.

El estudio evalúa el modelo o1-preview en puntos de referencia médicos, comparando su desempeño con los modelos GPT-4, incluidas las estrategias mejoradas por Medprompt. La precisión, la métrica principal, se evalúa en conjuntos de datos como MedQA, MedMCQA, MMLU, NCLEX y JMLE-2024, así como en materiales preparatorios de USMLE. Los resultados muestran que o1-preview a menudo supera a GPT-4, sobresaliendo en tareas de razonamiento intensivo y casos multilingües como JMLE-2024. Las estrategias de estímulo, particularmente las de conjunto, mejoran el desempeño, aunque algunos estímulos pueden obstaculizarlo. o1-preview logra una alta precisión pero genera mayores costos en comparación con GPT-4o, que ofrece un mejor equilibrio costo-rendimiento. El estudio destaca las compensaciones entre precisión, precio y enfoques de estimulación al optimizar grandes modelos de lenguaje médico.

En conclusión, el modelo de vista previa o1 de OpenAI mejora significativamente el rendimiento de LLM, logrando una precisión superior en los puntos de referencia médicos sin requerir estrategias de indicaciones complejas. A diferencia de GPT-4 con Medprompt, o1-preview minimiza la dependencia de técnicas como las indicaciones de pocos disparos, que a veces afectan negativamente el rendimiento. Aunque el ensamblaje sigue siendo eficaz, exige cuidadosas compensaciones entre costo y rendimiento. El modelo establece una nueva frontera de Pareto, ofreciendo resultados de mayor calidad, mientras que GPT-4o proporciona una alternativa más rentable para determinadas tareas. Con o1-preview acercándose a la saturación en los puntos de referencia existentes, existe una necesidad apremiante de evaluaciones más desafiantes para explorar más a fondo sus capacidades, especialmente en aplicaciones del mundo real.


Verificar el Detalles y Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 60.000 ml.

🚨 [Must Attend Webinar]: ‘Transformar pruebas de concepto en aplicaciones y agentes de IA listos para producción’ (Promovido)


A Sana Hassan, pasante de consultoría en Marktechpost y estudiante de doble titulación en IIT Madras, le apasiona aplicar la tecnología y la inteligencia artificial para abordar los desafíos del mundo real. Con un gran interés en resolver problemas prácticos, aporta una nueva perspectiva a la intersección de la IA y las soluciones de la vida real.