Los investigadores de Microsoft abordan el desafío de mejorar la capacidad de GPT-4 para responder preguntas médicas sin capacitación específica en el dominio. ellos introducen Medprompt, que emplea diferentes estrategias de estimulación para mejorar el rendimiento de GPT-4. El objetivo es lograr resultados de última generación en los nueve puntos de referencia de la suite MultiMedQA.
Este estudiar amplía la investigación previa sobre las capacidades médicas de GPT-4, en particular BioGPT y Med-PaLM, al explorar sistemáticamente la ingeniería rápida para mejorar el rendimiento. La versatilidad de Medprompt se demuestra en diversos ámbitos, incluidos la ingeniería eléctrica, el aprendizaje automático, la filosofía, la contabilidad, el derecho, la enfermería y la psicología clínica.
El estudio explora el objetivo de la IA de crear principios de inteligencia computacional para la resolución universal de problemas. Enfatiza el éxito de modelos básicos como GPT-3 y GPT-4, mostrando sus notables competencias en diversas tareas sin una formación especializada intensiva. Estos modelos emplean el paradigma de texto a texto y aprenden ampliamente de datos web a gran escala. Las métricas de rendimiento, como la precisión de la predicción de la siguiente palabra, mejoran con una mayor escala en los datos de entrenamiento, los parámetros del modelo y los recursos computacionales. Los modelos básicos demuestran capacidades escalables para la resolución de problemas, lo que indica su potencial para tareas generalizadas en todos los dominios.
La investigación explora sistemáticamente la ingeniería rápida para mejorar el rendimiento de GPT-4 en desafíos médicos. Un diseño experimental cuidadoso mitiga el sobreajuste, empleando una metodología de prueba similar al aprendizaje automático tradicional. La evaluación de Medprompt de los conjuntos de datos de MultiMedQA, utilizando divisiones de ojos abiertos y ojos abiertos, indica una generalización sólida a preguntas invisibles. El estudio examina el rendimiento bajo una mayor carga computacional y compara los fundamentos de CoT de GPT-4 con los de Med-PaLM 2, revelando una lógica de razonamiento más larga y detallada en los resultados generados.
Medprompt mejora el rendimiento de GPT-4 en conjuntos de datos de respuesta a preguntas médicas, logrando resultados existentes en MultiMedQA y superando modelos especializados como Med-PaLM 2 con menos llamadas. Con Medprompt, GPT-4 logra una reducción del 27 % en la tasa de error en el conjunto de datos MedQA y supera una puntuación del 90 % por primera vez. Las técnicas de Medprompt, incluida la selección dinámica de pocos disparos, una cadena de pensamiento autogenerada y el conjunto aleatorio de elecciones, se pueden aplicar más allá de la medicina para mejorar el rendimiento de GPT-4 en diversos dominios. El riguroso diseño experimental garantiza que se mitiguen las preocupaciones sobre el sobreajuste.
En conclusión, Medprompt ha demostrado un rendimiento excepcional en conjuntos de datos de respuesta a preguntas médicas, superando a MultiMedQA y mostrando adaptabilidad en varios dominios. El estudio destaca la importancia de las evaluaciones objetivas para evitar el sobreajuste y recomienda una mayor exploración de la ingeniería y el ajuste rápidos para utilizar modelos básicos en campos vitales como la atención sanitaria.
En trabajos futuros, es importante perfeccionar las indicaciones y las capacidades de los modelos básicos para incorporar y componer ejemplos de pocas tomas en las indicaciones. También existe potencial para sinergias entre la ingeniería rápida y el ajuste en ámbitos de alto riesgo, como la atención sanitaria, y la ingeniería rápida y el ajuste deben explorarse como áreas de investigación cruciales. Los valores de Shapley de la teoría de juegos podrían usarse para la asignación de créditos en estudios de ablación, y se necesita más investigación para calcular los valores de Shapley y analizar su aplicación en dichos estudios.
Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 33k+ ML, 41k+ comunidad de Facebook, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.
Si te gusta nuestro trabajo, te encantará nuestra newsletter.
Hola, mi nombre es Adnan Hassan. Soy pasante de consultoría en Marktechpost y pronto seré aprendiz de gestión en American Express. Actualmente estoy cursando una doble titulación en el Instituto Indio de Tecnología, Kharagpur. Me apasiona la tecnología y quiero crear nuevos productos que marquen la diferencia.