OpenAI lanza LifeSciBench, un punto de referencia de 750 tareas que califica modelos de IA en investigaciones de ciencias de la vida real con una rúbrica escrita por expertos

La mayoría de los puntos de referencia de biología plantean preguntas limitadas, basadas en hechos, con respuestas claras. Los científicos sopesan la evidencia imperfecta y toman decisiones. OpenAI lanzó LifeSciBench y apunta directamente a esa brecha.

Incluso el modelo más potente supera aproximadamente una tarea de cada tres. El índice de referencia está lejos de estar saturado.

¿Qué es LifeSciBench?

LifeSciBench contiene 750 tareas escritas por expertos. Abarcan siete flujos de trabajo y siete dominios biológicos. Cada tarea combina una indicación, artefactos de apoyo y una rúbrica de calificación.

Los siete flujos de trabajo cubren el manejo y análisis de evidencia. También incluyen diseño y optimización, razonamiento científico, validación y operaciones, traducción y comunicación científica.

Los siete dominios van desde la genómica y la química medicinal hasta la ciencia clínica y traslacional.

Las tareas se escriben como lo haría un científico con un colega. Son de respuesta libre, no de opción múltiple. Alrededor del 79% requiere múltiples pasos de razonamiento o toma de decisiones, con un promedio de cuatro pasos cada uno.

Cómo se construyó el punto de referencia

Una cohorte de 173 científicos expertos escribieron las tareas. Cada uno tenía un doctorado. y tenía experiencia en biotecnología o farmacéutica. Las tareas aceptadas promediaron seis ciclos de revisión automatizados y al menos dos revisiones de expertos.

Muchas tareas vienen con artefactos. El punto de referencia incluye 1.062 artefactos adjuntos en total. Alrededor del 53% de las tareas requieren al menos un artefacto. Los tipos incluyen secuencias, figuras, tablas, archivos PDF y estructuras químicas.

Una cohorte separada validó la calidad. Hubo 453 revisores y el 97% tenía doctorados. El acuerdo general superó el 96% en relevancia, razonamiento, fundamentación y utilidad.

El sistema de rúbricas

Las rúbricas son la mecánica principal aquí. Contienen 19.020 criterios en todo el índice de referencia. Esto equivale aproximadamente a 25 criterios por tarea.

Cada criterio premia una propiedad concreta. Los ejemplos incluyen un hecho específico, un paso de razonamiento o una respuesta numérica dentro de la tolerancia. La calificación se basa en la rúbrica, no en una sola cadena de referencia.

Dos métricas resumen el desempeño. La puntuación de la rúbrica normalizada divide los puntos otorgados por el total de puntos. La tasa de aprobación de tareas cuenta las tareas con una puntuación igual o superior al 70%.

Esta separación es importante para la interpretación. Una respuesta puede obtener crédito parcial y al mismo tiempo fallar en la tarea. El umbral de aprobación es estricto por diseño.

Aquí está la lógica de puntuación en Python simple:

calificación def (rúbrica, ids_premiados): total = suma (c[“pts”] para c en la rúbrica) ganado = suma(c[“pts”] para c en rúbrica si c[“id”] en Award_ids) normalizado = obtenido / total # crédito parcial aprobado = normalizado >= 0.70 # retorno de éxito a nivel de tarea normalizado, aprobado

Cómo se desempeñaron los modelos

OpenAI evaluó cinco modelos en una configuración de un solo turno. Cada modelo vio el mensaje y los artefactos una vez. Se permitía la navegación por Internet sin restricciones.

ModeloPuntuación normalizadaTasa de aprobación de tareasGPT-Rosalind0.57636.1%GPT-5.50.51925.7%Gemini 3.1 Pro0.51523.6%GPT-5.40.47920.7%Grok 4.30.39913.0%

GPT-Rosalind, el modelo especializado en dominios de OpenAI, lideró en general. Tuvo la media más alta por tarea en 386 de 750 tareas. También elevó la tasa de aprobación general sobre GPT-5.5, del 25,7% al 36,1%. Las tasas de aprobación se mantuvieron modestas en todos los modelos.

Las clasificaciones no son toda la historia. Gemini 3.1 Pro lideró de manera única 214 tareas. Las puntuaciones agregadas pueden ocultar fortalezas específicas de la tarea.

Dónde ganan los modelos y dónde se quedan cortos

Los modelos fueron más fuertes en cuanto a juicio estructurado. GPT-Rosalind alcanzó una puntuación media de 0,712 en traducción. Comunicación Científica obtuvo una puntuación de 0,718, pero esa categoría es pequeña, así que léala con cautela.

Dos flujos de trabajo se mantuvieron difíciles. Diseño, optimización y predicción estuvo entre los más difíciles, con GPT-Rosalind superando el 30,7%. El análisis le siguió de cerca con un 30,3%.

El uso de artefactos fue un claro cuello de botella. GPT-Rosalind cayó del 45,1% en tareas de solo texto al 28,1% en tareas de artefactos. GPT-5,5 cayó de la misma manera, del 29,9% al 21,9%.

Los resultados exactos fueron los más difíciles de todos. El éxito de los criterios de secuencia y estructura osciló entre el 46,9% y el 18,0% en todos los modelos. La ganancia de GPT-Rosalind sobre GPT-5.5 en generación/construcción de elementos fue de solo +0,001.

Los modelos también se detuvieron a mitad de la tarea. Para GPT-Rosalind, 109 tareas obtuvieron al menos un 50 % de crédito de rúbrica, pero aún así pasaron por debajo del 20 %.

El espacio libre sigue siendo grande. Ningún modelo superó 171 tareas (22,8%). Y 261 tareas (34,8%) tuvieron una tasa de aprobación del mejor modelo inferior al 20%.

Fortalezas y debilidades

Fortalezas:

Amplia cobertura en siete flujos de trabajo y siete dominios biológicos Rúbricas escritas por expertos con 19 020 criterios atómicos calificables Artefactos realistas: secuencias, figuras, tablas, archivos PDF y estructuras Validación independiente por 453 revisores expertos, 97 % con doctorados

Debilidades:

Solo una vuelta; la investigación real es iterativa y requiere múltiples turnos. Construida por OpenAI, que también suministra la mayoría de los modelos evaluados. La divulgación pública puede estar limitada por restricciones de seguridad y licencia. 750 tareas no pueden cubrir todas las especialidades científicas.

Pruébelo: demostración interactiva del calificador de rúbricas

LifeSciBench: demostración interactiva

Calificador de rúbricas y tabla de clasificación de modelos

Vea cómo funciona la calificación basada en rúbricas en una tarea de referencia real. Cambie los criterios que un modelo “acertó” y observe en vivo la actualización del puntaje normalizado y del umbral de aprobación del 70 %.

Tabla de clasificación del modelo de calificación de rúbricas

Tarea (Análisis – Transcriptómica espacial): utilizando datos de Visium adjuntos de un portaobjetos de cáncer de cuello uterino FFPE, agrupe los puntos en grupos de 4 k-medias, anote el tipo de célula dominante por grupo y recomiende las 1 o 2 terapias dirigidas más prometedoras (ADC, TCE o CAR-T) según las diferencias de expresión de antígenos entre regiones tumorales y no tumorales.

Simular una respuesta:
Fuerte Parcial Débil Borrar todo

0 / 76 puntos

Puntuación normalizada: 0%

▲ Umbral de aprobación del 70% (53,2 puntos)

FALLO: menos del 70%

Una respuesta puede obtener un crédito parcial y aún así fallar en la tarea. Esa brecha es exactamente lo que mide LifeSciBench.

Tasa de aprobación de tareas Puntuación normalizada

Evaluación de un solo turno; Se permite la navegación por Internet sin restricciones. GPT-Rosalind lideró en general, pero superó de manera única sólo 386 de 750 tareas; Gemini 3.1 Pro lideró de manera única en 214.

Consulte el documento y los detalles técnicos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 150.000 ml y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

¿Necesita asociarse con nosotros para promocionar su repositorio de GitHub O su página principal de Hugging O su lanzamiento de producto O seminario web, etc.? Conéctate con nosotros

Michal Sutter es un profesional de la ciencia de datos con una Maestría en Ciencias de Datos de la Universidad de Padua. Con una base sólida en análisis estadístico, aprendizaje automático e ingeniería de datos, Michal se destaca en transformar conjuntos de datos complejos en conocimientos prácticos.