El descubrimiento de fármacos es uno de los esfuerzos más costosos y que requieren más tiempo en la historia de la humanidad. Se necesitan aproximadamente de 10 a 15 años para pasar del descubrimiento objetivo a la aprobación regulatoria de un nuevo medicamento en los Estados Unidos. La mayor parte de ese tiempo no se dedica a momentos decisivos, sino a un minucioso trabajo analítico: examinando montañas de literatura, diseñando reactivos e interpretando datos biológicos complejos. OpenAI cree que la IA puede ayudar a comprimir esos plazos y hoy presentó su modelo más especializado hasta el momento para demostrarlo.
OpenAI presenta GPT-Rosalind, su primer modelo de una nueva serie de ciencias biológicas, para ofrecer un razonamiento fundamental más sólido en campos como la bioquímica y la genómica. A diferencia de los modelos de lenguaje de propósito general que se entrenan ampliamente en todos los dominios, GPT-Rosalind está diseñado específicamente para las profundas demandas analíticas de la investigación biológica. Definitivamente, el modelo no pretende reemplazar a los científicos, sino más bien ayudarlos a avanzar más rápido a través de algunas de las etapas del proceso científico que requieren más tiempo y exigen mayor análisis.
Lo que realmente hace GPT-Rosalind
Ayuda a comprender cómo se ve el “razonamiento científico” en biología. Un investigador que trabaje en una nueva terapia genética, por ejemplo, podría necesitar: examinar cientos de artículos recientes, identificar patrones en las estructuras de las proteínas, diseñar un protocolo de clonación y luego predecir cómo se comportará una secuencia particular de ARN en una célula. Cada uno de estos pasos ha requerido tradicionalmente diferentes herramientas, diferentes expertos y mucho tiempo.
GPT-Rosalind se posiciona como una herramienta para ayudar con los complejos flujos de trabajo de varios pasos inherentes al descubrimiento científico. Apoya la síntesis de evidencia, la generación de hipótesis, la planificación experimental y otras tareas de investigación de varios pasos, diseñadas para ayudar a los investigadores a acelerar las primeras etapas del descubrimiento. En la práctica, esto significa que el modelo puede consultar bases de datos especializadas, analizar literatura científica reciente, interactuar con herramientas computacionales y sugerir nuevas vías experimentales, todo dentro de la misma interfaz.
OpenAI también está lanzando un complemento de investigación de ciencias biológicas para Codex que conecta modelos con más de 50 herramientas científicas y fuentes de datos, brindando a los investigadores acceso programático a bases de datos biológicas y procesos computacionales a través de una interfaz de desarrollador familiar.
Rendimiento de referencia: ¿cómo se compara?
Las afirmaciones de rendimiento de las empresas de IA requieren un escrutinio, y OpenAI ha publicado cifras comparadas con puntos de referencia establecidos. GPT-Rosalind logró una tasa de aprobación de 0,751 en BixBench, un punto de referencia diseñado en torno a la bioinformática y el análisis de datos. Para contextualizar, BixBench evalúa modelos sobre tareas del mundo real que los bioinformáticos realmente realizan, como procesar datos de secuenciación, ejecutar análisis estadísticos e interpretar resultados genómicos. Una tasa de aprobación de 0,751 indica una gran capacidad práctica en este ámbito.
En LABBench2, el modelo superó a GPT-5.4 en seis de once tareas, y las ganancias más significativas se produjeron en CloningQA, una tarea que requiere el diseño de reactivos de extremo a extremo para protocolos de clonación molecular.
Quizás la evaluación más sorprendente provino de un entorno de investigación del mundo real. En asociación con Dyno Therapeutics, el modelo se evaluó en la predicción de secuencia de ARN a función utilizando secuencias no publicadas. Los datos nunca habían formado parte de ningún conjunto de capacitación pública, lo que descarta la memorización como factor de confusión. Cuando se evaluaron directamente en el entorno del Codex, las mejores presentaciones del modelo se ubicaron por encima del percentil 95 de expertos humanos en tareas de predicción y alcanzaron el percentil 84 en generación de secuencias. Se trata de un resultado notable para cualquier sistema de IA que funcione con datos biológicos novedosos.
Un lanzamiento controlado por diseño
Se puede acceder a GPT-Rosalind desde ChatGPT, Codex y la API de OpenAI, pero el acceso se realiza a través de un programa de acceso confiable para clientes empresariales calificados en los Estados Unidos. OpenAI ha incorporado salvaguardias técnicas, incluidos sistemas para señalar actividades potencialmente peligrosas y límites sobre cómo se puede utilizar el modelo.
El acceso está reservado para organizaciones que trabajan para mejorar los resultados de salud humana, realizar investigaciones legítimas en ciencias de la vida y mantener fuertes controles de seguridad y gobernanza. OpenAI ya está trabajando con clientes como Amgen, Moderna, el Instituto Allen y Thermo Fisher Scientific para aplicar GPT-Rosalind en los flujos de trabajo de investigación. La compañía también está trabajando en asociación con el Laboratorio Nacional de Los Álamos en el diseño de proteínas y catalizadores guiado por IA.
Por qué los modelos de dominio específico son la próxima frontera
Este lanzamiento refleja un cambio arquitectónico más amplio que se está produciendo en toda la industria de la IA. En lugar de depender únicamente de modelos de uso general cada vez más grandes, los laboratorios líderes ahora están invirtiendo en modelos optimizados para dominios científicos o profesionales específicos. Los modelos de dominio específico podrían representar la próxima gran fase de la IA, y las ciencias biológicas (con sus vastos espacios de búsqueda, datos de alta dimensión y enormes riesgos sociales) son uno de los campos de prueba más claros.
Así como el ajuste fino y el RLHF permitieron que los modelos de lenguaje se especializaran para la generación de código o el seguimiento de instrucciones, OpenAI ahora está aplicando estrategias similares para crear modelos que puedan razonar de manera significativa sobre secuencias genómicas, estructuras químicas y protocolos experimentales.
El modelo lleva el nombre de la química británica Rosalind Franklin, cuya investigación ayudó a revelar la estructura del ADN y sentó las bases de la biología molecular moderna: un tributo apropiado para un modelo diseñado para llevar ese legado científico a una nueva era computacional.
Consulta los detalles técnicos aquí. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 130.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.
¿Necesita asociarse con nosotros para promocionar su repositorio de GitHub O su página principal de Hugging O su lanzamiento de producto O seminario web, etc.? Conéctate con nosotros