A medida que los costos de las tecnologías de diagnóstico y secuenciación se han desplomado en los últimos años, los investigadores han recopilado una cantidad sin precedentes de datos sobre enfermedades y biología. Desafortunadamente, los científicos que esperan pasar de los datos a nuevas curas a menudo necesitan la ayuda de alguien con experiencia en ingeniería de software.
Ahora, Watershed Bio está ayudando a científicos y bioinformáticos a realizar experimentos y obtener información con una plataforma que permite a los usuarios analizar conjuntos de datos complejos independientemente de sus habilidades computacionales. La plataforma basada en la nube proporciona plantillas de flujo de trabajo y una interfaz personalizable para ayudar a los usuarios a explorar y compartir datos de todo tipo, incluida la secuenciación del genoma completo, transcriptómica, proteómica, metabolómica, imágenes de alto contenido, plegamiento de proteínas y más.
“Los científicos quieren aprender sobre las partes del campo del software y la ciencia de datos, pero no quieren convertirse en ingenieros de software que escriben código solo para comprender sus datos”, dice el cofundador y director ejecutivo Jonathan Wang ’13, SM ’15. “Con Watershed, no es necesario”.
Watershed está siendo utilizado por equipos de investigación grandes y pequeños de la industria y el mundo académico para impulsar el descubrimiento y la toma de decisiones. Cuando se describen nuevas técnicas analíticas avanzadas en revistas científicas, se pueden agregar a la plataforma de Watershed inmediatamente como plantillas, lo que hace que las herramientas de vanguardia sean más accesibles y colaborativas para investigadores de todos los orígenes.
“Los datos en biología están creciendo exponencialmente y las tecnologías de secuenciación que generan estos datos son cada vez mejores y más baratas”, afirma Wang. “Viniendo del MIT, este problema estaba justo en mi punto de mando: es un problema técnico difícil. También es un problema significativo porque estas personas están trabajando para tratar enfermedades. Saben que todos estos datos tienen valor, pero les cuesta usarlos. Queremos ayudarlos a desbloquear más conocimientos más rápido”.
Sin descubrimiento de código
Wang esperaba especializarse en biología en el MIT, pero rápidamente se entusiasmó con las posibilidades de crear soluciones que pudieran llegar a millones de personas con informática. Terminó obteniendo su licenciatura y maestría en el Departamento de Ingeniería Eléctrica e Informática (EECS). Wang también hizo una pasantía en un laboratorio de biología en el MIT, donde se sorprendió de lo lentos y laboriosos que eran los experimentos.
“Vi la diferencia entre biología e informática, donde había estos entornos dinámicos [in computer science] eso te permite recibir comentarios de inmediato”, dice Wang. “Incluso como una sola persona que escribe código, tienes mucho a tu alcance para jugar”.
Mientras trabajaba en aprendizaje automático y computación de alto rendimiento en el MIT, Wang también cofundó una empresa de comercio de alta frecuencia con algunos compañeros de clase. Su equipo contrató investigadores con doctorados en áreas como matemáticas y física para desarrollar nuevas estrategias comerciales, pero rápidamente vieron un cuello de botella en su proceso.
“Las cosas avanzaban lentamente porque los investigadores estaban acostumbrados a construir prototipos”, dice Wang. “Éstas eran pequeñas aproximaciones de modelos que podían ejecutar localmente en sus máquinas. Para poner esos enfoques en producción, necesitaban ingenieros que los hicieran funcionar de manera de alto rendimiento en un grupo de computación. Pero los ingenieros no entendían la naturaleza de la investigación, por lo que hubo muchas idas y venidas. Significaba que ideas que pensabas que podrían haberse implementado en un día tomaban semanas”.
Para resolver el problema, el equipo de Wang desarrolló una capa de software que hizo que la construcción de modelos listos para producción fuera tan fácil como construir prototipos en una computadora portátil. Luego, unos años después de graduarse del MIT, Wang notó que tecnologías como la secuenciación de ADN se habían vuelto baratas y ubicuas.
“El cuello de botella ya no era la secuenciación, por lo que la gente decía: ‘Secuenciamos todo’”, recuerda Wang. “El factor limitante se convirtió en la computación. La gente no sabía qué hacer con todos los datos que se generaban. Los biólogos esperaban que los científicos de datos y bioinformáticos los ayudaran, pero esas personas no siempre entendían la biología a un nivel suficientemente profundo”.
La situación le parecía familiar a Wang.
“Era exactamente como lo que vimos en finanzas, donde los investigadores intentaban trabajar con ingenieros, pero los ingenieros nunca lo entendieron del todo, y había toda esta ineficiencia con la gente esperando a los ingenieros”, dice Wang. “Mientras tanto, aprendí que los biólogos tienen hambre de realizar estos experimentos, pero hay una brecha tan grande que sintieron que tenían que convertirse en ingenieros de software o simplemente centrarse en la ciencia”.
Wang fundó oficialmente Watershed en 2019 con el médico Mark Kalinich ’13, un ex compañero de clase en el MIT que ya no participa en las operaciones diarias de la empresa.
Desde entonces, Wang ha escuchado a ejecutivos de biotecnología y productos farmacéuticos hablar sobre la creciente complejidad de la investigación en biología. Descubrir nuevos conocimientos implica cada vez más analizar datos de genomas completos, estudios de población, secuenciación de ARN, espectrometría de masas y más. Desarrollar tratamientos personalizados o seleccionar poblaciones de pacientes para un estudio clínico también puede requerir enormes conjuntos de datos, y constantemente se publican nuevas formas de analizar los datos en revistas científicas.
Hoy en día, las empresas pueden ejecutar análisis a gran escala en Watershed sin tener que configurar sus propios servidores o cuentas de computación en la nube. Los investigadores pueden utilizar plantillas listas para usar que funcionen con todos los tipos de datos más comunes para acelerar su trabajo. También están disponibles herramientas populares basadas en inteligencia artificial como AlphaFold y Geneformer, y la plataforma de Watershed facilita compartir flujos de trabajo y profundizar en los resultados.
“La plataforma alcanza un punto óptimo de usabilidad y personalización para personas de todos los orígenes”, dice Wang. “Ninguna ciencia es realmente igual. Evito la palabra producto porque eso implica implementar algo y luego simplemente ejecutarlo a escala para siempre. La investigación no es así. La investigación consiste en generar una idea, probarla y utilizar el resultado para generar otra idea. Cuanto más rápido puedas diseñar, implementar y ejecutar experimentos, más rápido podrás pasar al siguiente”.
Acelerando la biología
Wang cree que Watershed está ayudando a los biólogos a mantenerse al día con los últimos avances en biología y acelerando los descubrimientos científicos en el proceso.
“Si se puede ayudar a los científicos a descubrir conocimientos no un poco más rápido, sino 10 o 20 veces más rápido, realmente se puede marcar la diferencia”, afirma Wang.
Watershed está siendo utilizado por investigadores del mundo académico y de empresas de todos los tamaños. Los ejecutivos de empresas farmacéuticas y de biotecnología también utilizan Watershed para tomar decisiones sobre nuevos experimentos y candidatos a fármacos.
“Hemos visto éxito en todas esas áreas, y el hilo común es que las personas entienden la investigación pero no son expertas en ciencias de la computación o ingeniería de software”, dice Wang. “Es emocionante ver cómo se desarrolla esta industria. Para mí, es fantástico ser del MIT y ahora estar de regreso en Kendall Square, donde tiene su sede Watershed. Aquí es donde se están produciendo gran parte del progreso de vanguardia. Estamos tratando de hacer nuestra parte para permitir el futuro de la biología”.