Luma AI acaba de completar una de las rondas de financiación más grandes de este año (una gigantesca ronda Serie C de 900 millones de dólares) y la compañía no pretende ir a lo seguro.
La startup afirma que el dinero la acercará a lograr AGI multimodal, el tipo de IA que no solo es capaz de leer o generar texto sino también de comprender el mundo a través de video, imágenes, lenguaje y sonido, todo a la vez, según informó Times of India.
Hay algo audaz, un poco salvaje, en todo el asunto. La ronda está liderada por HUMAIN, una empresa de inteligencia artificial respaldada por Arabia Saudita, y se convierte en un panorama aún más amplio: noticias de una asociación que se expande para ayudar a respaldar un nuevo supercúmulo de inteligencia artificial de 2 gigavatios que se está construyendo en Arabia Saudita.
Este tipo de potencia de cálculo no es sólo para demostraciones sofisticadas: es lo que necesitas cuando intentas construir el equivalente de un cerebro digital.
Y lo que es aún más interesante es la forma en que se presenta Luma. No persiguen modelos de ratones de biblioteca como todos los demás.
Operan como “modelos mundiales”, que son sistemas con la capacidad de simular entornos reales, generar videos largos y coherentes y comprender el espacio 3D.
Su propio anuncio sugiere ambiciones que van mucho más allá de la generación de vídeo: más bien una inteligencia multimodal interactiva que puede ver, razonar y actuar.
Y luego se ve cómo están reaccionando los inversores de todo el mundo. El Financial Times observa que la ronda valora a Luma en unos 4.000 millones de dólares, lo que es una buena señal de hacia dónde cree el mercado que se dirigirá la IA a continuación. Ya hemos superado la era de los “solo chatbots”.
No sé ustedes, pero tengo sentimientos encontrados de entusiasmo y temor sobre esto. Por un lado, este nivel de creatividad podría ser lo que se necesita para que la IA sea realmente útil en campos donde el lenguaje por sí solo no es suficiente: educación, robótica, entrenamiento con simulación y producción creativa.
Por otro lado, una vez que comienzas a construir modelos que sean capaces de interpretar el mundo físico a escala, también te enfrentas a grandes preguntas: ¿Quién gobierna estos sistemas?
¿Qué sucede cuando el video y la conciencia espacial están en juego y vamos a examinar o detectar sesgos? ¿Y cuánto es demasiada autonomía?
Cuando hablo con creadores y desarrolladores en las últimas semanas, hay una mezcla de esperanza y miedo.
Esperanza, porque modelos como el de Luma podrían tener el potencial de facilitar algunas tareas increíblemente complejas: piense en poder producir simulaciones o vídeos de entrenamiento realistas sin un equipo de estudio.
Preocupación, ya que cuanto más sofisticada se vuelve la IA, más rápido cambian las expectativas, y ahora hay personas que necesitan redefinir cuál es su propio propósito.
Aun así, una cuestión parece clara: esta ronda de financiación no es simplemente otro titular tecnológico más.
Es parte de un movimiento más amplio hacia sistemas de inteligencia artificial que puedan intentar comprender, simular y razonar sobre el mundo como lo hacen los humanos.
Y por muy entusiasmados o preocupados que estemos por eso, la carrera para ofrecer IA de próxima generación acaba de acelerarse.