Google Gemini: se afirma que la nueva IA supera tanto a GPT-4 como a los humanos expertos

Gemini puede manejar texto, audio y video.

Google

Google ha lanzado un nuevo modelo de inteligencia artificial, denominado Gemini, que, según afirma, puede superar tanto al modelo GPT-4 de OpenAI como a los humanos de “nivel experto” en una variedad de pruebas de inteligencia.

El director general de la empresa, Sundar Pichai, reveló la existencia de Géminis en la conferencia I/O de Google en mayo de este año, aunque todavía estaba en formación en ese momento. Pero hoy la compañía ha anunciado que lanzará al público el modelo de última generación.

Se han creado tres versiones de Gemini para diferentes aplicaciones, denominadas Nano, Pro y Ultra, que aumentan en tamaño y capacidad. Google se negó a responder preguntas sobre el tamaño de Pro y Ultra, la cantidad de parámetros que incluyen o la escala o fuente de sus datos de entrenamiento. Pero su versión más pequeña, Nano, que está diseñada para ejecutarse localmente en teléfonos inteligentes, consta en realidad de dos modelos: uno para teléfonos más lentos que tiene 1.800 millones de parámetros y otro para dispositivos más potentes que tiene 3.250 millones de parámetros. Comparar las capacidades de los modelos de IA es una ciencia inexacta, pero se rumorea que GPT-4 incluye hasta 1,7 billones de parámetros y Meta LLAMA-2 tiene 70 mil millones.

La versión Pro de gama media de Gemini supera a otros modelos, como OpenAI GPT3.5, pero el Ultra, más potente, supera la capacidad de todos los modelos de IA existentes, afirma Google. Obtuvo una puntuación del 90 por ciento en punto de referencia MMLU estándar de la industriadonde se espera que un humano de “nivel experto” alcance el 89,8 por ciento.

Esta es la primera vez que una IA supera a los humanos en la prueba y es la puntuación más alta para cualquier modelo existente. La prueba incluye una amplia gama de preguntas difíciles sobre temas que incluyen falacias lógicas, problemas morales en escenarios cotidianos, cuestiones médicas, economía y geografía.


En la misma prueba, GPT-4 obtuvo un 87 por ciento, LLAMA-2 obtuvo un 68 por ciento y Claude 2 de Anthropic obtuvo un 78,5 por ciento. Gemini superó a todos esos modelos en ocho de otras nueve pruebas de referencia comunes.

El modelo Pro se integrará en Bard de Google, un chatbot en línea que fue lanzado en marzo de este año. La compañía dice que se lanzará otra versión de Bard llamada Bard Advanced a principios del próximo año y contará con el modelo Gemini Ultra más grande.

La nueva versión de Bard estará disponible en inglés en más de 170 países a partir de hoy, pero no estará disponible en otros idiomas ni siquiera en inglés en el Reino Unido y Europa. Sissie Hsiao en Google dice que el retraso se debe a la regulación más que a la ingeniería: “Estamos trabajando con las políticas y reguladores locales para asegurarnos de que cumplimos con las leyes locales y otras cosas similares antes de lanzarnos en otras áreas”.

Eli Collins en Google DeepMind dice que Gemini es el modelo más grande y capaz de la compañía, pero también el más general, lo que significa que se adapta a una variedad de tareas. A diferencia de muchos modelos actuales que se centran en texto, Gemini ha sido entrenado en texto, imágenes y sonido y se afirma que puede aceptar entradas y proporcionar salidas en todos esos formatos. Pero el lanzamiento de Bard sólo permitirá a las personas utilizar mensajes de texto a partir de hoy, y la compañía promete permitir la interacción de audio e imágenes “en los próximos meses”.

Collins dice que Gemini es “lo último en casi todos los dominios” y que todavía está en pruebas para determinar exactamente qué tan capaz es de trabajar en diferentes medios, lenguajes y aplicaciones. “Aún estamos trabajando para comprender todas las capacidades novedosas de Ultra”, afirma.

No hubo versiones de Gemini disponibles para pruebas en el evento de lanzamiento, pero Google mostró demostraciones de la IA resolviendo problemas de tareas y trabajando con entrada de video en vivo. También se afirma que es mejor en el desarrollo de software que los modelos anteriores: el año pasado, DeepMind lanzó un generador de código impulsado por IA llamado AlphaCode que, según la empresa, podría vencer al 50 por ciento de los desarrolladores humanos, y ahora está lanzando una versión actualizada impulsada por Gemini que, según afirma, puede vencer al 85 por ciento de los codificadores humanos.

Temas: