¿Es este AGI? Gemini 3 Deep Think de Google destroza el último examen de la humanidad y alcanza el 84,6% en el rendimiento ARC-AGI-2 hoy

Google anunció hoy una actualización importante de Gemini 3 Deep Think. Esta actualización está diseñada específicamente para acelerar la ciencia, la investigación y la ingeniería modernas. Esto parece ser más que un lanzamiento de modelo más. Representa un giro hacia un “modo de razonamiento” que utiliza la verificación interna para resolver problemas que antes requerían la intervención humana experta.

El modelo actualizado está alcanzando puntos de referencia que redefinen la frontera de la inteligencia. Al centrarse en la computación en el momento de la prueba (la capacidad de un modelo de “pensar” más tiempo antes de generar una respuesta), Google está yendo más allá de la simple coincidencia de patrones.

https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-deep-think/

Redefiniendo AGI con 84,6% en ARC-AGI-2

El punto de referencia ARC-AGI es una prueba definitiva de inteligencia. A diferencia de los puntos de referencia tradicionales que prueban la memorización, ARC-AGI mide la capacidad de un modelo para aprender nuevas habilidades y generalizar a tareas novedosas que nunca antes había visto. El equipo de Google informó que Gemini 3 Deep Think logró un 84,6 % en ARC-AGI-2, un resultado verificado por la ARC Prize Foundation.

Una puntuación del 84,6% es un gran salto para la industria. Para poner esto en perspectiva, los humanos promedian alrededor del 60% en estos acertijos de razonamiento visual, mientras que los modelos de IA anteriores a menudo luchaban por superar el 20%. Esto significa que el modelo ya no solo predice la siguiente palabra más probable. Está desarrollando una representación interna flexible de la lógica. Esta capacidad es fundamental para entornos de I+D donde los ingenieros manejan datos confusos, incompletos o novedosos que no existen en un conjunto de capacitación.

Aprobar el ‘último examen de la humanidad’

Google también estableció un nuevo estándar en el último examen de la humanidad (HLE), con una puntuación del 48,4% (sin herramientas). HLE es un punto de referencia que consta de miles de preguntas diseñadas por expertos en la materia para que sean fáciles para los humanos pero casi imposibles para la IA actual. Estas preguntas abarcan temas académicos especializados donde los datos son escasos y la lógica densa.

Lograr el 48,4% sin herramientas de búsqueda externas es un hito para los modelos de razonamiento. Este rendimiento indica que Gemini 3 Deep Think puede manejar una planificación conceptual de alto nivel. Puede funcionar a través de cadenas lógicas de varios pasos en campos como el derecho avanzado, la filosofía y las matemáticas sin caer en “alucinaciones”. Demuestra que los sistemas de verificación internos del modelo están funcionando eficazmente para eliminar los caminos de razonamiento incorrectos.

Codificación competitiva: el hito Elo 3455

La actualización más tangible está en la programación competitiva. Gemini 3 Deep Think ahora tiene una puntuación Elo de 3455 en Codeforces. En el mundo de la codificación, un Elo 3455 coloca al modelo en el nivel de “Gran maestro legendario”, un nivel alcanzado sólo por una pequeña fracción de los programadores humanos a nivel mundial.

Esta puntuación significa que el modelo sobresale en rigor algorítmico. Puede manejar estructuras de datos complejas, optimizar la complejidad del tiempo y resolver problemas que requieren una gestión profunda de la memoria. Este modelo sirve como programador de pares de élite. Es particularmente útil para la “codificación agente”, donde la IA toma un objetivo de alto nivel y ejecuta una solución compleja de múltiples archivos de forma autónoma. En pruebas internas, el equipo de Google observó que Gemini 3 Pro mostró una precisión un 35% mayor en la resolución de desafíos de ingeniería de software que las versiones anteriores.

Avance de la ciencia: física, química y matemáticas

La actualización de Google está específicamente adaptada al descubrimiento científico. Gemini 3 Deep Think logró resultados a nivel de medalla de oro en las secciones escritas de la Olimpiada Internacional de Física de 2025 y la Olimpiada Internacional de Química de 2025. También alcanzó un desempeño de nivel de medalla de oro en la Olimpiada Internacional de Matemáticas 2025.

Más allá de estas competencias a nivel de estudiantes, el modelo se desempeña a nivel de investigación profesional. Obtuvo una puntuación del 50,5% en el CMT-Benchmark, que evalúa el dominio de la física teórica avanzada. Para los investigadores y científicos de datos en biotecnología o ciencia de materiales, esto significa que el modelo puede ayudar a interpretar datos experimentales o modelar sistemas físicos.

Ingeniería Práctica y Modelado 3D

El razonamiento del modelo no es sólo abstracto; Tiene una utilidad práctica en ingeniería. Una nueva capacidad destacada por el equipo de Google es la capacidad del modelo de convertir un boceto en un objeto imprimible en 3D. Deep Think puede analizar un dibujo 2D, modelar formas 3D complejas mediante código y generar un archivo final para una impresora 3D.

Esto refleja la naturaleza “agencial” del modelo. Puede cerrar la brecha entre una idea visual y un producto físico utilizando el código como herramienta. Para los ingenieros, esto reduce la fricción entre el diseño y la creación de prototipos. También destaca en la resolución de problemas complejos de optimización, como el diseño de recetas para cultivar películas delgadas en procesos químicos especializados.

Conclusiones clave

Razonamiento abstracto innovador: el modelo logró un 84,6 % en ARC-AGI-2 (verificado por la ARC Prize Foundation), lo que demuestra que puede aprender tareas novedosas y generalizar la lógica en lugar de depender de datos de entrenamiento memorizados. Rendimiento de codificación de élite: con una puntuación Elo de 3455 en Codeforces, Gemini 3 Deep Think se desempeña al nivel de “Gran maestro legendario”, superando a la gran mayoría de programadores humanos competitivos en complejidad algorítmica y arquitectura de sistema. Nuevo estándar para lógica experta: obtuvo una puntuación del 48,4 % en el último examen de la humanidad (sin herramientas), lo que demuestra la capacidad de resolver cadenas lógicas de varios pasos de alto nivel que antes se consideraban “demasiado humanas” para que las resolviera la IA. Éxito de la Olimpiada Científica: El modelo logró resultados de nivel medalla de oro en las secciones escritas de las Olimpiadas Internacionales de Física y Química de 2025, demostrando su capacidad para investigación de nivel profesional y modelado físico complejo. Computación de tiempo de inferencia escalada: a diferencia de los LLM tradicionales, este modo de ‘Pensamiento profundo’ utiliza computación de tiempo de prueba para verificar internamente y autocorregir su lógica antes de responder, lo que reduce significativamente las alucinaciones técnicas.

Consulta los detalles técnicos aquí. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

Michal Sutter es un profesional de la ciencia de datos con una Maestría en Ciencias de Datos de la Universidad de Padua. Con una base sólida en análisis estadístico, aprendizaje automático e ingeniería de datos, Michal se destaca en transformar conjuntos de datos complejos en conocimientos prácticos.

¿Es este AGI? Gemini 3 Deep Think de Google destroza el último examen de la humanidad y alcanza el 84,6% en el rendimiento ARC-AGI-2 hoy

ByEquipo de 7 minutos

Redefiniendo AGI con 84,6% en ARC-AGI-2

Aprobar el ‘último examen de la humanidad’

Codificación competitiva: el hito Elo 3455

Avance de la ciencia: física, química y matemáticas

Ingeniería Práctica y Modelado 3D

Conclusiones clave

By Equipo de 7 minutos

Related Post

Cómo construir transformadores con memoria eficiente con xFormers usando secuencias empaquetadas, GQA, ALiBi, SwiGLU y atención causal

La Iniciativa del MIT para Nuevas Fabricaciones cobra impulso | Noticias del MIT

Ejecute un LLM local con OpenClaw en su Mac Mini

You missed

Los científicos revelan por qué los mosquitos pican a algunas personas más que a otras: ScienceAlert

Los servicios de emergencia de Mallorca se preparan para un verano de incendios forestales de ‘alto riesgo’ mientras 13 arrasan toda España

¿Tom Holland acaba de confirmar que está casado con Zendaya?

Una nube de átomos fríos acaba de dar la hora sin reloj