Justo antes de su anual Conferencia de desarrolladores de E/SGoogle ha lanzado una vista previa temprana de Gemini 2.5 Pro (edición de E/S)—Un actualización sustancial de su modelo de IA insignia centrado en el desarrollo de software y el razonamiento y la comprensión multimodal. Esta última versión ofrece mejoras marcadas en la precisión de codificación, la generación de aplicaciones web y la comprensión basada en videos, lo que lo coloca a la vanguardia de grandes tablas de clasificación de evaluación de modelos.
Con las mejores clasificaciones en las categorías de codificación WebDev y de codificación de LM Arena, Gemini 2.5 Pro E/S surge como un contendiente serio en la asistencia de programación AI aplicada e inteligencia multimodal.
Liderando en el desarrollo de aplicaciones web: Top of WebDev Arena
La edición de E/S se distingue en el desarrollo del software frontend, logrando el primer lugar en el Tabla de clasificación de Webdev Arena—Un punto de referencia basado en la evaluación humana de aplicaciones web generadas. En comparación con su predecesor, el modelo mejora en +147 puntos ELO, subrayando un progreso significativo en la calidad y la consistencia.
Las capacidades clave incluyen:
- Generación de frontend de extremo a extremo
Gemini 2.5 Pro E/S genera aplicaciones completas listas para el navegador a partir de un solo mensaje. Las salidas incluyen HTML bien estructurado, CSS receptivo y JavaScript funcional, reduciendo la necesidad de indicaciones iterativas o postprocesamiento. - Generación de UI de alta fidelidad
El modelo interpreta las indicaciones de IU estructuradas con precisión, produciendo componentes de código legibles y modulares que son adecuados para la implementación directa o integración en las bases de código existentes. - Consistencia entre modalidades
Las salidas siguen siendo consistentes en varias tareas frontend, lo que permite a los desarrolladores usar el modelo para la creación de prototipos de diseño, el estilo e incluso la representación a nivel de componentes.
Esto hace que Gemini sea particularmente valioso para racionalizar los flujos de trabajo frontend, desde la maqueta hasta el prototipo funcional.
Rendimiento de codificación general: superación GPT-4 Turbo y Claude 3.7
Más allá del desarrollo web, Gemini 2.5 Pro E/S muestra fuertes capacidades de codificación de uso general. Ahora ocupa el primer lugar en el punto de referencia de codificación de LM Arena, por delante de competidores como GPT-4 Turbo y Claude 3.7 sonnet.
Las mejoras notables incluyen:
- Soporte de programación de múltiples pasos
El modelo puede realizar tareas encadenadas, como la refactorización de código, la optimización y la traducción de lenguaje cruzado con mayor precisión. - Uso mejorado de la herramienta
Google informa una reducción en los errores de llamada de herramientas durante las pruebas internas, un hito importante para los escenarios de desarrollo en tiempo real donde la invocación de herramientas está estrechamente acoplada con la salida del modelo. - Instrucciones estructuradas a través de Vertex AI
En entornos empresariales, el modelo admite instrucciones estructuradas del sistema, lo que brinda a los equipos un mayor control sobre el flujo de ejecución, especialmente en los sistemas de flujo de agentes múltiples o de trabajo.
Juntas, estas mejoras hacen de la edición de E/S un asistente más confiable para tareas que van más allá de las terminaciones de una sola función, lo que soporta las prácticas de desarrollo de software del mundo real.
Comprensión de video nativo y contextos multimodales
En un salto notable hacia la IA generalista, Gemini 2.5 Pro E/S presenta un soporte incorporado para la comprensión de video. Los puntajes del modelo 84.8% en el punto de referencia de VideoMmeindicando un rendimiento robusto en tareas de razonamiento espacial temporal.
Las características clave incluyen:
- Comprensión directa de video a estructura
Los desarrolladores pueden alimentar las entradas de video en AI Studio y recibir salidas estructuradas, lo que elimina la necesidad de pasos intermedios manuales o conmutación de modelo. - Ventana de contexto multimodal unificado
El modelo acepta secuencias multimodales extendidas (textos, imagen y video) dentro de un solo contexto. Esto simplifica el desarrollo de flujos de trabajo intermodales donde la continuidad y la retención de memoria son esenciales. - Preparación de la aplicación
La comprensión de video se integra hoy en AI Studio, con capacidades extendidas disponibles a través de Vertex AI, lo que hace que el modelo se pueda usar de inmediato para herramientas de orientación empresarial.
Esto hace que Gemini sea adecuado para una variedad de nuevos casos de uso, desde resumen de contenido de video y QA de instrucción hasta adaptación dinámica de la interfaz de usuario basada en alimentos en video.
Implementación e integración
Gemini 2.5 PRO E/S ahora está disponible en las plataformas clave de Google:
- Google AI Studio: Para experimentación interactiva y prototipos rápidos
- Vertex ai: Para la implementación de grado empresarial con soporte para la configuración a nivel de sistema y el uso de la herramienta
- Aplicación Géminis: Para acceso general a través de interfaces de lenguaje natural
Si bien el modelo aún no es compatible con el ajuste fino, acepta personalización basada en el aviso y entrada/salida estructurada, lo que lo hace adaptable para las tuberías específicas de la tarea sin reentrenamiento.
Conclusión
Gemini 2.5 Pro E/S marca un paso significativo para hacer que los modelos de idiomas grandes prácticamente sean útiles para desarrolladores y empresas por igual. Su liderazgo en WebDEV y las tablas de clasificación de codificación, combinadas con el apoyo nativo para la entrada multimodal, ilustra el creciente énfasis de Google en la aplicabilidad del mundo real.
En lugar de centrarse únicamente en los puntos de referencia de modelado de lenguaje sin procesar, esta versión prioriza la calidad funcional, ofreciendo los desarrolladores estructurados, precisos y con el contexto de los resultados en una amplia gama de tareas. Con Gemini 2.5 Pro E/S, Google continúa dando forma al futuro de los sistemas de IA centrados en el desarrollador.
Mira el Detalle técnico y Pruébalo aquí. Además, no olvides seguirnos Gorjeo.
Aquí hay una breve descripción de lo que estamos construyendo en MarkTechPost:
Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.