Aya Vision Unleashed: ¡una revolución global de IA en el poder multilingüe multimodal!

Cohere for AI acaba de lanzar una bomba: Aya Vision, un modelo de visión de peso abierto que está a punto de redefinir la comunicación multilingüe y multimodal. ¡Prepárate para un cambio sísmico mientras destrozamos las barreras del lenguaje y desbloqueamos el verdadero potencial de la IA en todo el mundo!

¡Rompiendo la división multilingüe multimodal!

Seamos realistas, AI ha estado hablando con un vocabulario frustrantemente limitado. ¡Pero ya no! Aya Vision explota en la escena, borrando la brecha de rendimiento entre idiomas y modalidades. Esto no es solo una mejora incremental; Es un salto cuántico, que extiende la magia multimodal a 23 idiomas, alcanzando más de la mitad de la población del planeta. Imagina a Ai finalmente hablando su lenguaje, comprender el rico tapiz de su cultura.

Visión de Aya: ¡donde la visión se encuentra con la brillantez lingüística!

Este no es su modelo de visión promedio. Aya Vision es un virtuoso lingüístico, un maestro visual y un comunicador global, todo en uno. Desde elaborar subtítulos de imagen cautivadores hasta responder preguntas visuales complejas, es una potencia de comprensión multimodal. Vea arriba: tomas una foto de una impresionante obra de arte de tus viajes, y Aya Vision revela instantáneamente su historia, estilo y significado cultural, unir mundos con una sola imagen.

¡Rendimiento que te dejará boquiabierto!

  • Dominación multilingüe: AYA Vision borra la competencia, dejando a los principales modelos de peso abierto en el polvo cuando se trata de generación de texto multilingüe y comprensión de imágenes.
  • Proceso de parámetros: El modelo 8B es una máquina delgada, media, rendimiento, gigantes aplastantes como Qwen2.5-VL 7b, Gemini Flash 1.5 8B, Llama-3.2 11B Vision y Pangea 7b con tasas de ganancia asombrosas.
  • 32B Titan: El modelo 32B establece un nuevo estándar de oro, superando a los modelos aún más grandes como Llama-3.2 90B Vision, MolMo 72B y QWEN2-VL 72B con una eficiencia impresionante.
  • Eficiencia desatado: La visión AYA demuestra que no necesita modelos monstruosos para lograr resultados monumentales, superando los modelos 10 veces su tamaño!
  • Alquimia algorítmica: Los ingredientes secretos como las anotaciones sintéticas, la escala de datos multilingües y la fusión del modelo multimodal se han combinado magistralmente para crear esta obra maestra de IA.

¡Pesos abiertos, puertas abiertas, mundo abierto!

Cohere for AI no es solo construir una IA innovadora; Lo están democratizando. Los modelos 8B y 32B de Aya Vision ahora están disponibles gratuitamente en Kaggle y Cara abrazada.

¿Quieres contribuir?

Cohere for AI invita a los investigadores de todo el mundo a unirse al Iniciativa AYAsolicite subvenciones de investigación y colabore en su comunidad de ciencias abiertas. Aya Vision es un gran paso adelante hacia el futuro de la multilingüe multimodal.


Verificar Publicación de blog de Aya Vision y Iniciativa AYA, Kaggle y Cara abrazada. . Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 80k+ ml.

🚨 Conozca a Parlant: un marco de IA conversacional LLM de LLM diseñado para proporcionar a los desarrolladores el control y la precisión que necesitan sobre sus agentes de servicio al cliente de IA, utilizando pautas de comportamiento y supervisión de tiempo de ejecución. 🔧a 🎛️ Se funciona utilizando una CLI fácil de usar 📟 y SDK de clientes nativos en Python y TypeScript 📦.


Jean-Marc es un exitoso ejecutivo de negocios de IA. Dirige y acelera el crecimiento de las soluciones de IA y comenzó una compañía de visión por computadora en 2006. Es un orador reconocido en AI Conferences y tiene un MBA de Stanford.