Cohere for AI acaba de lanzar una bomba: Aya Vision, un modelo de visión de peso abierto que está a punto de redefinir la comunicación multilingüe y multimodal. ¡Prepárate para un cambio sísmico mientras destrozamos las barreras del lenguaje y desbloqueamos el verdadero potencial de la IA en todo el mundo!
¡Rompiendo la división multilingüe multimodal!
Seamos realistas, AI ha estado hablando con un vocabulario frustrantemente limitado. ¡Pero ya no! Aya Vision explota en la escena, borrando la brecha de rendimiento entre idiomas y modalidades. Esto no es solo una mejora incremental; Es un salto cuántico, que extiende la magia multimodal a 23 idiomas, alcanzando más de la mitad de la población del planeta. Imagina a Ai finalmente hablando su lenguaje, comprender el rico tapiz de su cultura.
Visión de Aya: ¡donde la visión se encuentra con la brillantez lingüística!
Este no es su modelo de visión promedio. Aya Vision es un virtuoso lingüístico, un maestro visual y un comunicador global, todo en uno. Desde elaborar subtítulos de imagen cautivadores hasta responder preguntas visuales complejas, es una potencia de comprensión multimodal. Vea arriba: tomas una foto de una impresionante obra de arte de tus viajes, y Aya Vision revela instantáneamente su historia, estilo y significado cultural, unir mundos con una sola imagen.
¡Rendimiento que te dejará boquiabierto!
- Dominación multilingüe: AYA Vision borra la competencia, dejando a los principales modelos de peso abierto en el polvo cuando se trata de generación de texto multilingüe y comprensión de imágenes.
- Proceso de parámetros: El modelo 8B es una máquina delgada, media, rendimiento, gigantes aplastantes como Qwen2.5-VL 7b, Gemini Flash 1.5 8B, Llama-3.2 11B Vision y Pangea 7b con tasas de ganancia asombrosas.
- 32B Titan: El modelo 32B establece un nuevo estándar de oro, superando a los modelos aún más grandes como Llama-3.2 90B Vision, MolMo 72B y QWEN2-VL 72B con una eficiencia impresionante.
- Eficiencia desatado: La visión AYA demuestra que no necesita modelos monstruosos para lograr resultados monumentales, superando los modelos 10 veces su tamaño!
- Alquimia algorítmica: Los ingredientes secretos como las anotaciones sintéticas, la escala de datos multilingües y la fusión del modelo multimodal se han combinado magistralmente para crear esta obra maestra de IA.
¡Pesos abiertos, puertas abiertas, mundo abierto!
Cohere for AI no es solo construir una IA innovadora; Lo están democratizando. Los modelos 8B y 32B de Aya Vision ahora están disponibles gratuitamente en Kaggle y Cara abrazada.
¿Quieres contribuir?
Cohere for AI invita a los investigadores de todo el mundo a unirse al Iniciativa AYAsolicite subvenciones de investigación y colabore en su comunidad de ciencias abiertas. Aya Vision es un gran paso adelante hacia el futuro de la multilingüe multimodal.
Verificar Publicación de blog de Aya Vision y Iniciativa AYA, Kaggle y Cara abrazada. . Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro Subreddit de 80k+ ml.
