Cohere lanza Tiny Aya: un modelo de lenguaje pequeño de parámetros 3B que admite 70 idiomas y se ejecuta localmente incluso en un teléfono

ByEquipo de 7 minutos

Feb 18, 2026 #admite, #Aya, #Cohere, #ejecuta, #idiomas, #incluso, #lanza, #lenguaje, #localmente, #Modelo, #parámetros, #Pequeño, #teléfono, #tiny

Cohere lanza Tiny Aya: un modelo de lenguaje pequeño de parámetros 3B que admite 70 idiomas y se ejecuta localmente incluso en un teléfono

Cohere AI Labs ha lanzado Tiny Aya, una familia de modelos de lenguaje pequeño (SLM) que redefine el rendimiento multilingüe. Si bien muchos modelos se escalan aumentando los parámetros, Tiny Aya utiliza una arquitectura de 3,35 mil millones de parámetros para ofrecer traducción y generación de última generación en 70 idiomas.

El lanzamiento incluye cinco modelos: Tiny Aya Base (preentrenado), Tiny Aya Global (instrucciones equilibradas y ajustadas) y tres variantes específicas de cada región: Tierra (África/Asia occidental), Fuego (Asia del Sur) y Agua (Asia-Pacífico/Europa).

https://cohere.com/blog/cohere-labs-tiny-aya

La Arquitectura

Tiny Aya se basa en una arquitectura Transformer densa solo decodificadora. Las especificaciones clave incluyen:

Parámetros: 3,35 mil millones en total (2,8 mil millones sin incrustar) Capas: 36 Vocabulario: tokenizador de 262 k diseñado para una representación equitativa del lenguaje. Atención: Ventana deslizante entrelazada y atención total (proporción 3:1) con Atención de consultas agrupadas (GQA). Contexto: 8192 tokens para entrada y salida.

El modelo fue entrenado previamente en tokens 6T usando un programa Warmup-Stable-Decay (WSD). Para mantener la estabilidad, el equipo utilizó activaciones SwiGLU y eliminó todos los sesgos de las capas densas.

Post-entrenamiento avanzado: FUSION y SimMerge

Para cerrar la brecha en los idiomas de bajos recursos, Cohere utilizó un canal de datos sintéticos.

Fusion-of-N (FUSION): Las indicaciones se envían a un ‘equipo de profesores’ (COMANDO A, GEMMA3-27B-IT, DEEPSEEK-V3). Un juez LLM, el Fusor, extrae y agrega los componentes más sólidos de sus respuestas. Especialización regional: los modelos se ajustaron en 5 grupos regionales (por ejemplo, el sur de Asia y África). SimMerge: Para evitar un “olvido catastrófico” de la seguridad global, los puntos de control regionales se fusionaron con el modelo global utilizando SimMerge, que selecciona los mejores operadores de fusión basándose en señales de similitud.

Puntos de referencia de rendimiento

Tiny Aya Global supera constantemente a competidores más grandes o de la misma escala en tareas multilingües:

Traducción: Supera a GEMMA3-4B en 46 de 61 idiomas en WMT24++. Razonamiento: En el punto de referencia GlobalMGSM (matemáticas) para lenguas africanas, Tiny Aya logró una precisión del 39,2%, eclipsando a GEMMA3-4B (17,6%) y QWEN3-4B (6,25%). Seguridad: Tiene la tasa media de respuesta segura más alta (91,1%) en MultiJail. Integridad del lenguaje: el modelo logra un 94 % de precisión en el lenguaje, lo que significa que rara vez cambia al inglés cuando se le pide que responda en otro idioma.

Implementación en el dispositivo

Tiny Aya está optimizado para la informática de punta. Utilizando cuantificación de 4 bits (Q4_K_M), el modelo cabe en una memoria de 2,14 GB.

iPhone 13: 10 fichas/s. iPhone 17 Pro: 32 fichas/s.

Este esquema de cuantificación da como resultado una caída mínima de 1,4 puntos en la calidad de generación, lo que lo convierte en una solución viable para aplicaciones de IA localizadas, privadas y fuera de línea.

Conclusiones clave

Potencia multilingüe eficiente: Tiny Aya es una familia de modelos de 3,35 mil millones de parámetros que ofrece traducción de última generación y generación de alta calidad en 70 idiomas. Demuestra que no se requiere una escala masiva para un rendimiento multilingüe sólido si los modelos se diseñan con curación de datos intencional. Canal de capacitación innovador: los modelos se desarrollaron utilizando una estrategia novedosa que involucra Fusion-of-N (FUSION), donde un “equipo de maestros” (como Command A y DeepSeek-V3) generó datos sintéticos. Luego, un modelo de juez agregó los componentes más sólidos para garantizar señales de capacitación de alta calidad incluso para idiomas de bajos recursos. Especialización regional mediante fusión: Cohere lanzó variantes especializadas (Tiny Aya Earth, Fire y Water) que están adaptadas a regiones específicas como África, el sur de Asia y Asia-Pacífico. Estos se crearon fusionando modelos regionales perfeccionados con un modelo global utilizando SimMerge para preservar la seguridad y al mismo tiempo mejorar el rendimiento del idioma local. Rendimiento superior de referencia: Tiny Aya Global supera a competidores como Gemma3-4B en calidad de traducción para 46 de 61 idiomas en WMT24++. También reduce significativamente las disparidades en el razonamiento matemático de las lenguas africanas, logrando una precisión del 39,2% en comparación con el 17,6% de Gemma3-4B. Optimizado para implementación en el dispositivo: el modelo es altamente portátil y se ejecuta de manera eficiente en dispositivos perimetrales; logra ~10 tokens/s en un iPhone 13 y 32 tokens/s en un iPhone 17 Pro usando la cuantificación Q4_K_M. Este formato de cuantificación de 4 bits mantiene una alta calidad con sólo una degradación mínima de 1,4 puntos.

Consulta los detalles técnicos, Papel, Pesos de los modelos y Zona de juegos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.