El equipo Qwen de Alibaba ha lanzado la serie de modelos pequeños Qwen3.5, una colección de modelos de lenguaje grandes (LLM) que van desde 0.8B a 9B de parámetros. Si bien la tendencia de la industria históricamente ha favorecido el aumento del número de parámetros para lograr un rendimiento “de vanguardia”, esta versión se centra en “Más inteligencia, menos computación”. Estos modelos representan un cambio hacia la implementación de IA capaz en hardware de consumo y dispositivos de borde sin las tradicionales compensaciones en razonamiento o multimodalidad.
La serie está actualmente disponible en Hugging Face y ModelScope, incluidas las versiones Instruct y Base.
La jerarquía del modelo: optimización por escala
La serie pequeña Qwen3.5 se clasifica en cuatro niveles distintos, cada uno optimizado para restricciones de hardware y requisitos de latencia específicos:
Qwen3.5-0.8B y Qwen3.5-2B: estos modelos están diseñados para aplicaciones de alto rendimiento y baja latencia en dispositivos perimetrales. Al optimizar el proceso de entrenamiento de tokens densos, estos modelos proporcionan una huella de VRAM reducida, lo que los hace compatibles con chips móviles y hardware de IoT. Qwen3.5-4B: Este modelo sirve como base multimodal para agentes livianos. Cierra la brecha entre los modelos de texto puro y los modelos de lenguaje visual (VLM) complejos, lo que permite flujos de trabajo agentes que requieren comprensión visual, como la navegación por la interfaz de usuario o el análisis de documentos, sin dejar de ser lo suficientemente pequeño para la implementación local. Qwen3.5-9B: El buque insignia de la serie pequeña, la variante 9B, se centra en el razonamiento y la lógica. Está específicamente ajustado para cerrar la brecha de rendimiento con modelos significativamente más grandes (como variantes de más de 30 mil millones de parámetros) a través de técnicas de entrenamiento avanzadas.
Multimodalidad nativa versus adaptadores visuales
Uno de los cambios técnicos importantes en Qwen3.5-4B y superiores es el avance hacia capacidades multimodales nativas. En iteraciones anteriores de modelos pequeños, la multimodalidad a menudo se lograba a través de “adaptadores” o “puentes” que conectaban un codificador de visión previamente entrenado (como CLIP) a un modelo de lenguaje.
Por el contrario, Qwen3.5 incorpora la multimodalidad directamente en la arquitectura. Este enfoque nativo permite que el modelo procese tokens visuales y textuales dentro del mismo espacio latente desde las primeras etapas del entrenamiento. Esto da como resultado un mejor razonamiento espacial, una mayor precisión del OCR y respuestas visuales más coherentes en comparación con los sistemas basados en adaptadores.
RL escalada: mejora del razonamiento en modelos compactos
El rendimiento del Qwen3.5-9B se atribuye en gran medida a la implementación del aprendizaje por refuerzo escalado (RL). A diferencia del ajuste fino supervisado (SFT) estándar, que le enseña a un modelo a imitar texto de alta calidad, Scaled RL utiliza señales de recompensa para optimizar las rutas de razonamiento correctas.
Los beneficios de Scaled RL en un modelo 9B incluyen:
Seguimiento de instrucciones mejorado: es más probable que el modelo se adhiera a indicaciones complejas del sistema de varios pasos. Reducción de alucinaciones: al reforzar la coherencia lógica durante el entrenamiento, el modelo exhibe una mayor confiabilidad en la recuperación de hechos y el razonamiento matemático. Eficiencia en la inferencia: el recuento de parámetros 9B permite una generación de tokens más rápida (más tokens por segundo) que los modelos 70B, al tiempo que mantiene puntuaciones lógicas competitivas en puntos de referencia como MMLU y GSM8K.
Tabla resumen: Especificaciones de la serie pequeña Qwen3.5
Al centrarse en la eficiencia arquitectónica y los paradigmas de capacitación avanzados como Scaled RL y la multimodalidad nativa, la serie Qwen3.5 proporciona un camino viable para que los desarrolladores creen aplicaciones sofisticadas de IA sin la sobrecarga de modelos masivos que dependen de la nube.
Conclusiones clave
Más inteligencia, menos computación: la serie (parámetros de 0.8B a 9B) prioriza la eficiencia arquitectónica sobre la escala de parámetros sin procesar, lo que permite una IA de alto rendimiento en hardware y dispositivos de borde de consumo. Integración multimodal nativa (modelo 4B): a diferencia de los modelos que utilizan torres de visión “atornilladas”, la variante 4B presenta una arquitectura nativa donde el texto y los datos visuales se procesan en un espacio latente unificado, lo que mejora significativamente el razonamiento espacial y la precisión del OCR. Razonamiento a nivel de frontera a través de RL escalado: el modelo 9B aprovecha el aprendizaje por refuerzo escalado para optimizar las rutas de razonamiento lógico en lugar de solo la predicción simbólica, cerrando efectivamente la brecha de rendimiento con modelos de 5 a 10 veces su tamaño. Optimizado para Edge e IoT: los modelos 0.8B y 2B están desarrollados para una latencia ultrabaja y huellas VRAM mínimas, lo que los hace ideales para aplicaciones locales, implementación móvil y entornos sensibles a la privacidad.
Consulte los pesos del modelo. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 120.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.