Con los modelos más recientes de su serie Qwen de modelos de IA de código abierto, Alibaba Cloud está ampliando aún más los límites de la tecnología de IA. Alibaba ha ampliado sus soluciones de inteligencia artificial con el lanzamiento de Qwen-1.8B y Qwen-72B, así como modelos especializados de chat y audio. La dedicación de Alibaba al desarrollo de capacidades de IA queda demostrada por estos modelos, que proporcionan un rendimiento mejorado y versatilidad en el procesamiento de lenguaje y audio.
Con el lanzamiento del Qwen-1.8B y su equivalente más grande, el Qwen-72B, la serie Qwen, que ya comprende el Qwen-7B y el Qwen-14B, se ha mejorado significativamente. Qwen-1.8B, preentrenado en un corpus masivo de más de 2,2 billones de tokens, es un modelo basado en transformadores con 1.800 millones de parámetros. Este modelo supera a muchos modelos de tamaño similar e incluso más grandes en diversas tareas lingüísticas, tanto en chino como en inglés. También admite un contexto largo con 8192 tokens.
En particular, Qwen-1.8B, con sus variantes cuantificadas int4 e int8, proporciona una solución de implementación asequible. Estas características lo convierten en una opción sensata para diversas aplicaciones al reducir drásticamente las necesidades de memoria. Su extenso vocabulario de más de 150.000 tokens mejora aún más su capacidad lingüística.
El modelo más grande, Qwen-72B, ha sido entrenado con 3 billones de tokens. Este modelo supera al GPT-3.5 en la mayoría de las tareas y supera al LLaMA2-70B en todas las tareas probadas. Alibaba ha diseñado los modelos para permitir una implementación de bajo costo a pesar de sus amplios parámetros; Las versiones cuantificadas permiten un uso mínimo de memoria de alrededor de 3 GB. Este avance reduce significativamente los obstáculos para trabajar con modelos masivos que solían costar millones de dólares en computación en la nube.
Alibaba presentó Qwen-Chat, versiones optimizadas diseñadas para soporte de IA y capacidades conversacionales, además de los modelos base Qwen. Además de generar material y facilitar una conversación natural, Qwen-Chat puede ejecutar tareas de interpretación y resumen de código.
Con su capacidad para manejar varias entradas de audio además de texto para generar salidas de texto, Qwen-Audio de Alibaba representa un avance notable en la IA multimodal. Sorprendentemente, Qwen-Audio logra un rendimiento de última generación en reconocimiento de voz y una variedad de estándares de comprensión de audio sin necesidad de realizar ajustes.
En el ámbito del audio, Qwen-Audio establece un nuevo punto de referencia como modelo básico de audio-lenguaje. Utiliza un marco de aprendizaje multitarea para manejar muchos formatos de audio. Logra resultados impresionantes en múltiples puntos de referencia, incluidas puntuaciones de última generación en tareas como AISHELL-1 y VocalSound.
La adaptabilidad de Wen-Audio incluye operar varias sesiones de chat a partir de entradas de texto y audio, con características que van desde herramientas de edición de voz hasta apreciación musical e interpretación de sonido.
Revisar la Papel, github, y Modelo. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 33k+ ML, 41k+ comunidad de Facebook, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.
Si te gusta nuestro trabajo, te encantará nuestra newsletter.
Dhanshree Shenwai es ingeniero en informática y tiene una buena experiencia en empresas de tecnología financiera que cubren el ámbito financiero, tarjetas y pagos y banca con un gran interés en las aplicaciones de IA. Le entusiasma explorar nuevas tecnologías y avances en el mundo en evolución de hoy que facilita la vida de todos.