El equipo de Alibaba Qwen lanza la serie QWEN3-Embedding y QWen3-Reranker-redefinición de la incrustación multilingüe y los estándares de clasificación

La incrustación de texto y la resolución son fundamentales para los sistemas modernos de recuperación de información, aplicaciones de alimentación como búsqueda semántica, sistemas de recomendación y generación de recuperación aumentada (TRAPO). Sin embargo, los enfoques actuales a menudo enfrentan desafíos clave, particularmente para lograr la alta fidelidad multilingüe y la adaptabilidad de las tareas sin depender de las API patentadas. Los modelos existentes con frecuencia se quedan cortos en escenarios que requieren una comprensión semántica matizada en múltiples idiomas o tareas específicas de dominio como la recuperación de código e instrucción siguiente. Además, la mayoría de los modelos de código abierto carecen de escala o flexibilidad, mientras que las API comerciales permanecen costosas y cerradas.

QWEN3-Embedding y QWen3-Reranker: un nuevo estándar para la incrustación de código abierto

El equipo Qwen de Alibaba ha presentado la serie QWEN3-Embedding y QWen3-Reranker, modelos que establecen un nuevo punto de referencia en la clasificación de texto multilingüe y relevancia. Construido en los modelos de la Fundación QWEN3, la serie incluye variantes en tamaños de parámetros de 0.6b, 4B y 8B y admite una amplia gama de idiomas (119 en total), lo que lo convierte en una de las ofertas de código abierto más versátiles y performadores hasta la fecha. Estos modelos ahora tienen una fuente abierta bajo la licencia Apache 2.0 en abrazos, GitHub y Modelscope, y también se pueden acceder a través de API de nubes de Alibaba.

Estos modelos están optimizados para casos de uso como recuperación semántica, clasificación, trapo, análisis de sentimientos y búsqueda de códigos, lo que proporciona una alternativa sólida a las soluciones existentes como la incrustación de Géminis y las API de incrustación de OpenAI.

Arquitectura técnica

Los modelos incrustantes de QWEN3 adoptan una arquitectura densa basada en transformadores con atención causal, produciendo incrustaciones extrayendo el estado oculto correspondiente al [EOS] simbólico. La conciencia de instrucciones es una característica clave: las consultas de entrada están formateadas como {instruction} {query}<|endoftext|>habilitando incrustaciones acondicionadas por tareas. Los modelos Reranker están entrenados con un formato de clasificación binaria, juzgando la relevancia de los documentos de una manera guiada por instrucciones utilizando una función de puntuación basada en la probabilidad de token.

Los modelos se entrenan utilizando una sólida canal de entrenamiento de varias etapas:

  1. Supervisión débil a gran escala: Pares de entrenamiento sintético de 150m generados con QWEN3-32B, cubriendo la recuperación, clasificación, STS y minería de bitexx en idiomas y tareas.
  2. Ajuste de fino supervisado: Los pares de datos de alta calidad de 12 millones se seleccionan utilizando similitud de coseno (> 0.7), rendimiento de ajuste fino en aplicaciones posteriores.
  3. Fundación del modelo: La interpolación lineal esférica (SLERP) de múltiples puntos de control ajustados asegura la robustez y la generalización.

Esta tubería de generación de datos sintética permite el control sobre la calidad de los datos, la diversidad del lenguaje, la dificultad de la tarea y más, lo que resulta en un alto grado de cobertura y relevancia en entornos de baja recursos.

Puntos de referencia de rendimiento e ideas

La serie QWEN3-Embedding y QWen3-Reranker demuestran un fuerte rendimiento empírico en varios puntos de referencia multilingües.

  • En mmteb (216 tareas en más de 250 idiomas), QWEN3-incrustación-8B logra una puntuación de tarea media de 70.58superando la serie Géminis y Gte-Qwen2.
  • En MteB (English V2): QWEN3-incrustación-8B llega 75.22superando a otros modelos abiertos, incluidos NV-Embed-V2 y GritLM-7B.
  • En el código mteB: QWEN3-Embedding-8B lidera con 80.68sobresaliendo en aplicaciones como la recuperación de códigos y el QA de desbordamiento de la pila.

Para Reranking:

  • QWEN3-Reranker-0.6B ya supera a Jina y BGE Rerankers.
  • QWEN3-Reranker-8B logra 81.22 en mteb-código y 72.94 en MMTEB-R, marcando el rendimiento de vanguardia.

Los estudios de ablación confirman la necesidad de cada etapa de entrenamiento. La eliminación de la prisión sintética o la fusión del modelo condujo a caídas de rendimiento significativas (hasta 6 puntos en MMTEB), enfatizando sus contribuciones.

Conclusión

La serie QWEN3-Embedding y QWEN3-Reranker de Alibaba presentan una solución robusta, abierta y escalable a la representación semántica multilingüe y consciente de las instrucciones. Con fuertes resultados empíricos en MTEB, MMTEB y MteB-Code, estos modelos unen la brecha entre las API patentadas y la accesibilidad de código abierto. Su diseño de capacitación reflexivo, que realiza datos sintéticos de alta calidad, ajuste de instrucciones y fusión de modelos, los posiciona como candidatos ideales para aplicaciones empresariales en búsqueda, recuperación y tuberías de trapo. Al emitir abierta estos modelos, el equipo de Qwen no solo empuja los límites de la comprensión del lenguaje, sino que también permite a la comunidad más amplia innovar además de una base sólida.


Mira el Papel, Detalle técnico, Qwen3-incrustación y QWEN3-RERANKER. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 95k+ ml de subreddit y suscribirse a Nuestro boletín.


Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.