Perplexity acaba de lanzar pplx-embed: nuevos modelos de incrustación bidireccional SOTA Qwen3 para tareas de recuperación a escala web

Perplexity ha lanzado pplx-embed, una colección de modelos de integración multilingües optimizados para tareas de recuperación a gran escala. Estos modelos están diseñados para manejar el ruido y la complejidad de los datos a escala web, proporcionando una alternativa lista para producción a las API integradas patentadas.

Innovaciones arquitectónicas: atención y difusión bidireccional

La mayoría de los modelos de lenguajes grandes (LLM) utilizan arquitecturas causales de solo decodificador. Sin embargo, para las tareas de integración, comprender el contexto completo de una oración es más fundamental que predecir el siguiente token. El equipo de investigación de la perplejidad abordó esto implementando atención bidireccional. Esto permite que el modelo procese todos los tokens en una secuencia simultáneamente, lo que da como resultado una representación del estado oculto más completa.

Además, los modelos utilizan preentrenamiento basado en difusión. Si bien la difusión se utiliza con frecuencia en medios generativos, aplicarla a incrustaciones de texto ayuda al modelo a aprender a reconstruir señales semánticas limpias a partir de entradas ruidosas o fragmentadas. Esta fase de preentrenamiento garantiza que el modelo sea resistente al procesar el texto sin formato que a menudo se encuentra en la web abierta.

https://arxiv.org/pdf/2602.11151

Optimizado para RAG: consulta versus contexto

Un desafío común en la generación aumentada de recuperación (RAG) es la “asimetría” entre la consulta de búsqueda corta de un usuario y un fragmento de documento largo. El equipo de Perplexity aborda esto proporcionando dos versiones de modelos especializados:

pplx-embed-v1: optimizado para incrustaciones de texto independientes y consultas de búsqueda. pplx-embed-context-v1: optimizado específicamente para fragmentos de documentos utilizados como base de conocimientos en canalizaciones RAG.

Al separar estos roles, los modelos alinean mejor el espacio vectorial entre lo que pregunta un usuario y la información específica almacenada en una base de datos. Estos modelos han sido validados en escenarios de búsqueda del mundo real que involucran decenas de millones de documentos.

Especificaciones técnicas y eficiencia

Los modelos están disponibles en dos escalas de parámetros para equilibrar el rendimiento y el costo computacional:

CaracterísticaModelo 0.6BModelo 4BCaso de uso principalTareas de alto rendimiento y baja latenciaRazonamiento semántico complejoCuantizaciónSoporte nativo INT8Soporte nativo INT8ArquitecturaBasado en Qwen3Basado en Qwen3AtenciónBidireccionalBidireccional

La inclusión de la cuantificación INT8 nativa permite a los ingenieros implementar estos modelos con una huella de memoria significativamente menor y velocidades de inferencia más rápidas. Esto hace que el modelo 4B sea viable para entornos de producción que anteriormente requerían modelos más pequeños y menos capaces.

Conclusiones clave

Arquitectura bidireccional mediante difusión: a diferencia de los modelos estándar de solo decodificador (como el Qwen3 original), el equipo de Perplexity los convirtió en codificadores bidireccionales mediante un preentrenamiento basado en difusión. Esto permite que el modelo “vea” todo el contexto de una oración a la vez, creando representaciones semánticas más precisas para datos ruidosos a escala web. Variantes RAG especializadas: la versión proporciona dos modelos distintos para optimizar la generación aumentada de recuperación: pplx-embed-v1 está optimizado para consultas independientes y texto independiente, mientras que pplx-embed-context-v1 está diseñado específicamente para fragmentos de documentos, lo que garantiza una mejor alineación entre lo que preguntan los usuarios y cómo se almacena la información. Eficiencia lista para producción: Los modelos admiten INT8 nativo y cuantificación binaria, lo que reduce significativamente los requisitos de almacenamiento y memoria (hasta 32 veces para binario) sin una pérdida sustancial de precisión. También utilizan Matryoshka Representation Learning (MRL), lo que permite a los desarrolladores truncar las dimensiones vectoriales para ahorrar costos y mantener un alto rendimiento.

Consulte el papel, los pesos de los modelos y los detalles técnicos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 120.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.

Perplexity acaba de lanzar pplx-embed: nuevos modelos de incrustación bidireccional SOTA Qwen3 para tareas de recuperación a escala web

ByEquipo de 7 minutos

Innovaciones arquitectónicas: atención y difusión bidireccional

Optimizado para RAG: consulta versus contexto

Especificaciones técnicas y eficiencia

Conclusiones clave

By Equipo de 7 minutos

Related Post

Google AI lanza diagnóstico automático: un sistema basado en LLM de modelo de lenguaje grande para diagnosticar fallas en las pruebas de integración a escala

Las 19 principales herramientas de AI Red Teaming (2026): proteja sus modelos de aprendizaje automático

Una guía de codificación para crear un sistema de procesamiento de tareas en segundo plano de nivel de producción utilizando Huey con SQLite, programación, reintentos, canalizaciones y control de concurrencia

You missed

Qué hacer en España si tu vuelo se retrasa por huelgas

Reseña de Mr. X: un thriller ingenioso que va a lo seguro

La ciencia detrás de la moda de los péptidos

Inicio Fotos revelan las condiciones de vida antes del arresto