Perplexity ha lanzado pplx-embed, una colección de modelos de integración multilingües optimizados para tareas de recuperación a gran escala. Estos modelos están diseñados para manejar el ruido y la complejidad de los datos a escala web, proporcionando una alternativa lista para producción a las API integradas patentadas.
Innovaciones arquitectónicas: atención y difusión bidireccional
La mayoría de los modelos de lenguajes grandes (LLM) utilizan arquitecturas causales de solo decodificador. Sin embargo, para las tareas de integración, comprender el contexto completo de una oración es más fundamental que predecir el siguiente token. El equipo de investigación de la perplejidad abordó esto implementando atención bidireccional. Esto permite que el modelo procese todos los tokens en una secuencia simultáneamente, lo que da como resultado una representación del estado oculto más completa.
Además, los modelos utilizan preentrenamiento basado en difusión. Si bien la difusión se utiliza con frecuencia en medios generativos, aplicarla a incrustaciones de texto ayuda al modelo a aprender a reconstruir señales semánticas limpias a partir de entradas ruidosas o fragmentadas. Esta fase de preentrenamiento garantiza que el modelo sea resistente al procesar el texto sin formato que a menudo se encuentra en la web abierta.
Optimizado para RAG: consulta versus contexto
Un desafío común en la generación aumentada de recuperación (RAG) es la “asimetría” entre la consulta de búsqueda corta de un usuario y un fragmento de documento largo. El equipo de Perplexity aborda esto proporcionando dos versiones de modelos especializados:
pplx-embed-v1: optimizado para incrustaciones de texto independientes y consultas de búsqueda. pplx-embed-context-v1: optimizado específicamente para fragmentos de documentos utilizados como base de conocimientos en canalizaciones RAG.
Al separar estos roles, los modelos alinean mejor el espacio vectorial entre lo que pregunta un usuario y la información específica almacenada en una base de datos. Estos modelos han sido validados en escenarios de búsqueda del mundo real que involucran decenas de millones de documentos.
Especificaciones técnicas y eficiencia
Los modelos están disponibles en dos escalas de parámetros para equilibrar el rendimiento y el costo computacional:
La inclusión de la cuantificación INT8 nativa permite a los ingenieros implementar estos modelos con una huella de memoria significativamente menor y velocidades de inferencia más rápidas. Esto hace que el modelo 4B sea viable para entornos de producción que anteriormente requerían modelos más pequeños y menos capaces.
Conclusiones clave
Arquitectura bidireccional mediante difusión: a diferencia de los modelos estándar de solo decodificador (como el Qwen3 original), el equipo de Perplexity los convirtió en codificadores bidireccionales mediante un preentrenamiento basado en difusión. Esto permite que el modelo “vea” todo el contexto de una oración a la vez, creando representaciones semánticas más precisas para datos ruidosos a escala web. Variantes RAG especializadas: la versión proporciona dos modelos distintos para optimizar la generación aumentada de recuperación: pplx-embed-v1 está optimizado para consultas independientes y texto independiente, mientras que pplx-embed-context-v1 está diseñado específicamente para fragmentos de documentos, lo que garantiza una mejor alineación entre lo que preguntan los usuarios y cómo se almacena la información. Eficiencia lista para producción: Los modelos admiten INT8 nativo y cuantificación binaria, lo que reduce significativamente los requisitos de almacenamiento y memoria (hasta 32 veces para binario) sin una pérdida sustancial de precisión. También utilizan Matryoshka Representation Learning (MRL), lo que permite a los desarrolladores truncar las dimensiones vectoriales para ahorrar costos y mantener un alto rendimiento.
Consulte el papel, los pesos de los modelos y los detalles técnicos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 120.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.