Esta semana, Liquid AI lanzó dos nuevos modelos de recuperación. Son LFM2.5-ColBERT-350M y LFM2.5-Embedding-350M. Ambos tienen parámetros de 350M. Ambos son los primeros miembros bidireccionales de la familia LFM. Se basan en LFM2.5-350M-Base, lanzado en marzo. El par apunta a búsquedas rápidas multilingües y entre idiomas en 11 idiomas. Su huella es lo suficientemente pequeña como para funcionar en casi cualquier lugar. Ambos están disponibles ahora en Hugging Face bajo la licencia abierta LFM v1.0.
Perros perdigueros LFM2.5
Los dos modelos comparten una columna vertebral pero representan el texto de manera diferente. LFM2.5-Embedding-350M es un bicodificador denso. Convierte cada documento en un único vector. Elíjalo cuando desee la búsqueda más rápida y el índice más pequeño y económico.
LFM2.5-ColBERT-350M es un modelo de interacción tardía. Convierte cada token en un vector en lugar de un vector por documento. Esto le permite hacer coincidir las consultas palabra por palabra para una mayor precisión y una mejor generalización. La compensación es un índice más grande. Elíjalo cuando la precisión importe más que el almacenamiento. La longitud de su consulta tiene un límite de 32 tokens. También puede reclasificar los resultados de un recuperador de primera etapa sin crear un índice.
Ambos apuntan a búsquedas de contexto corto. Las buenas opciones incluyen catálogos de productos, bases de conocimientos de preguntas frecuentes y documentos de soporte. Liquid AI posiciona a ambos como un reemplazo directo para un oleoducto RAG existente.
El cambio de arquitectura: causal a bidireccional
Ambos modelos parten de LFM2.5-350M-Base, un punto de control de uso general con entrenamiento medio. Liquid AI aplica un pequeño conjunto de parches bidireccionales a la arquitectura LFM2. Estos lo adaptan de un decodificador causal a un codificador bidireccional.
En una configuración causal, cada token usa solo él mismo y los tokens anteriores. Eso se adapta a la generación de izquierda a derecha, pero es menos natural para la recuperación. El equipo reemplaza la máscara de atención causal por una bidireccional. Ahora cada token puede atender tanto al contexto izquierdo como al derecho. También hacen que las convoluciones cortas de LFM2 no sean causales. Estos mezclan información local simétricamente alrededor de cada token, no solo del pasado.
Esto preserva la eficiencia de la red troncal LFM2 al mismo tiempo que produce las necesidades de recuperación de representaciones de contexto completo. Cada modelo tiene 17 capas: 10 de convolución, 6 de atención y 1 de agrupación o densa. La longitud del contexto alcanza los 32.768 tokens, aunque los documentos están ajustados a 512 tokens. Desde el codificador compartido, los dos modelos se diferencian sólo en la salida. La incrustación utiliza una agrupación de estilo CLS para un vector de 1024 dimensiones. ColBERT mantiene incrustaciones de 128 atenuaciones por token para la interacción tardía de MaxSim.
Entrenamiento y datos
Ambos modelos siguen la misma receta de tres etapas:
La primera etapa es el preentrenamiento contrastivo a gran escala en inglés. La segunda etapa es la destilación multilingüe y entre idiomas de un maestro sólido en los 11 idiomas. La tercera etapa es el ajuste final de los aspectos negativos más duros.
El modelo de incrustación recibe un poco más de datos multilingües que ColBERT. La recuperación multilingüística surge de forma más natural en la configuración de interacción tardía. Los datos de capacitación combinan datos internos seleccionados con conjuntos de datos de recuperación en inglés de código abierto. La traducción basada en LLM amplía los pares multilingües y multilingües.
Punto de referencia
Liquid AI evaluó dos capacidades. El primero es la recuperación multilingüe con NanoBEIR. El segundo es el control de calidad de dominio abierto en varios idiomas con MKQA-11. Ambos informan resultados en los 11 idiomas: árabe, alemán, inglés, español, francés, italiano, japonés, coreano, noruego, portugués y sueco.
En promedio, ambos modelos lideran su clase. Aquí están los detalles de la comparación:
ColBERT lidera en ambos promedios. La incrustación le sigue de cerca en MKQA-11 con 0,691. Ambos superaron a Qwen3-Embedding-0.6B, un modelo más grande. El nuevo ColBERT también mejora el anterior LFM2-ColBERT-350M, de 0,540 a 0,605 en NanoBEIR. Liquid AI también señala que NanoBEIR English rastrea el BEIR completo más caro. Los dos permanecen altamente correlacionados, con NanoBEIR obteniendo un puntaje casi constante de ~15% más alto. Por lo tanto, el equipo de investigación utiliza NanoBEIR como un proxy práctico durante los entrenamientos.
Latencia e implementación de borde
Liquid AI lanzó variantes GGUF para llama.cpp. Estos permiten que ambos modelos se ejecuten en CPU, computadoras portátiles y dispositivos periféricos. Las siguientes figuras utilizan una MacBook Pro M4 Max en FP16. Las consultas son 32 tokens; Los documentos son 256 fichas.
Cuando las incrustaciones de documentos se calculan previamente, la latencia de consulta media (p50) se mantiene por debajo de 10 ms. La codificación de documentos en el momento de la consulta lleva ColBERT a 34,3 ms. Para escala empresarial, Liquid AI también creó una pila de GPU interna. En un H100 en FP16, observa latencias tan bajas como 1 ms. La latencia de consulta de incorporación es de 1,5 ms p50.
Casos de uso con ejemplos
Comercio electrónico: busque en un catálogo de productos en muchos idiomas con un solo índice. Un comprador escribe una consulta en coreano y el sistema muestra una lista de productos en inglés. La recuperación multilingüe hace que esto funcione sin índices por idioma. Preguntas frecuentes y bases de conocimientos de soporte: obtenga la respuesta correcta de manera confiable en las superficies de atención al cliente. Una pregunta de soporte en francés se corresponde con un artículo de ayuda en inglés. Búsqueda semántica en el dispositivo: busque archivos, correos electrónicos y notas localmente en el hardware del consumidor. La compilación GGUF mantiene los datos en el dispositivo a un costo casi nulo. Asistentes de conocimiento empresarial: recupere documentos legales, financieros y técnicos internos en todos los idiomas. ColBERT se adapta a esto cuando la precisión de la respuesta supera el tamaño del índice.
Código: Primeros pasos
El modelo de incrustación se ejecuta a través de transformadores de oraciones. Pase siempre los mensajes asimétricos, consulta: y documento:. Omitirlos silenciosamente degrada la calidad de la recuperación.
documentos = [“Paris is the capital and largest city of France.”]
q_emb = model.encode(consultas, Prompt_name=”consulta”, normalize_embeddings=True) d_emb = model.encode(documentos, Prompt_name=”documento”, normalize_embeddings=True) puntuaciones = q_emb @ d_emb.T # forma: (n_queries, n_documents)
El modelo ColBERT se ejecuta a través de PyLate. Su índice PLAID utiliza FastPLAID para una búsqueda eficiente de similitudes.
En su lugar, para cambiar la clasificación de una canalización de primera etapa existente, omita el índice y use ranking.rerank.
documentos = [[“candidate doc 1”, “candidate doc 2”]]documentos_ids = [[1, 2]]q_emb = model.encode(consultas, is_query=True) d_emb = model.encode(documentos, is_query=False) reclasificado = ranking.rerank( document_ids=documents_ids, queries_embeddings=q_emb, document_embeddings=d_emb, )
También puede ajustar cualquiera de los modelos con sus propios datos. La tarjeta de incrustación proporciona fragmentos que utilizan transformadores de oraciones y MultipleNegativesRankingLoss.
Conclusiones clave
LFM2.5-ColBERT-350M y LFM2.5-Embedding-350M de Liquid AI son los primeros LFM bidireccionales, diseñados para búsquedas multilingües en 11 idiomas. Ambos modelos 350M lideran su clase en NanoBEIR y MKQA-11, superando al Qwen3-Embedding-0.6B más grande. La incrustación proporciona el índice más pequeño y económico; ColBERT intercambia un índice más grande por una mayor precisión por token. Las compilaciones de GGUF se ejecutan en CPU, computadoras portátiles y dispositivos perimetrales a través de llama.cpp, con una latencia de consulta p50 en caché inferior a 10 ms. Se introducen en los canales RAG existentes a través de transformadores de oraciones y PyLate, bajo la licencia abierta LFM v1.0.