En el mundo de los modelos de lenguajes grandes (LLM), la velocidad es la única característica que importa una vez que se resuelve la precisión. Para un humano, esperar 1 segundo para obtener un resultado de búsqueda está bien. Para un agente de IA que realiza 10 búsquedas secuenciales para resolver una tarea compleja, un retraso de 1 segundo por búsqueda crea un retraso de 10 segundos. Esta latencia acaba con la experiencia del usuario.
Exa, la startup del motor de búsqueda anteriormente conocida como Metaphor, acaba de lanzar Exa Instant. Es un modelo de búsqueda diseñado para proporcionar datos web del mundo a agentes de IA en menos de 200 ms. Para los ingenieros de software y científicos de datos que crean canales de recuperación-generación aumentada (RAG), esto elimina el mayor cuello de botella en los flujos de trabajo agentes.
Por qué la latencia es el enemigo de RAG
Cuando crea una aplicación RAG, su sistema sigue un bucle: el usuario hace una pregunta, su sistema busca contexto en la web y el LLM procesa ese contexto. Si el paso de búsqueda tarda entre 700 y 1000 ms, el “tiempo total hasta el primer token” se vuelve lento.
Exa Instant ofrece resultados con una latencia de entre 100 ms y 200 ms. En las pruebas realizadas en la región us-west-1 (norte de california), la latencia de la red fue de aproximadamente 50 ms. Esta velocidad permite a los agentes realizar múltiples búsquedas en un solo proceso de “pensamiento” sin que el usuario sienta un retraso.
No más Google ‘envuelto’
La mayoría de las API de búsqueda disponibles en la actualidad son “envoltorios”. Envían una consulta a un motor de búsqueda tradicional como Google o Bing, extraen los resultados y te los envían. Esto agrega capas de gastos generales.
Exa Instant es diferente. Está construido sobre una pila de recuperación y búsqueda neuronal de extremo a extremo patentada. En lugar de hacer coincidir palabras clave, Exa utiliza incrustaciones y transformadores para comprender el significado de una consulta. Este enfoque neuronal garantiza que los resultados sean relevantes para la intención de la IA, no solo para las palabras específicas utilizadas. Al poseer toda la pila, desde el rastreador hasta el motor de inferencia, Exa puede optimizar la velocidad de maneras que las API ‘contenedoras’ no pueden.
Evaluación comparativa de la velocidad
El equipo de Exa comparó Exa Instant con otras opciones populares como Tavily Ultra Fast y Brave. Para garantizar que las pruebas fueran justas y evitaran resultados “almacenados en caché”, el equipo utilizó el conjunto de datos de consulta SealQA. También agregaron palabras aleatorias generadas por GPT-5 a cada consulta para obligar al motor a realizar una nueva búsqueda cada vez.
Los resultados mostraron que Exa Instant es hasta 15 veces más rápido que la competencia. Si bien Exa ofrece otros modelos como Exa Fast y Exa Auto para un razonamiento de mayor calidad, Exa Instant es la opción clara para aplicaciones en tiempo real donde cada milisegundo cuenta.
Precios e integración de desarrolladores
La transición a Exa Instant es sencilla. Se puede acceder a la API a través de la plataforma Dashboard.exa.ai.
Costo: Exa Instant tiene un precio de $5 por cada 1000 solicitudes. Capacidad: Busca en el mismo índice masivo de la web que los modelos más potentes de Exa. Precisión: si bien está diseñado para la velocidad, mantiene una alta relevancia. Para búsquedas de entidades especializadas, el producto Websets de Exa sigue siendo el estándar de oro, demostrando ser 20 veces más correcto que Google para consultas complejas.
La API devuelve contenido limpio listo para LLM, lo que elimina la necesidad de que los desarrolladores escriban código de limpieza HTML o scraping personalizado.
Conclusiones clave
Latencia inferior a 200 ms para agentes en tiempo real: Exa Instant está optimizado para flujos de trabajo “agentes” donde la velocidad es un cuello de botella. Al ofrecer resultados en menos de 200 ms (y una latencia de red de tan solo 50 ms), permite a los agentes de IA realizar razonamientos de varios pasos y búsquedas paralelas sin el retraso asociado con los motores de búsqueda tradicionales. Pila neuronal patentada frente a ‘envoltorios’: a diferencia de muchas API de búsqueda que simplemente ‘envuelven’ Google o Bing (agregando más de 700 ms de sobrecarga), Exa Instant se basa en un motor de búsqueda neuronal patentado de extremo a extremo. Utiliza una arquitectura personalizada basada en transformadores para indexar y recuperar datos web, ofreciendo un rendimiento hasta 15 veces más rápido que las alternativas existentes como Tavily o Brave. Escalamiento rentable: el modelo está diseñado para hacer de la búsqueda un lujo “primitivo” en lugar de un lujo costoso. Tiene un precio de 5 dólares por cada 1.000 solicitudes, lo que permite a los desarrolladores integrar búsquedas web en tiempo real en cada paso del proceso de pensamiento de un agente sin salirse del presupuesto. Intención semántica sobre palabras clave: Exa Instant aprovecha las incrustaciones para priorizar el “significado” de una consulta en lugar de las coincidencias exactas de palabras. Esto es particularmente efectivo para aplicaciones RAG (Recuperación-Generación Aumentada), donde encontrar contenido “digno de enlace” que se ajuste al contexto de un LLM es más valioso que simples palabras clave. Optimizado para el consumo de LLM: la API proporciona más que solo URL; Ofrece HTML limpio y analizado, Markdown y aspectos destacados con token eficiente. Esto reduce la necesidad de scripts de scraping personalizados y minimiza la cantidad de tokens que el LLM necesita procesar, lo que acelera aún más todo el proceso.
Consulta los detalles técnicos. Además, no dude en seguirnos en Twitter y no olvide unirse a nuestro SubReddit de más de 100.000 ML y suscribirse a nuestro boletín. ¡Esperar! estas en telegrama? Ahora también puedes unirte a nosotros en Telegram.