Cómo escalar su búsqueda de IA para manejar consultas de 10 m con 5 técnicas poderosas

se ha vuelto frecuente desde la introducción de LLM en 2022. Los sistemas de generación aumentada de recuperación (RAG) se adaptaron rápidamente a la utilización de estos LLM eficientes para una mejor respuesta de preguntas. La búsqueda de IA es extremadamente poderosa porque proporciona al usuario acceso rápido a grandes cantidades de información. Usted, por ejemplo, vea los sistemas de búsqueda de IA con

Chatgpt
AI legal, como Cascarrabias
Siempre que realice una búsqueda en Google y Gemini responde

Esencialmente, donde sea que tenga una búsqueda de IA, el trapo suele ser la columna vertebral. Sin embargo, buscar con IA es mucho más que simplemente usar trapo.

En este artículo, discutiré cómo realizar la búsqueda con IA y cómo puede escalar su sistema, tanto en términos de calidad como de escalabilidad.

Esta infografía destaca el contenido de este artículo. Discutiré sistemas utilizando búsqueda de IA, trapo, escalabilidad y evaluación a lo largo del artículo. Imagen de Chatgpt.

Tabla de contenido

También puedes aprender sobre Cómo mejorar su trapo 50% con recuperación contextualo puedes leer sobre Garantizar la confiabilidad en las aplicaciones LLM.

Motivación

Mi motivación para escribir este artículo es que buscar con IA se ha convertido rápidamente en una parte estándar de nuestro día a día. Ves búsquedas de IA en todas partes, por ejemplo, cuando buscas algo en Google, y Gemini te proporciona una respuesta. Utilizar la IA de esta manera es extremadamente eficiente en el tiempo, ya que yo, como consulta, no tengo que ingresar ningún enlace, y simplemente tengo una respuesta resumida justo en frente de mí.

Por lo tanto, si está creando una aplicación, es importante saber cómo construir dicho sistema, comprender su funcionamiento interno.

Construyendo su sistema de búsqueda de IA

Hay varios aspectos vitales a considerar al construir su sistema de búsqueda. En esta sección, cubriré los aspectos más importantes.

TRAPO

Esta figura muestra el plan de NVIDIA para RAG, utilizando sus herramientas y modelos internos. Hay mucha información en la figura, pero el punto principal es que el trapo obtiene los documentos más importantes que usan similitud vectorial y los alimenta a una LLM para una respuesta a la pregunta del usuario. Imagen de https://github.com/nvidia-ai-blueprints/rag (Licencia Apache 2.0)

Primero, necesitas construir los conceptos básicos. El componente central de cualquier búsqueda de IA suele ser un sistema de trapo. La razón de esto es que RAG es una forma extremadamente eficiente de acceder a los datos, y es relativamente simple de configurar. Esencialmente, puede hacer una búsqueda de IA bastante buena con muy poco esfuerzo, por lo que siempre recomiendo comenzar con la implementación del trapo.

Puede utilizar proveedores de trapo de extremo a extremo como Elysia; Sin embargo, si desea más flexibilidad, crear su propia tubería de trapo es a menudo una buena opción. Esencialmente, Rag consiste en los siguientes pasos centrales:

Incorpde todos sus datos, por lo que podemos realizar cálculos de similitud de incrustación en él. Dividimos los datos en fragmentos de tamaños establecidos (por ejemplo, 500 tokens).
Cuando un usuario ingresa una consulta, incrusimos la consulta (con el mismo motor de incrustación que se usa en el Paso 1) y encontramos los fragmentos más similares utilizando la similitud vectorial.
Por último, alimentamos estos fragmentos, junto con la pregunta del usuario, en un LLM como GPT-4O, que nos proporciona una respuesta.

Y eso es todo. Si implementa esto, ya ha realizado una búsqueda de IA que funcionará relativamente bien en la mayoría de los escenarios. Sin embargo, si realmente desea hacer una buena búsqueda, debe incorporar técnicas de trapo más avanzadas, que Cubriré más adelante en este artículo.

Escalabilidad

La escalabilidad es un aspecto importante para construir su sistema de búsqueda. He dividido el aspecto de escalabilidad en dos áreas principales:

El tiempo de respuesta (cuánto tiempo el usuario tiene que esperar una respuesta) debe ser lo más bajo posible.
El tiempo de actividad (el porcentaje de tiempo que su plataforma está en funcionamiento) debe ser lo más alto posible.

Tiempo de respuesta

Debe asegurarse de responder rápidamente a las consultas de los usuarios. Con un sistema de trapo estándar, esto generalmente no es un problema, considerando:

Su conjunto de datos está integrado de antemano (no toma tiempo durante una consulta de usuario).
Incrustar la consulta del usuario es casi instantánea.
Realizar la búsqueda de similitud vectorial también es casi instantánea (porque el cálculo puede ser paralelo)

Por lo tanto, el tiempo de respuesta de LLM suele ser el factor decisivo en qué tan rápido funciona su trapo. Para minimizar esta vez, debe considerar lo siguiente:

Use un LLM con un tiempo de respuesta rápido.
- GPT-4O/GPT-4.1 fue un poco más lento, pero OpenAi ha mejorado enormemente la velocidad con GPT-5.
- El Géminis Flash 2.0 Los modelos siempre han sido muy rápido (el tiempo de respuesta aquí es ridículamente rápido).
- Mistral también proporciona un servicio LLM rápido.
Implementar transmisiónpor lo que no tiene que esperar a que se generen todos los tokens de salida antes de mostrar una respuesta.

El último punto en la transmisión es muy importante. Como usuario, odio esperar una aplicación sin recibir ningún comentario sobre lo que está sucediendo. Por ejemplo, imagine esperar a que el agente del cursor realice una gran cantidad de cambios, sin ver nada en la pantalla antes de que se haga.

Es por eso que transmitir, o al menos proporcionar al usuario algunos comentarios mientras espera, es increíblemente importante. Resumí esto en una cita a continuación.

Por lo general, no se trata del tiempo de respuesta como un número, sino el tiempo de respuesta percibido del usuario. Si llena el tiempo de espera de los usuarios con comentarios, el usuario percibirá que el tiempo de respuesta es más rápido.

También es importante tener en cuenta que cuando se expande y mejora su búsqueda de IA, generalmente agregará más componentes. Estos componentes inevitablemente tomarán más tiempo. Sin embargo, siempre debe buscar operaciones paralelizadas. La mayor amenaza para su tiempo de respuesta es secuencial operacionesy deben reducirse a un mínimo absoluto.

Tiempo de actividad

El tiempo de actividad también es importante al organizar una búsqueda de IA. Básicamente, debe tener un servicio en funcionamiento en todo momento, lo que puede ser difícil cuando se trata de LLM impredecibles. Escribí un artículo sobre cómo garantizar la confiabilidad en las aplicaciones de LLM a continuación. Si desea obtener más información sobre cómo hacer que su aplicación sea robusta:

Cómo escalar su búsqueda de IA para manejar consultas de 10 m con 5 técnicas poderosas

ByEquipo de 7 minutos

Tabla de contenido

Motivación

Construyendo su sistema de búsqueda de IA

TRAPO

Escalabilidad

Evaluación

Técnicas para mejorar su búsqueda de IA

Recuperación contextual

BM25 afuera de trapo

Agentes

Conclusión

By Equipo de 7 minutos

Related Post

¿Qué tan poderoso es Claude Fable (Mythos) 5 para la codificación?

Perplexity lanza Brain, un sistema de memoria de mejora automática que crea un gráfico contextual del trabajo de un agente y aprende de la noche a la mañana

MIT en los medios: Para el futuro de la tecnología, “Massachusetts puede liderar absolutamente” | Noticias del MIT

You missed

Las ondas que se reflejan en el núcleo de la Tierra desplazaron a Japón después del terremoto de 2011

Elche empieza a cerrar los aparcamientos ilegales en el aeropuerto – El Líder

Estas ballenas jorobadas rara vez salen de Omán: una acaba de hacer un viaje sorprendente a la India

Vance, escéptico ante las guerras extranjeras, se convierte en el rostro del acuerdo tentativo de Trump para poner fin a la guerra con Irán