se ha vuelto frecuente desde la introducción de LLM en 2022. Los sistemas de generación aumentada de recuperación (RAG) se adaptaron rápidamente a la utilización de estos LLM eficientes para una mejor respuesta de preguntas. La búsqueda de IA es extremadamente poderosa porque proporciona al usuario acceso rápido a grandes cantidades de información. Usted, por ejemplo, vea los sistemas de búsqueda de IA con
- Chatgpt
- AI legal, como Cascarrabias
- Siempre que realice una búsqueda en Google y Gemini responde
Esencialmente, donde sea que tenga una búsqueda de IA, el trapo suele ser la columna vertebral. Sin embargo, buscar con IA es mucho más que simplemente usar trapo.
En este artículo, discutiré cómo realizar la búsqueda con IA y cómo puede escalar su sistema, tanto en términos de calidad como de escalabilidad.
Tabla de contenido
También puedes aprender sobre Cómo mejorar su trapo 50% con recuperación contextualo puedes leer sobre Garantizar la confiabilidad en las aplicaciones LLM.
Motivación
Mi motivación para escribir este artículo es que buscar con IA se ha convertido rápidamente en una parte estándar de nuestro día a día. Ves búsquedas de IA en todas partes, por ejemplo, cuando buscas algo en Google, y Gemini te proporciona una respuesta. Utilizar la IA de esta manera es extremadamente eficiente en el tiempo, ya que yo, como consulta, no tengo que ingresar ningún enlace, y simplemente tengo una respuesta resumida justo en frente de mí.
Por lo tanto, si está creando una aplicación, es importante saber cómo construir dicho sistema, comprender su funcionamiento interno.
Construyendo su sistema de búsqueda de IA
Hay varios aspectos vitales a considerar al construir su sistema de búsqueda. En esta sección, cubriré los aspectos más importantes.
TRAPO
Primero, necesitas construir los conceptos básicos. El componente central de cualquier búsqueda de IA suele ser un sistema de trapo. La razón de esto es que RAG es una forma extremadamente eficiente de acceder a los datos, y es relativamente simple de configurar. Esencialmente, puede hacer una búsqueda de IA bastante buena con muy poco esfuerzo, por lo que siempre recomiendo comenzar con la implementación del trapo.
Puede utilizar proveedores de trapo de extremo a extremo como Elysia; Sin embargo, si desea más flexibilidad, crear su propia tubería de trapo es a menudo una buena opción. Esencialmente, Rag consiste en los siguientes pasos centrales:
- Incorpde todos sus datos, por lo que podemos realizar cálculos de similitud de incrustación en él. Dividimos los datos en fragmentos de tamaños establecidos (por ejemplo, 500 tokens).
- Cuando un usuario ingresa una consulta, incrusimos la consulta (con el mismo motor de incrustación que se usa en el Paso 1) y encontramos los fragmentos más similares utilizando la similitud vectorial.
- Por último, alimentamos estos fragmentos, junto con la pregunta del usuario, en un LLM como GPT-4O, que nos proporciona una respuesta.
Y eso es todo. Si implementa esto, ya ha realizado una búsqueda de IA que funcionará relativamente bien en la mayoría de los escenarios. Sin embargo, si realmente desea hacer una buena búsqueda, debe incorporar técnicas de trapo más avanzadas, que Cubriré más adelante en este artículo.
Escalabilidad
La escalabilidad es un aspecto importante para construir su sistema de búsqueda. He dividido el aspecto de escalabilidad en dos áreas principales:
- El tiempo de respuesta (cuánto tiempo el usuario tiene que esperar una respuesta) debe ser lo más bajo posible.
- El tiempo de actividad (el porcentaje de tiempo que su plataforma está en funcionamiento) debe ser lo más alto posible.
Tiempo de respuesta
Debe asegurarse de responder rápidamente a las consultas de los usuarios. Con un sistema de trapo estándar, esto generalmente no es un problema, considerando:
- Su conjunto de datos está integrado de antemano (no toma tiempo durante una consulta de usuario).
- Incrustar la consulta del usuario es casi instantánea.
- Realizar la búsqueda de similitud vectorial también es casi instantánea (porque el cálculo puede ser paralelo)
Por lo tanto, el tiempo de respuesta de LLM suele ser el factor decisivo en qué tan rápido funciona su trapo. Para minimizar esta vez, debe considerar lo siguiente:
- Use un LLM con un tiempo de respuesta rápido.
- GPT-4O/GPT-4.1 fue un poco más lento, pero OpenAi ha mejorado enormemente la velocidad con GPT-5.
- El Géminis Flash 2.0 Los modelos siempre han sido muy rápido (el tiempo de respuesta aquí es ridículamente rápido).
- Mistral también proporciona un servicio LLM rápido.
- Implementar transmisiónpor lo que no tiene que esperar a que se generen todos los tokens de salida antes de mostrar una respuesta.
El último punto en la transmisión es muy importante. Como usuario, odio esperar una aplicación sin recibir ningún comentario sobre lo que está sucediendo. Por ejemplo, imagine esperar a que el agente del cursor realice una gran cantidad de cambios, sin ver nada en la pantalla antes de que se haga.
Es por eso que transmitir, o al menos proporcionar al usuario algunos comentarios mientras espera, es increíblemente importante. Resumí esto en una cita a continuación.
Por lo general, no se trata del tiempo de respuesta como un número, sino el tiempo de respuesta percibido del usuario. Si llena el tiempo de espera de los usuarios con comentarios, el usuario percibirá que el tiempo de respuesta es más rápido.
También es importante tener en cuenta que cuando se expande y mejora su búsqueda de IA, generalmente agregará más componentes. Estos componentes inevitablemente tomarán más tiempo. Sin embargo, siempre debe buscar operaciones paralelizadas. La mayor amenaza para su tiempo de respuesta es secuencial operacionesy deben reducirse a un mínimo absoluto.
Tiempo de actividad
El tiempo de actividad también es importante al organizar una búsqueda de IA. Básicamente, debe tener un servicio en funcionamiento en todo momento, lo que puede ser difícil cuando se trata de LLM impredecibles. Escribí un artículo sobre cómo garantizar la confiabilidad en las aplicaciones de LLM a continuación. Si desea obtener más información sobre cómo hacer que su aplicación sea robusta:
Estos son los aspectos más importantes a considerar para garantizar un alto tiempo de actividad para su servicio de búsqueda:
- Tener un manejo de errores para todo lo que trata con LLM. Cuando estás haciendo millones de llamadas de LLM, las cosas saldrán mal. Podría ser
- Filtrado de contenido de OpenAI
- Límites de token (que son notoriamente difíciles de aumentar en algunos proveedores)
- El servicio LLM es lento o su servidor está inactivo
- …
- Tener copias de seguridad. Dondequiera que tenga una llamada LLM, debe tener uno o dos proveedores de respaldo listos para intervenir cuando algo sale mal.
- Pruebas adecuadas antes de las implementaciones
Evaluación
Cuando está construyendo un sistema de búsqueda de IA, las evaluaciones deben ser una de sus principales prioridades. No tiene sentido continuar creando características si no puede probar su búsqueda y averiguar dónde está prosperando y dónde está luchando. He escrito dos artículos sobre este tema: Cómo desarrollar poderosos puntos de referencia internos de LLM y Cómo usar LLM para potentes evaluaciones automáticas.
En resumen, recomiendo hacer lo siguiente para evaluar su búsqueda de IA y mantener una alta calidad:
- Incorpore con una plataforma de ingeniería rápida para ver la versión de sus indicaciones, pruebe antes de que se publiquen nuevas indicaciones y ejecute experimentos a gran escala.
- Haga un análisis regular de las consultas de usuario del mes pasado. Anotar cuáles tuvieron éxito, cuáles fallaron, junto con una razón por la cual este es el caso.
Luego agruparía las consultas que salían mal por su razón. Por ejemplo:
- La intención del usuario no estaba clara
- Problemas con el proveedor de LLM
- El contexto recuperado no contenía la información necesaria para responder a la consulta.
- …
Y luego comience a trabajar en los problemas más apremiantes que están causando las consultas de usuario más fallidas.
Técnicas para mejorar su búsqueda de IA
Hay una gran cantidad de técnicas que puede utilizar para mejorar su búsqueda de IA. En esta sección, cubro algunos de ellos.
Recuperación contextual
Esta técnica se introdujo por primera vez por anthopric en 2024. También escribí un extenso artículo sobre recuperación contextual. Si quieres obtener más detalles.
La siguiente figura destaca la tubería para la recuperación contextual. Lo que hace es mantener la base de datos vectorial que tenía en su sistema RAG, pero ahora también incorpora un índice BM25 (una búsqueda de palabras clave) para buscar documentos relevantes. Esto funciona bien porque a veces los usuarios consultan con palabras clave particulares, y BM25 es más adecuado para dicha búsqueda de palabras clave, en comparación con la búsqueda de similitud vectorial.
BM25 afuera de trapo
Otra opción es bastante similar a la recuperación contextual; Sin embargo, en este caso, está realizando BM25 fuera del trapo (en recuperación contextual, realiza BM25 para obtener los documentos más importantes para el trapo). Esta también puede ser una técnica poderosa, considerando que los usuarios a veces utilizan su búsqueda de IA como una búsqueda básica de palabras clave.
Sin embargo, al implementar esto, recomiendo desarrollar un agente de enrutador que detecte si debemos utilizar RAG o BM25 directamente para responder a la consulta del usuario. Si desea obtener más información sobre la creación de agentes de enrutador de IA, o en general construir agentes efectivos, Anthopric ha escrito un extenso artículo sobre el tema.
Agentes
Los agentes son la última exageración dentro del espacio LLM. Sin embargo, no son simplemente exagerados; También se pueden usar para mejorar de manera efectiva su búsqueda de IA. Puede, por ejemplo, crear subagentes que puedan encontrar material relevante, similar a la obtención de documentos relevantes con RAG, pero en lugar de hacer que un agente mire a través de documentos completos. Así es como las herramientas de investigación profundas de OpenAi, Géminis y el trabajo antrópico, y es una forma extremadamente efectiva (aunque costosa) de realizar una búsqueda de IA. Puedes leer más sobre Cómo el antrópico construyó su investigación profunda utilizando agentes aquí.
Conclusión
En este artículo, he cubierto cómo puede construir y mejorar sus capacidades de búsqueda de IA. Primero expliqué por qué saber cómo crear tales aplicaciones es importante y por qué debe concentrarse en ello. Además, destacé cómo puede desarrollar una búsqueda de IA efectiva con trapo básico y luego mejorarla utilizando técnicas como la recuperación contextual.
👉 Encuéntrame en Socials:
✍️ Medio