Zerosearch de Alibaba utiliza el aprendizaje de refuerzo y los documentos simulados para enseñar la recuperación de LLMS sin búsqueda en tiempo real

Los modelos de idiomas grandes ahora son fundamentales para diversas aplicaciones, desde la codificación hasta la tutoría académica y los asistentes automatizados. Sin embargo, una limitación crítica persiste en cómo se diseñan estos modelos; Están capacitados en conjuntos de datos estáticos que se vuelven anticuados con el tiempo. Esto crea un desafío fundamental porque los modelos de idioma no pueden actualizar su conocimiento o validar las respuestas contra datos frescos del mundo real. Como resultado, si bien estos modelos demuestran un fuerte rendimiento en las tareas de razonamiento o consultas estructuradas, sus respuestas aún pueden incluir información fabricada u obsoleta, reduciendo su confiabilidad en el uso del mundo real. Para mantener la credibilidad, especialmente para las aplicaciones que requieren conocimientos actualizados, como noticias, investigaciones o revisiones de productos, los modelos deben interactuar con fuentes de datos externas de manera oportuna y rentable.

El problema central radica en enseñar a estos modelos a recuperar e incorporar efectivamente información externa. Si bien el pretratenamiento ajustado ayuda a desarrollar una fuerte comprensión de referencia, falta la capacidad de realizar búsquedas dinámicas significativas. Equipar modelos de lenguaje con esta habilidad introduce restricciones prácticas. Los motores de búsqueda utilizados para la recuperación de información externa proporcionan una calidad de documento variable que introduce una inconsistencia en la capacitación de modelos. Además, la integración del aprendizaje de refuerzo para simular la búsqueda del mundo real requiere interacciones a gran escala con API en vivo, con cientos de miles de llamadas, lo que se vuelve prohibitivamente costoso. Esto da como resultado un cuello de botella para la investigación académica y el despliegue comercial, donde la escalabilidad de costos y capacitación es crítica.

Se han desarrollado varios métodos para mejorar las capacidades de búsqueda y recuperación de modelos de lenguaje. Algunas técnicas tempranas se basaron en instrucciones indicadas que guiaron el modelo a través de procesos como generar subteres o administrar búsquedas de múltiples pasos. Sin embargo, estos métodos se basaron en gran medida en la ajuste manual y, a menudo, requerían recursos computacionales extensos para garantizar resultados consistentes. Otros enfoques se apoyaron en el ajuste fino supervisado para modelos más pequeños para realizar una recuperación más específica, con modelos comoTRAPO y retroceder emergiendo en este espacio. También ha habido experimentos con técnicas como la búsqueda de árboles de Monte Carlo para expandir posibles rutas de respuesta durante la inferencia dinámicamente. Las soluciones basadas en el aprendizaje de refuerzo como Search-R1 y DeepResearcher permitieron a los modelos interactuar directamente con motores de búsqueda reales, ofreciendo una experiencia de capacitación más cercana a cómo se comportan los usuarios. Sin embargo, estas innovaciones aún sufren de complejidad, alta demanda computacional o costo financiero debido a limitaciones de interacción en vivo.

Investigadores del laboratorio tongyi en Alibaba Group introdujeron una solución innovadora llamada ZEROSEARCH. Este marco de aprendizaje de refuerzo elimina la necesidad de una búsqueda en vivo basada en API por completo. En su lugar, utiliza otro modelo de idioma para simular el comportamiento de un motor de búsqueda. El modelo de simulación se ajusta a través de una capacitación supervisada para generar documentos que ayuden o engañen al modelo de política, dependiendo de si el contenido está diseñado para ser relevante o ruidoso. Esto permite un control completo sobre la calidad y el costo del documento al tiempo que permite una experiencia de capacitación de recuperación realista. Una innovación clave radica en el uso del aprendizaje basado en el plan de estudios durante la capacitación, lo que significa introducir gradualmente tareas de recuperación más difíciles ajustando cuánto ruido está presente en los documentos generados. Esta progresión ayuda al modelo de política a desarrollar resiliencia y mejores habilidades de razonamiento con el tiempo sin hacer una consulta de búsqueda real.

La estructura de Zerosearch implica fases distintas en el proceso de razonamiento. El modelo primero piensa internamente usando etiquetas designadas, luego genera consultas si determina que se necesita información adicional. Finalmente, genera una respuesta solo cuando se adquiere un contexto suficiente. Este enfoque estructurado impone claridad en la toma de decisiones y se ha demostrado que mejora la transparencia y la calidad de las respuestas. Un cambio mínimo en la generación de documentos de guías de indicaciones para el motor de búsqueda simulado que controla si el documento parece útil o engañoso. El LLM simulado se ajusta a los datos de interacción donde cada trayectoria de recuperación está etiquetada en función de la corrección de la respuesta final. El modelo de política se enseña a manejar condiciones de búsqueda directas y complejas variando sistemáticamente la calidad del documento. Una función de escala de rendimiento determina cuánto ruido se introduce en cada etapa de entrenamiento, aumentando la capacidad del modelo para navegar por la incertidumbre con el tiempo.

Un modelo de parámetros de 3 mil millones pudo simular el proceso de recuperación para fines de capacitación de manera efectiva. Los resultados se volvieron particularmente notables con modelos más grandes. Se realizó un módulo de recuperación de 7B a un nivel comparable a la búsqueda de Google con respecto a la calidad de la respuesta. Un modelo de 14B incluso superó los puntos de referencia de búsqueda de Google. Zerosearch también mostró flexibilidad, funcionando de manera efectiva a través de LLM de base y instrucciones de diferentes tamaños. Se integra bien con una gama de algoritmos de aprendizaje de refuerzo, incluidos PPO, GRPO y Reforze ++, y utiliza un diseño de recompensa basado en el puntaje F1 en lugar de una coincidencia exacta para desalentar el modelo de generar respuestas excesivamente largas solo para aumentar la superposición de palabras clave. Además, Zerosarch utiliza un mecanismo de enmascaramiento durante la propagación de retroceso para garantizar que los gradientes solo se calculen en las salidas del modelo de política, estabilizando la capacitación sin sacrificar el rendimiento.

La investigación demuestra una alternativa clara y eficiente a la dependencia del motor de búsqueda en tiempo real. El uso de la generación de documentos basada en la simulación elimina la necesidad de API de alto costo, y la calidad de la entrada de entrenamiento se controla con precisión. El método también aumenta la capacidad de razonamiento del modelo al introducir el ruido progresivo y la incertidumbre, imitando efectivamente cómo la recuperación de datos del mundo real podría fallar o engañar. El modelo de política está capacitado para extraer la información más útil. Estos rasgos hacen que Zerosarch sea una solución escalable y práctica para aplicaciones de grado comercial.

Este enfoque identifica y aborda con éxito los desafíos gemelos de la variabilidad de la calidad del documento y el costo económico que tienen una integración de búsqueda en tiempo real limitada en la capacitación del modelo de idioma. Combina la simulación de documentos, la interacción estructurada y el aprendizaje de refuerzo para garantizar la efectividad y la escalabilidad. Al confiar únicamente en la generación de datos simulados, los investigadores lograron resultados superiores o comparables a los métodos existentes al tiempo que eliminan toda la dependencia de las API costosas.

Varias conclusiones clave de la investigación incluyen lo siguiente:

Un modelo 3B simuló la recuperación de documentos realistas efectivamente con el costo de la API cero.
Un módulo de recuperación de 7B coincidió con el rendimiento de búsqueda de Google en pruebas de referencia.
El modelo 14B excedió el rendimiento real del motor de búsqueda.
El aprendizaje de refuerzo se realizó con un despliegue basado en el plan de estudios que introdujo gradualmente el ruido.
Una simulación LLM generó documentos relevantes y ruidosos a través del ajuste fino supervisado liviano.
Fases de interacción estructuradas (, , ) Mejora de la claridad y precisión del modelo.
Las recompensas basadas en F1 desanimaron la piratería de recompensas al penalizar la duración de la respuesta irrelevante.
Compatible con los principales algoritmos RL que incluyen PPO, GRPO y Reforce ++.
El entrenamiento se estabilizó utilizando un mecanismo de enmascaramiento de gradiente para evitar la inestabilidad de los tokens simulados.

Mira el Papel y Modelo en la cara abrazada. Además, no olvides seguirnos Gorjeo.

Aquí hay una breve descripción de lo que estamos construyendo en MarkTechPost:

Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.

Zerosearch de Alibaba utiliza el aprendizaje de refuerzo y los documentos simulados para enseñar la recuperación de LLMS sin búsqueda en tiempo real

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

El equipo Qwen de Alibaba lanza Qwen3.7-Plus, agregando visión, razonamiento profundo, invocación de herramientas e iteración autónoma en la plataforma Bailian

JetBrains lanza Mellum2: un modelo de 12 mil millones de MoE para tareas rápidas y especializadas en canalizaciones de IA multimodelo

Son las lecciones que aprendimos a lo largo del camino. ¿O lo es?

You missed

Cómo el error humano se convirtió en un arma contra los grandes modelos lingüísticos

La agenda de Trump se estanca

Esta empresa de compras está financiando la mutilación de animales al nivel de Frankenstein

Por qué el crudo a 100 dólares es el escenario base