Enterprise AI sin quemaduras de GPU: XGen-Small de Salesforce optimiza para el contexto, el costo y la privacidad

El procesamiento del lenguaje en entornos empresariales enfrenta desafíos críticos a medida que los flujos de trabajo comerciales dependen cada vez más de sintetizar información de diversas fuentes, incluida la documentación interna, los repositorios de código, los informes de investigación y los flujos de datos en tiempo real. Si bien los avances recientes en modelos de idiomas grandes han ofrecido capacidades impresionantes, este progreso viene con inconvenientes significativos: los costos por solicitud, los requisitos constantes de actualización de hardware y el aumento de los riesgos de privacidad de los datos.

La búsqueda de arquitecturas de modelos cada vez mayores ha demostrado rendimientos decrecientes, con las demandas de energía aceleradas potencialmente restringir el desarrollo futuro de la IA. Las empresas modernas ahora requieren soluciones equilibradas que ofrecen una comprensión integral de contexto largo mientras mantienen un procesamiento eficiente, capacidades de servicio predecibles de bajo costo y garantías de privacidad sólidas, una combinación que modelos de lenguaje pequeño están posicionados de manera única para proporcionar a pesar de la compleja inferencia de alto volumen, exige características de las aplicaciones comerciales actuales.

Los enfoques tradicionales para extender las capacidades del modelo de lenguaje más allá de sus limitaciones de contexto inherentes se han basado en varios métodos de solución. Generación de recuperación de la recuperación (TRAPO) Los sistemas extraen información relevante de bases de conocimiento externos para complementar las entradas del modelo. Las llamadas de herramienta externa permiten a los modelos acceder a funciones especializadas fuera de sus parámetros. Los mecanismos de memoria persisten artificialmente la información de la conversación. Mientras que funcionan, estas técnicas representan soluciones frágiles de “costura” que agregan complejidad y posibles puntos de falla para procesar tuberías.

Las extensiones de ventanas de contexto en modelos más grandes intentaron abordar estas limitaciones, pero introdujeron una sobrecarga computacional significativa. Cada método reconoce fundamentalmente la misma necesidad crítica: capacidades genuinas de procesamiento de contexto largo que permiten a los modelos manejar documentos completos, conversaciones sostenidas, repositorios de código e informes de investigación en un solo pase directo en lugar de a través del procesamiento fragmentado. Estos enfoques de StopGap destacan por qué el contexto extendido nativo es esencial: elimina la complejidad arquitectónica al tiempo que mantiene la coherencia de la información durante el procesamiento.

Se ha desarrollado la investigación de Salesforce AI pisón xgenun modelo de lenguaje compacto listo para la empresa para un procesamiento eficiente de contexto largo. Esta solución combina la curación de datos centrada en el dominio, las técnicas de pretruña escalables, la extensión de longitud, las instrucciones ajustadas y el aprendizaje de refuerzo para ofrecer capacidades de IA empresariales de alto rendimiento con bajos costos predecibles, abordando el equilibrio crítico que las empresas requieren entre la capacidad y la eficiencia operativa.

La arquitectura de Xgen-Small emplea una estrategia “pequeña pero larga” que invertida fundamentalmente el paradigma de escala tradicional. En lugar de aumentar los recuentos de parámetros, este enfoque reduce deliberadamente el tamaño del modelo mientras refina con precisión las distribuciones de datos hacia dominios y protocolos de entrenamiento relevantes para la empresa. Esta filosofía arquitectónica exige una experiencia integral en múltiples etapas de desarrollo y componentes que trabajan en concierto a través de una tubería integrada verticalmente.

El marco comienza con una curación meticulosa de datos sin procesar seguido de un pre-entrenamiento escalable optimizado para un procesamiento eficiente. Los mecanismos sofisticados de extensión de longitud permiten que el modelo compacto maneje contextos extensos, mientras que las técnicas de aprendizaje de post-entrenamiento y refuerzo específicas mejoran el rendimiento en tareas específicas de la empresa. Esta arquitectura ofrece ventajas estratégicas para aplicaciones comerciales al proporcionar una eficiencia de costo, salvaguardas de privacidad sólidas y comprensión de contexto a largo plazo sin los requisitos de recursos de modelos más grandes, creando una vía sostenible para implementar IA empresarial a escala con características operativas predecibles.

La tubería de desarrollo de XGen-Small integra múltiples etapas en un flujo de trabajo simplificado. Comenzando con un corpus multimillonario, el proceso aplica controles de filtrado y calidad rigurosos antes de la capacitación de TPU a gran escala con horarios de aprendizaje optimizados. Las técnicas de extensión de longitud dirigida amplían la capacidad de contexto, mientras que las capacidades del modelo de refinado de refinado de refuerzo de refuerzo y refuerzo específicos de recompensas específicos de tareas.

La curación de datos para XGen-Small comenzó con la cosecha de un corpus sustancialmente mayor que los últimos ocho billones de tokens de entrenamiento. La tubería aplicó filtros heurísticos rápidos para eliminar el spam, seguido de una evaluación de calidad de dos etapas utilizando conjuntos de clasificadores. Hashing exacto y huellas digitales borrosas eliminadas casi duplicadas, mientras que el equilibrio cuidadoso de los datos generales con contenido especializado para código, matemáticas y rendimiento optimizado del lenguaje natural. Extensos estudios de ablación refinaron este enfoque de curación para maximizar la precisión objetiva y la utilidad general.

El entrenamiento previo de XGen-Small utiliza las vainas TPU V5P con la biblioteca Jaxformer V8, la implementación de FSDP, la atención paralela de secuencia y los núcleos de salpicaduras para obtener la máxima eficiencia. El cronograma de tasa de aprendizaje de múltiples fases optimiza la dinámica de capacitación. Al mismo tiempo, una mezcla de datos cuidadosamente equilibrada combina los corpus de código, ejemplos de lenguaje natural, textos matemáticos y contenido filtrado de alta calidad para capturar tanto la diversidad como la experiencia en el dominio.

XGen-Small demuestra un rendimiento competitivo contra las líneas de base líderes en su clase de tamaño. La combinación estratégica de diversos tipos de datos, que incluye un código de baja entropía, lenguaje natural de alta entropía, contenido matemático y subconjuntos de alta calidad filtrados con clasificadores, entrega resultados excepcionales a través de las métricas de evaluación mientras se mantiene la arquitectura compacta y eficiente del modelo. Este enfoque equilibra con éxito la eficiencia de procesamiento con capacidades de rendimiento sólidas requeridas para aplicaciones empresariales.

Las evaluaciones de rendimiento demuestran las excepcionales capacidades de contexto largo de XGen-Small, con el modelo 9B logrando resultados de última generación en el punto de referencia de la regla y el modelo 4B que asegura el segundo lugar en su clase. A diferencia de los competidores cuyo rendimiento se degrada significativamente en longitudes de contexto extendidas, XGEN mantiene un rendimiento constante de 4K a 128k tokens. Esta estabilidad proviene de una estrategia de extensión de longitud sofisticada que utiliza una extensión de dos etapas (32k y luego 128k), capacitación de longitud excesiva a 256K y paralelismo de secuencia para administrar las limitaciones de memoria de manera eficiente, lo que ofrece un rendimiento confiable en todo el espectro de contexto.

El post-entrenamiento transforma los modelos base XGEN-Small en modelos de instrucciones integrales a través de un proceso de dos etapas. Primero, el ajuste superior supervisado utiliza un conjunto de datos de instrucciones diversos y de alta calidad que abarca las matemáticas, la codificación, la seguridad y los dominios de uso general para establecer comportamientos y alineaciones centrales. Posteriormente, el aprendizaje de refuerzo a gran escala refina la política del modelo, particularmente mejorando las capacidades de razonamiento. Este enfoque ofrece un rendimiento excepcional en dominios de razonamiento complejos como las matemáticas, la codificación y las aplicaciones STEM mientras se mantiene las habilidades consistentes de seguimiento de instrucciones en las tareas generales.

El desarrollo de XGen-Small demuestra que la restricción deliberada del tamaño del modelo mientras extiende la capacidad de contexto crea soluciones óptimas para aplicaciones empresariales de IA. Este enfoque “pequeño pero largo” reduce significativamente los costos de inferencia y los requisitos de hardware al tiempo que permite un procesamiento sin problemas de amplias fuentes de conocimiento interno sin dependencias de recuperación externas. A través de una tubería integrada de curación de datos meticuloso, pretruento escalable, extensión de longitud dirigida y aprendizaje de refuerzo, estos modelos compactos coinciden o exceden el rendimiento de las contrapartes más grandes. Esta arquitectura proporciona a las empresas un marco predecible, sostenible, rentable y que presenta la privacidad para implementar IA a escala empresarial.


Mira el Modelo en la cara abrazada y Detalle técnico. Además, no olvides seguirnos Gorjeo.

Aquí hay una breve descripción de lo que estamos construyendo en MarkTechPost:


Asjad es consultor interno en MarktechPost. Está persiguiendo B.Tech en Ingeniería Mecánica en el Instituto de Tecnología Indio, Kharagpur. Asjad es un entusiasta de aprendizaje automático y aprendizaje profundo que siempre está investigando las aplicaciones del aprendizaje automático en la atención médica.