A medida que aumenta la adopción de AI en la infraestructura digital, las empresas y los desarrolladores enfrentan una presión creciente para equilibrar los costos computacionales con rendimiento, escalabilidad y adaptabilidad. El rápido avance de los modelos de idiomas grandes (LLM) ha abierto nuevas fronteras en la comprensión del lenguaje natural, el razonamiento y la IA conversacional. Aún así, su gran tamaño y complejidad a menudo introducen ineficiencias que inhiben el despliegue a escala. En este paisaje dinámico, la pregunta sigue siendo: ¿Pueden evolucionar las arquitecturas de IA para mantener un alto rendimiento sin globos de cálculo de gastos generales o financieros? Ingrese el próximo capítulo en la saga de innovación de Nvidia, una solución que busca optimizar esta compensación mientras se expande los límites funcionales de la IA.

Nvidia lanzó el Llama-3.1-Nemotron-Ultra-253b-V1un modelo de lenguaje de parámetros de 253 mil millones que representa un salto significativo en las capacidades de razonamiento, la eficiencia de la arquitectura y la preparación de la producción. Este modelo es parte de la colección Nemotron más amplia de Llama y se deriva directamente de la arquitectura de instructo Llama-3.1-405b-Instructo de Meta. Los otros dos modelos pequeños, una parte de esta serie, son Llama-3.1-Nemotron-Nano-8B-V1 y Llama-3.3-Nemotron-Super-49B-V1. Diseñado para uso comercial y empresarial, Nemotron Ultra está diseñado para admitir tareas que van desde el uso de la herramienta y la generación de recuperación suya (TRAPO) a diálogo de múltiples vueltas y seguimiento de instrucciones complejas.

El núcleo del modelo es una densa estructura de transformador de decodificador ajustada utilizando un algoritmo especializado de búsqueda de arquitectura neuronal (NAS). A diferencia de los modelos de transformadores tradicionales, la arquitectura emplea bloques no repetitivos y diversas estrategias de optimización. Entre estas innovaciones se encuentra el mecanismo de atención de omitir, donde los módulos de atención en ciertas capas se omiten por completo o se reemplazan con capas lineales más simples. Además, la técnica de fusión FeedForward Network (FFN) fusiona las secuencias de FFN en menos capas más anchas, reduciendo significativamente el tiempo de inferencia mientras se mantiene el rendimiento.

Este modelo finamente ajustado admite una ventana de contexto de token de 128k, lo que le permite ingerir y razonar sobre entradas textuales extendidas, lo que lo hace adecuado para sistemas avanzados de RAG y análisis de documentos múltiples. Además, Nemotron Ultra se ajusta a las cargas de trabajo de inferencia en un solo nodo 8xH100, que marca un hito en la eficiencia de implementación. Dicha capacidad de inferencia compacta reduce drásticamente los costos del centro de datos y mejora la accesibilidad para los desarrolladores empresariales.

El riguroso proceso posterior a la capacitación multifase de NVIDIA incluye ajuste de fino supervisado en tareas como generación de código, matemáticas, chat, razonamiento y llamadas de herramientas. Esto es seguido por el aprendizaje de refuerzo (RL) utilizando la optimización de políticas relativas del grupo (GRPO), un algoritmo adaptado para ajustar las capacidades de seguimiento y conversación de instrucciones del modelo. Estas capas de entrenamiento adicionales aseguran que el modelo funcione bien en los puntos de referencia y se alinee con las preferencias humanas durante las sesiones interactivas.

Construido con la preparación de la producción en mente, Nemotron Ultra se rige por la Licencia de Modelo Abierto de NVIDIA. Su lanzamiento ha sido acompañado por otros modelos de hermanos en la misma familia, incluida Llama-3.1-Nemotron-Nano-8B-V1 y Llama-3.3-Nemotron-Super-49B-V1. La ventana de lanzamiento, entre noviembre de 2024 y abril de 2025, aseguró que el modelo aprovechó los datos de capacitación hasta finales de 2023, lo que lo hace relativamente actualizado en su conocimiento y contexto.

Algunas de las conclusiones clave del lanzamiento de Llama-3.1-Nemotron-Ultra-253B-V1 incluyen:

  • Diseño de eficiencia primero: Usando la fusión NAS y FFN, NVIDIA redujo la complejidad del modelo sin comprometer la precisión, logrando un latencia y rendimiento superiores.
  • 128k Longitud de contexto de token: El modelo puede procesar documentos grandes simultáneamente, aumentando las capacidades de comprensión de RAG y de contexto largo.
  • Listo para Enterprise: El modelo es ideal para chatbots comerciales y sistemas de agentes de IA porque es fácil de implementar en un nodo 8xH100 y sigue bien las instrucciones.
  • Autorización fino avanzada: RL con GRPO y el entrenamiento supervisado en múltiples disciplinas asegura un equilibrio entre la fuerza de razonamiento y la alineación de chat.
  • Licencias abiertas: La licencia de modelo Open NVIDIA respalda la implementación flexible, mientras que la licencia comunitaria fomenta la adopción colaborativa.

Verificar el Modelo en la cara abrazada. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 85k+ ml de subreddit.


Asif Razzaq es el CEO de MarktechPost Media Inc .. Como empresario e ingeniero visionario, ASIF se compromete a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, MarktechPost, que se destaca por su cobertura profunda de noticias de aprendizaje automático y de aprendizaje profundo que es técnicamente sólido y fácilmente comprensible por una audiencia amplia. La plataforma cuenta con más de 2 millones de vistas mensuales, ilustrando su popularidad entre el público.

Por automata