01.AI presenta el modelo Yi-1.5-34B: una versión mejorada de Yi con un corpus de alta calidad de tokens 500B y ajustado en diversas muestras de ajuste fino de 3M

El reciente modelo Yi-1.5-34B presentado por 01.AI ha supuesto otro avance en el campo de la Inteligencia Artificial. Posicionado como una mejora importante con respecto a sus predecesores, este modelo único cierra la brecha entre Llama 3 8B y 70B. Promete un mejor rendimiento en varias áreas, como la capacidad multimodal, la producción de código y el razonamiento lógico. El equipo de investigadores ha explorado en profundidad las complejidades del modelo Yi-1.5-34B, su creación y sus posibles efectos en la comunidad de IA.

El modelo Yi-34B sirvió de base para el desarrollo del modelo Yi-1.5-34B. El Yi-1.5-34B continúa la tradición del Yi-34B, que fue reconocido por su rendimiento superior y funcionó como punto de referencia no oficial en la comunidad de IA. Esto se debe a su mejora en la formación y optimización. El intenso régimen de entrenamiento del modelo ha quedado demostrado por el hecho de que fue preentrenado con la increíble cantidad de 500 mil millones de tokens, ganando 4,1 billones de tokens en total.

La arquitectura de Yi-1.5-34B pretende ser una combinación bien equilibrada, proporcionando la eficiencia computacional de los modelos Llama 3 de tamaño 8B y acercándose a las amplias capacidades de los modelos de tamaño 70B. Este equilibrio garantiza que el modelo pueda llevar a cabo tareas complejas sin necesidad de los enormes recursos computacionales que generalmente están vinculados con los modelos a gran escala.

En comparación con los puntos de referencia, el modelo Yi-1.5-34B ha mostrado un rendimiento notable. Su amplio vocabulario le ayuda a resolver acertijos lógicos con facilidad y a captar ideas complejas de forma sutil. Su capacidad para producir fragmentos de código más largos que los generados por GPT-4 es una de sus propiedades más destacables, demostrando su utilidad en aplicaciones reales. La velocidad y eficiencia del modelo han sido elogiadas por los usuarios que lo han probado mediante demostraciones, lo que lo convierte en una opción atractiva para una variedad de actividades impulsadas por IA.

La familia Yi abarca modelos multimodales y de lenguaje, y va más allá del texto para incluir características de visión y lenguaje. Esto se logra alineando representaciones visuales dentro del espacio semántico del modelo de lenguaje combinando un codificador transformador de visión con el modelo de lenguaje de chat. Además, los modelos Yi no se limitan a entornos convencionales. Con un entrenamiento previo ligero y continuo, se han ampliado para manejar contextos largos de hasta 200.000 tokens.

Una de las principales razones de la eficacia de los modelos Yi es el cuidadoso procedimiento de ingeniería de datos que se ha utilizado en su creación. Los modelos utilizaron 3,1 billones de tokens de corpus chinos e ingleses para el entrenamiento previo. Para garantizar entradas de la mejor calidad, estos datos se seleccionaron cuidadosamente utilizando un proceso de deduplicación en cascada y filtrado de calidad.

El proceso de puesta a punto mejoró aún más las capacidades del modelo. Los ingenieros de aprendizaje automático refinaron y validaron de forma iterativa un conjunto de datos de instrucción a pequeña escala con menos de 10 000 instancias. Gracias a este enfoque práctico de verificación de datos, se garantiza que el rendimiento de los modelos refinados será preciso y confiable.

Con su combinación de excelente rendimiento y utilidad, el modelo Yi-1.5-34B es un gran avance en Inteligencia Artificial. Es una herramienta flexible tanto para investigadores como para profesionales debido a su capacidad para realizar tareas complicadas como integración multimodal, desarrollo de código y razonamiento lógico.

Revisar la Tarjeta modelo y Manifestación. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro SubReddit de 42k+ ML

Tanya Malhotra es estudiante de último año de la Universidad de Estudios de Petróleo y Energía, Dehradun, y cursa BTech en Ingeniería en Ciencias de la Computación con especialización en Inteligencia Artificial y Aprendizaje Automático.
Es una entusiasta de la Ciencia de Datos con buen pensamiento analítico y crítico, junto con un ardiente interés en adquirir nuevas habilidades, liderar grupos y gestionar el trabajo de manera organizada.

🐝 Únase al boletín informativo de investigación de IA de más rápido crecimiento leído por investigadores de Google + NVIDIA + Meta + Stanford + MIT + Microsoft y muchos otros…

01.AI presenta el modelo Yi-1.5-34B: una versión mejorada de Yi con un corpus de alta calidad de tokens 500B y ajustado en diversas muestras de ajuste fino de 3M

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Las 19 principales herramientas de AI Red Teaming (2026): proteja sus modelos de aprendizaje automático

Una guía de codificación para crear un sistema de procesamiento de tareas en segundo plano de nivel de producción utilizando Huey con SQLite, programación, reintentos, canalizaciones y control de concurrencia

Más allá de las indicaciones: uso de las habilidades de los agentes en ciencia de datos

You missed

El cometa 3I/ATLAS arrojó metano al pasar por el Sol, revelando hielos ocultos debajo de su superficie

27 a 500+: victorias en conservación, recuperación, protección y reintroducción del hábitat

La crisis energética de los centros de datos está asfixiando la revolución de la IA

La autoridad sanitaria de Valencia da marcha atrás en la aplicación GVA+ Salut tras la reacción de un usuario y restablece el acceso mediante PIN de cuatro dígitos – The Leader