El reciente modelo Yi-1.5-34B presentado por 01.AI ha supuesto otro avance en el campo de la Inteligencia Artificial. Posicionado como una mejora importante con respecto a sus predecesores, este modelo único cierra la brecha entre Llama 3 8B y 70B. Promete un mejor rendimiento en varias áreas, como la capacidad multimodal, la producción de código y el razonamiento lógico. El equipo de investigadores ha explorado en profundidad las complejidades del modelo Yi-1.5-34B, su creación y sus posibles efectos en la comunidad de IA.
El modelo Yi-34B sirvió de base para el desarrollo del modelo Yi-1.5-34B. El Yi-1.5-34B continúa la tradición del Yi-34B, que fue reconocido por su rendimiento superior y funcionó como punto de referencia no oficial en la comunidad de IA. Esto se debe a su mejora en la formación y optimización. El intenso régimen de entrenamiento del modelo ha quedado demostrado por el hecho de que fue preentrenado con la increíble cantidad de 500 mil millones de tokens, ganando 4,1 billones de tokens en total.
La arquitectura de Yi-1.5-34B pretende ser una combinación bien equilibrada, proporcionando la eficiencia computacional de los modelos Llama 3 de tamaño 8B y acercándose a las amplias capacidades de los modelos de tamaño 70B. Este equilibrio garantiza que el modelo pueda llevar a cabo tareas complejas sin necesidad de los enormes recursos computacionales que generalmente están vinculados con los modelos a gran escala.
En comparación con los puntos de referencia, el modelo Yi-1.5-34B ha mostrado un rendimiento notable. Su amplio vocabulario le ayuda a resolver acertijos lógicos con facilidad y a captar ideas complejas de forma sutil. Su capacidad para producir fragmentos de código más largos que los generados por GPT-4 es una de sus propiedades más destacables, demostrando su utilidad en aplicaciones reales. La velocidad y eficiencia del modelo han sido elogiadas por los usuarios que lo han probado mediante demostraciones, lo que lo convierte en una opción atractiva para una variedad de actividades impulsadas por IA.
La familia Yi abarca modelos multimodales y de lenguaje, y va más allá del texto para incluir características de visión y lenguaje. Esto se logra alineando representaciones visuales dentro del espacio semántico del modelo de lenguaje combinando un codificador transformador de visión con el modelo de lenguaje de chat. Además, los modelos Yi no se limitan a entornos convencionales. Con un entrenamiento previo ligero y continuo, se han ampliado para manejar contextos largos de hasta 200.000 tokens.
Una de las principales razones de la eficacia de los modelos Yi es el cuidadoso procedimiento de ingeniería de datos que se ha utilizado en su creación. Los modelos utilizaron 3,1 billones de tokens de corpus chinos e ingleses para el entrenamiento previo. Para garantizar entradas de la mejor calidad, estos datos se seleccionaron cuidadosamente utilizando un proceso de deduplicación en cascada y filtrado de calidad.
El proceso de puesta a punto mejoró aún más las capacidades del modelo. Los ingenieros de aprendizaje automático refinaron y validaron de forma iterativa un conjunto de datos de instrucción a pequeña escala con menos de 10 000 instancias. Gracias a este enfoque práctico de verificación de datos, se garantiza que el rendimiento de los modelos refinados será preciso y confiable.
Con su combinación de excelente rendimiento y utilidad, el modelo Yi-1.5-34B es un gran avance en Inteligencia Artificial. Es una herramienta flexible tanto para investigadores como para profesionales debido a su capacidad para realizar tareas complicadas como integración multimodal, desarrollo de código y razonamiento lógico.
Revisar la Tarjeta modelo y Manifestación. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.
Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..
No olvides unirte a nuestro SubReddit de 42k+ ML
Tanya Malhotra es estudiante de último año de la Universidad de Estudios de Petróleo y Energía, Dehradun, y cursa BTech en Ingeniería en Ciencias de la Computación con especialización en Inteligencia Artificial y Aprendizaje Automático.
Es una entusiasta de la Ciencia de Datos con buen pensamiento analítico y crítico, junto con un ardiente interés en adquirir nuevas habilidades, liderar grupos y gestionar el trabajo de manera organizada.