Conozca Eagle 7B: un modelo de IA con parámetros de 7.52B construido sobre la arquitectura RWKV-v5 y entrenado con tokens de 1.1T en más de 100 idiomas

Con el crecimiento de la IA, también se empezaron a estudiar y utilizar grandes modelos de lenguaje en todos los campos. Estos modelos se basan en grandes cantidades de datos a escala de miles de millones y son útiles en campos como la salud, las finanzas, la educación, el entretenimiento y muchos otros. Contribuyen a diversas tareas que van desde el procesamiento del lenguaje natural y la traducción hasta muchas otras tareas.

Recientemente, los investigadores han desarrollado Águila 7B, un modelo de Machine Learning ML con la impresionante cantidad de 7,52 mil millones de parámetros, lo que representa un avance significativo en la arquitectura y el rendimiento de la IA. Los investigadores enfatizan que está construido sobre la innovadora arquitectura RWKV-v5. La característica interesante de este modelo es que es muy eficaz, tiene una combinación única de eficiencia y es respetuoso con el medio ambiente.

Además, tiene la ventaja de tener costos de inferencia excepcionalmente bajos. A pesar de tener un gran número de parámetros, es uno de los modelos 7B por token más ecológicos del mundo, ya que utiliza mucha menos energía que otros modelos con un tamaño de datos de entrenamiento similar. Los investigadores también destacan que tiene la ventaja de procesar información con un consumo mínimo de energía. Este modelo está entrenado en la asombrosa cantidad de 1,1 billones de tokens en más de 100 idiomas y funciona bien en tareas multilingües.

Los investigadores evaluaron el modelo en varios puntos de referencia y descubrieron que superó a todos los demás modelos de 7 mil millones de parámetros en pruebas como xLAMBDA, xStoryCloze, xWinograd y xCopa en 23 idiomas. Descubrieron que funciona mejor que todos los demás modelos debido a su versatilidad y adaptabilidad en diferentes idiomas y dominios. Además, en las evaluaciones de inglés, el desempeño de Águila 7B Es competitivo con modelos aún más grandes como Falcon y LLaMA2 a pesar de ser más pequeño. Se desempeña de manera similar a estos modelos grandes en tareas de razonamiento de sentido común, mostrando su capacidad para comprender y procesar información. Además, Eagle 7B es un transformador sin atención, lo que lo distingue de las arquitecturas de transformadores tradicionales.

Los investigadores enfatizaron que si bien el modelo es muy eficiente y útil, todavía tiene limitaciones en los puntos de referencia que cubrieron. Los investigadores están trabajando para ampliar los marcos de evaluación para tener una gama más amplia de idiomas en el punto de referencia de evaluación para garantizar que muchos idiomas estén cubiertos para el avance de la IA. Quieren seguir perfeccionando y ampliando las capacidades de Eagle 7B. Además, su objetivo es ajustar el modelo para que sea útil en casos de uso y dominios específicos con mayor precisión.

En conclusión, Águila 7B Es un avance significativo en el modelado de IA. La naturaleza ecológica del modelo lo hace más adecuado para empresas e individuos que buscan reducir su huella de carbono. Establece un nuevo estándar para una IA ecológica y versátil con eficiencia y capacidades multilingües. A medida que los investigadores avanzan para mejorar las capacidades efectivas y multilingües de Eagle 7B, este modelo puede resultar realmente útil en este dominio. Además, destaca la escalabilidad de la arquitectura RWKV-v5, mostrando que los transformadores lineales pueden mostrar niveles de rendimiento comparables a los transformadores tradicionales.


Rachit Ranjan es pasante de consultoría en MarktechPost. Actualmente está cursando su B.Tech en el Instituto Indio de Tecnología (IIT) de Patna. Está dando forma activamente a su carrera en el campo de la inteligencia artificial y la ciencia de datos y le apasiona y se dedica a explorar estos campos.