OuteAI ha presentado recientemente sus últimos avances en los modelos de la serie Lite, Lite-Oute-1-300M y Lite-Oute-1-65M. Estos nuevos modelos están diseñados para mejorar el rendimiento manteniendo la eficiencia, lo que los hace adecuados para su implementación en varios dispositivos.
Lite-Oute-1-300M: rendimiento mejorado
El modelo Lite-Oute-1-300M, basado en la arquitectura Mistral, comprende aproximadamente 300 millones de parámetros. Este modelo pretende mejorar la versión anterior de 150 millones de parámetros aumentando su tamaño y entrenándolo en un conjunto de datos más refinado. El objetivo principal del modelo Lite-Oute-1-300M es ofrecer un rendimiento mejorado y, al mismo tiempo, mantener la eficiencia para la implementación en diferentes dispositivos.
Con un tamaño mayor, el modelo Lite-Oute-1-300M proporciona una mejor retención y coherencia del contexto. Sin embargo, los usuarios deben tener en cuenta que, al ser un modelo compacto, aún tiene limitaciones en comparación con los modelos de lenguaje más grandes. El modelo se entrenó con 30 mil millones de tokens con una longitud de contexto de 4096, lo que garantiza capacidades de procesamiento de lenguaje sólidas.
El modelo Lite-Oute-1-300M está disponible en varias versiones:
Rendimiento de referencia
El modelo Lite-Oute-1-300M ha sido evaluado en varias tareas, demostrando sus capacidades:
- Desafío ARC: 26,37 (5 disparos), 26,02 (0 disparos)
- ARC Fácil: 51,43 (5 disparos), 49,79 (0 disparos)
- CommonsenseQA: 20,72 (5 disparos), 20,31 (0 disparos)
- HellaSWAG: 34,93 (5 disparos), 34,50 (0 disparos)
- MMLU: 25,87 (5 disparos), 24,00 (0 disparos)
- OpenBookQA: 31,40 (5 disparos), 32,20 (0 disparos)
- PIQA: 65,07 (5 disparos), 65,40 (0 disparos)
- Winogrande: 52,01 (5 golpes), 53,75 (0 golpes)
Uso con los transformadores HuggingFace
El modelo Lite-Oute-1-300M se puede utilizar con la biblioteca de transformadores de HuggingFace. Los usuarios pueden implementar fácilmente el modelo en sus proyectos mediante código Python. El modelo admite la generación de respuestas con parámetros como la temperatura y la penalización por repetición para ajustar la salida.
Lite-Oute-1-65M: Explorando modelos ultracompactos
Además del modelo 300M, OuteAI también ha lanzado el modelo Lite-Oute-1-65M. Este modelo experimental ultracompacto se basa en la arquitectura LLaMA y comprende aproximadamente 65 millones de parámetros. El objetivo principal de este modelo era explorar los límites inferiores del tamaño del modelo manteniendo al mismo tiempo las capacidades básicas de comprensión del lenguaje.
Debido a su tamaño extremadamente pequeño, el modelo Lite-Oute-1-65M demuestra capacidades básicas de generación de texto, pero puede tener dificultades con las instrucciones o para mantener la coherencia del tema. Los usuarios deben ser conscientes de sus importantes limitaciones en comparación con los modelos más grandes y esperar respuestas inconsistentes o potencialmente inexactas.
El modelo Lite-Oute-1-65M está disponible en las siguientes versiones:
Capacitación y hardware
Los modelos Lite-Oute-1-300M y Lite-Oute-1-65M se entrenaron en hardware NVIDIA RTX 4090. El modelo 300M se entrenó en 30 mil millones de tokens con una longitud de contexto de 4096, mientras que el modelo 65M se entrenó en 8 mil millones de tokens con una longitud de contexto de 2048.
Conclusión
En conclusión, el lanzamiento de los modelos Lite-Oute-1-300M y Lite-Oute-1-65M por parte de OuteAI tiene como objetivo mejorar el rendimiento y, al mismo tiempo, mantener la eficiencia necesaria para la implementación en varios dispositivos, aumentando el tamaño y refinando el conjunto de datos. Estos modelos equilibran el tamaño y la capacidad, lo que los hace adecuados para múltiples aplicaciones.
Asif Razzaq es el director ejecutivo de Marktechpost Media Inc. Como ingeniero y emprendedor visionario, Asif está comprometido con aprovechar el potencial de la inteligencia artificial para el bien social. Su iniciativa más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad de noticias sobre aprendizaje automático y aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.