Los investigadores de Aleph Alpha lanzan Pharia-1-LLM-7B: dos variantes distintas: Pharia-1-LLM-7B-Control y Pharia-1-LLM-7B-Control-Aligned

Los investigadores de Aleph Alpha anuncian una nueva familia de modelos básicos que incluye Pharia-1-LLM-7B-control y Pharia-1-LLM-7B-control-aligned. Estos modelos ya están disponibles públicamente bajo la licencia Open Aleph, que permite explícitamente su uso con fines educativos y de investigación no comerciales. Este lanzamiento marca un avance significativo en la provisión de modelos lingüísticos accesibles y de alto rendimiento a la comunidad.

Pharia-1-LLM-7B-control está diseñado para ofrecer respuestas concisas y controladas por longitud que coinciden con el rendimiento de los principales modelos de código abierto en el rango de parámetros 7B a 8B. El modelo está optimizado cultural y lingüísticamente para alemán, francés y español, gracias a su entrenamiento en un corpus base multilingüe. Esta característica mejora su versatilidad en diferentes contextos lingüísticos.

Los datos de entrenamiento del modelo se han seleccionado cuidadosamente para cumplir con las normativas nacionales y de la UE aplicables, incluidas las leyes de derechos de autor y privacidad de datos. Esta atención a las consideraciones legales y éticas garantiza que Pharia-1-LLM-7B-control se pueda utilizar con confianza en diversos entornos de investigación y educativos.

Gracias a su eficiencia de token mejorada, Pharia-1-LLM-7B-control se destaca en aplicaciones específicas de dominio, en particular en las industrias automotriz y de ingeniería. Su capacidad de alinearse con las preferencias del usuario lo hace adecuado para aplicaciones críticas sin el riesgo de comportamiento de apagado, lo que aborda una preocupación común en la implementación de IA.

La variante alineada con control Pharia-1-LLM-7B se ha mejorado con barandillas de seguridad adicionales mediante métodos de alineación. Esta versión ofrece una capa adicional de seguridad y confiabilidad, lo que la hace ideal para aplicaciones donde la seguridad y la salida controlada son primordiales.

Junto con el lanzamiento se incluye una tarjeta modelo completa y una publicación de blog detallada. Estos recursos brindan información detallada sobre el enfoque para construir el modelo Pharia-1-LLM-7B-control y ofrecen información valiosa sobre su desarrollo y capacidades.

Los investigadores inicialmente planearon optimizar los hiperparámetros utilizando un modelo proxy pequeño con un tamaño oculto de 256 y 27 capas, que coincidiera con el número de capas del modelo de destino. El plan implicaba barrer los valores de la tasa de aprendizaje, la ganancia estándar de inicialización global, el multiplicador de incrustación y el multiplicador de salida, y luego ampliarlos al tamaño oculto de destino utilizando los principios de parametrización de actualización máxima (MuP).

Este método se aplicó con éxito para encontrar hiperparámetros para ablaciones de tamaño 1B, y una breve comprobación de la coherencia de 7B arrojó resultados positivos. Sin embargo, surgieron graves inestabilidades de entrenamiento en la escala 7B al desviarse de la configuración original, como al cambiar el conjunto de datos o la longitud de la secuencia.

Si bien aún no se ha comprendido por completo el alcance total de los factores que contribuyen a estas inestabilidades, el MuP parecía ser un contribuyente significativo. En consecuencia, los investigadores decidieron no utilizar el MuP para este entrenamiento del modelo. Desde entonces, se ha desarrollado una mejor comprensión de la aplicación del MuP a los transformadores, lo que dio como resultado un artículo publicado que presenta una versión modificada y numéricamente estable del MuP.

Para las ejecuciones previas al entrenamiento, los investigadores se basaron en heurísticas en lugar de MuP. Adoptaron la misma tasa de aprendizaje que Llama 2, pero emplearon un esquema de inicialización estándar para los pesos. Este enfoque permitió un entrenamiento más estable en la escala 7B.

Los investigadores realizaron ablaciones en Group-Query-Attention para mejorar el rendimiento en tiempo de inferencia, investigando el impacto de menos cabezas kv mientras se mantiene la consistencia del recuento de parámetros. No se observó una degradación significativa con menos cabezas kv, pero se notaron ventajas sustanciales en el consumo de memoria y el rendimiento hasta una relación kv-q de 1/8. En consecuencia, se eligió una relación 1/9 para el modelo 7B final. Además, siguiendo la sugerencia de Code Llama, se investigó una base de incrustación rotatoria más grande de 1e6 para mejorar la capacidad de contexto largo. Las pruebas a escala 1B no mostraron ningún daño al preentrenamiento e incluso ligeras mejoras en las puntuaciones posteriores, lo que llevó a la adopción de la base 1e6 durante el preentrenamiento.

El modelo base Pharia-1-LLM-7B se entrenó utilizando la base de código de escalamiento, utilizando capacidades de paralelización y optimizaciones de rendimiento. El entrenamiento empleó el formato bfloat16 con una estrategia de precisión mixta y la etapa 1 de ZeRO. Se utilizó una estrategia de calentamiento de longitud de secuencia para abordar las inestabilidades, escalando de 512 a 8192 tokens. El preentrenamiento inicial cubrió 4,7 T de tokens, seguido de 3 T de tokens adicionales en una combinación de datos diferente. La tasa de aprendizaje se ajustó para la segunda fase, con un calentamiento a 3e-5 y una disminución a 3e-6. El entrenamiento total abarcó 7,7 T de tokens, utilizando 256 GPU A100 para la primera fase y 256 GPU H100 para la segunda, optimizando el diseño del modelo para el rendimiento.

El próximo lanzamiento de Model Suite presenta dos variantes del modelo 7B. Pharia-1-LLM-7B-control alineado es un modelo ajustado a las instrucciones y refinado a través de las preferencias humanas y LLM. El proceso de alineación empleó KTO con una tasa de aprendizaje de 1e-6 y un parámetro beta de 0,1. Para abordar las repeticiones parciales observadas durante el entrenamiento inicial, los investigadores filtraron las muestras generadas con repeticiones y las incluyeron como preferencias negativas en la combinación de datos. También se incorporó un conjunto de datos de seguridad, lo que ayudó al modelo a rechazar las indicaciones inseguras al tratar las respuestas seguras como ejemplos positivos y las respuestas inseguras del modelo de control Pharia-1-LLM-7B como ejemplos negativos.

Control de Pharia-1-LLM-7B es la variante ajustada a las instrucciones sin alineación de preferencias ni entrenamiento de seguridad adicional. Los investigadores observaron que el paso KTO condujo a respuestas más verbosas y genéricas y redujo la capacidad de respuesta a instrucciones específicas, como adherirse a la longitud de salida deseada. A pesar de las puntuaciones mejoradas en los puntos de referencia de ajuste de instrucciones comunes, este comportamiento se atribuyó al mayor uso de datos sintéticos en los conjuntos de datos y la tendencia de los métodos de evaluación basados en LLM a favorecer la verbosidad. El modelo de control Pharia-1-LLM-7B mantiene así un equilibrio entre el rendimiento en los puntos de referencia y la usabilidad práctica, ofreciendo una alternativa a su contraparte alineada para aplicaciones que requieren un control más preciso sobre las características de salida.

El Pharia-1-LLM-7B-control alineado El modelo Pharia-1-LLM-7B-control está diseñado para casos de uso conversacionales, y pone énfasis en la claridad, la seguridad y la alineación con la intención del usuario. Esto lo hace ideal para aplicaciones como chatbots y asistentes virtuales, donde las interacciones refinadas y seguras son cruciales. Por el contrario, el modelo Pharia-1-LLM-7B-control, sin alineación, es más adecuado para tareas como la extracción y el resumen de información. En estos casos, se prefiere su capacidad para proporcionar resultados más directos y concisos, lo que lo convierte en una mejor opción para tareas que requieren respuestas sencillas y menos verbosas.

Aleph Alpha ha lanzado el Pharia-1-LLM-7B Familia de modelos, disponible bajo la licencia Open Aleph para investigación y educación no comercial. El modelo Pharia-1-LLM-7B-control está optimizado para salidas concisas y controladas por longitud, y se destaca en tareas específicas de dominio como la automoción y la ingeniería. Su variante alineada, Pharia-1-LLM-7B-control-aligned, incluye barandillas de seguridad para aplicaciones conversacionales seguras. Ambos modelos son multilingües y cumplen con las leyes de la UE. Los investigadores refinaron las estrategias de entrenamiento, evitaron MuP debido a la inestabilidad y mejoraron la eficiencia de la inferencia. Estos modelos brindan opciones accesibles y de alto rendimiento para diversas necesidades de investigación y aplicación de IA.

Echa un vistazo a la Modelo y Detalles. Todo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa..

No olvides unirte a nuestro Subreddit con más de 50 000 millones de usuarios

A continuación se muestra un seminario web muy recomendado por nuestro patrocinador: ‘Desarrollo de aplicaciones de IA de alto rendimiento con NVIDIA NIM y Haystack’

Asjad es consultor en prácticas en Marktechpost. Está cursando la licenciatura en ingeniería mecánica en el Instituto Indio de Tecnología de Kharagpur. Asjad es un entusiasta del aprendizaje automático y del aprendizaje profundo que siempre está investigando las aplicaciones del aprendizaje automático en el ámbito de la atención médica.

[Promotion] 🔔 El motor de búsqueda de IA más preciso, confiable y fácil de usar disponible

Los investigadores de Aleph Alpha lanzan Pharia-1-LLM-7B: dos variantes distintas: Pharia-1-LLM-7B-Control y Pharia-1-LLM-7B-Control-Aligned

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Dentro del movimiento de poder de la IA que podría redefinir las finanzas

Hugging Face lanza ml-intern: un agente de inteligencia artificial de código abierto que automatiza el flujo de trabajo posterior a la capacitación de LLM

Desde los escritorios de los desarrolladores hasta toda la organización: cómo ejecutar Claude Cowork en Amazon Bedrock

You missed

La huelga nacional del combustible podría paralizar el tráfico navideño en España: The Leader

El artista de Gucci Mane aparece liberado de prisión (foto)

Dentro del movimiento de poder de la IA que podría redefinir las finanzas

Los matemáticos descubrieron por qué esperar una eternidad en el ascensor