DeepSeek ha lanzado recientemente su último modelo de código abierto sobre Hugging Facel, DeepSeek-V2-Chat-0628. Este lanzamiento marca un avance significativo en la generación de texto impulsada por IA y las capacidades de la tecnología de chatbot, lo que posiciona a DeepSeek a la vanguardia de la industria.
DeepSeek-V2-Chat-0628 es una versión mejorada del modelo DeepSeek-V2-Chat anterior. Esta nueva versión se ha perfeccionado meticulosamente para ofrecer un rendimiento superior en varios puntos de referencia. Según el ranking de LMSYS Chatbot Arena, DeepSeek-V2-Chat-0628 ha obtenido una impresionante clasificación general en el puesto n.° 11, superando a todos los demás modelos de código abierto. Este logro subraya el compromiso de DeepSeek de avanzar en el campo de la inteligencia artificial y proporcionar soluciones de primer nivel para aplicaciones de IA conversacional.
Las mejoras en DeepSeek-V2-Chat-0628 son amplias y cubren varios aspectos críticos de la funcionalidad del modelo. Cabe destacar que el modelo muestra mejoras sustanciales en varias pruebas comparativas:
- Evaluación humana: La puntuación mejoró de 81,1 a 84,8, lo que refleja un aumento de 3,7 puntos.
- MATEMÁTICAS: Un salto notable de 53,9 a 71,0, lo que indica una mejora de 17,1 puntos.
- Buena suerte: La puntuación de rendimiento aumentó de 79,7 a 83,4, lo que supone una mejora de 3,7 puntos.
- Evaluación IFEF: Un aumento significativo de 63,8 a 77,6, una mejora de 13,8 puntos.
- Arena-Dificil: Se demostró la mejora más espectacular, con un aumento de 26,7 puntos, pasando de 41,6 a 68,3.
- Salida JSON (interna): Mejoró de 78 a 85, mostrando una mejora de 7 puntos.
El modelo DeepSeek-V2-Chat-0628 también cuenta con capacidades optimizadas de seguimiento de instrucciones dentro del área de “sistema”, lo que mejora significativamente la experiencia del usuario. Esta optimización beneficia tareas como la traducción inmersiva y la generación aumentada de recuperación (RAG), lo que proporciona a los usuarios una interacción más intuitiva y eficiente con la IA.
Para aquellos interesados en implementar DeepSeek-V2-Chat-0628, el modelo requiere 80 GB*8 GPU para la inferencia en formato BF16. Los usuarios pueden utilizar los Transformers de Huggingface para la inferencia del modelo, lo que implica importar las bibliotecas necesarias y configurar el modelo y el tokenizador con las configuraciones adecuadas. En comparación con las versiones anteriores, se ha actualizado la plantilla de chat completa, lo que mejora la generación de respuestas y las capacidades de interacción del modelo. La nueva plantilla incluye un formato específico y configuraciones de token que garantizan resultados más precisos y relevantes en función de las entradas del usuario.
Se recomienda vLLM para la inferencia de modelos, ya que ofrece un enfoque simplificado para integrar el modelo en varias aplicaciones. La configuración de vLLM implica fusionar una solicitud de incorporación de cambios en la base de código de vLLM y configurar el modelo y el tokenizador para que gestionen las tareas deseadas de manera eficiente.
El modelo DeepSeek-V2-Chat-0628 está disponible bajo la licencia MIT para el repositorio de código, y el modelo en sí está sujeto a la licencia del modelo. Esto permite el uso comercial de la serie DeepSeek-V2, incluidos los modelos Base y Chat, lo que la hace accesible para empresas y desarrolladores que buscan integrar capacidades avanzadas de IA en sus productos y servicios.
En conclusión, el lanzamiento de DeepSeek-V2-Chat-0628 para DeepSeek demuestra su dedicación constante a la innovación en inteligencia artificial. Con impresionantes métricas de rendimiento y una experiencia de usuario mejorada, este modelo está preparado para establecer nuevos estándares en la IA conversacional.
Revisar la Tarjeta modelo y Asignación de funciones. Todo el crédito por esta investigación corresponde a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de Telegram y LinkedIn Gr¡Arriba!. Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..
No olvides unirte a nuestro Subreddit de más de 46 000 millones de usuarios
Encuentra lo próximo Seminarios web sobre IA aquí
Asif Razzaq es el director ejecutivo de Marktechpost Media Inc. Como ingeniero y emprendedor visionario, Asif está comprometido con aprovechar el potencial de la inteligencia artificial para el bien social. Su iniciativa más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad de noticias sobre aprendizaje automático y aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.