Zyphra presenta Zyda Dataset: un conjunto de datos de tokens de 1,3 billones para modelado de lenguaje abierto

Zyphra anunció el lanzamiento de zyda, un innovador conjunto de datos abiertos de 1,3 billones de tokens para modelado de lenguajes. Este innovador conjunto de datos está destinado a redefinir los estándares de la formación y la investigación de modelos lingüísticos, ofreciendo una combinación incomparable de tamaño, calidad y accesibilidad.

Zyda fusiona varios conjuntos de datos abiertos de alta calidad y los refina mediante rigurosos filtrado y deduplicación. El resultado es un conjunto de datos que cuenta con un impresionante número de tokens y mantiene los más altos estándares de calidad de datos.

El objetivo principal de Zyda es facilitar experimentos avanzados de modelado de lenguaje y capacitación a una escala que antes era inalcanzable con conjuntos de datos abiertos. Zyda ha superado consistentemente a los conjuntos de datos existentes en estudios de ablación integrales, incluidos Dolma, Fineweb, Pile, RefinedWeb y SlimPajama. Esto convierte a Zyda en un recurso crucial para investigadores y desarrolladores que buscan contribuir al modelado del lenguaje.

Características clave de Zyda

  • Recuento de tokens inigualable: Zyda comprende 1,3 billones de tokens meticulosamente filtrados y deduplicados recopilados a partir de conjuntos de datos de alta calidad. Este amplio recuento de tokens garantiza que los modelos entrenados en Zyda puedan alcanzar una precisión y solidez sin precedentes.
  • Rendimiento superior: Zyda eclipsa a todos los principales conjuntos de datos de modelado de lenguaje abierto en evaluaciones comparativas. Esto incluye superar el rendimiento de subconjuntos individuales de estos conjuntos de datos, destacando la eficacia del enfoque integral de Zyda para la agregación y el procesamiento de datos.
  • Deduplicación entre conjuntos de datos: Una característica destacada de Zyda es su implementación de deduplicación entre conjuntos de datos. Este proceso garantiza que se eliminen los duplicados dentro y entre conjuntos de datos individuales. Esto es crucial para mantener la integridad y la singularidad de los datos, especialmente dadas las fuentes comunes de muchos conjuntos de datos abiertos.
  • Licencia abierta y permisiva: Zyda se lanza bajo una licencia abierta y permisiva, lo que la hace de libre acceso para la comunidad. Esto se alinea con el compromiso de Zyphra de fomentar la investigación abierta y la colaboración en PNL.

Zyda fue diseñado meticulosamente fusionando siete conjuntos de datos de modelado de lenguaje abierto muy respetados: RefinedWeb, Starcoder, C4, Pile, Slimpajama, pe2so y arXiv. Cada conjunto de datos se sometió a un proceso de posprocesamiento uniforme diseñado para mejorar la calidad y la coherencia.

El proceso de creación implicó un filtrado sintáctico exhaustivo para eliminar los documentos de baja calidad, seguido de una agresiva pasada de deduplicación. La deduplicación cruzada fue particularmente importante, ya que muchos conjuntos de datos contenían superposiciones significativas debido a fuentes de datos comunes como Common Crawl. Este extenso proceso de limpieza redujo los 2 billones de tokens iniciales a 1,3 billones más refinados y manejables.

La eficacia de Zyda es evidente en el desempeño de Zamba, un modelo de lenguaje entrenado en Zyda. Zamba demuestra una fortaleza significativa por token en comparación con los modelos entrenados en conjuntos de datos de la competencia. Este es un testimonio de la calidad superior y el potencial de Zyda para impulsar avances en el modelado del lenguaje.

En conclusión, Zyda representa un avance monumental en el modelado del lenguaje. Zyphra está allanando el camino para la próxima generación de investigaciones y aplicaciones de PNL al proporcionar un conjunto de datos abierto, masivo y de alta calidad. El lanzamiento de Zyda no sólo subraya el liderazgo de Zyphra en el campo, sino que también establece un nuevo punto de referencia de lo que es posible con conjuntos de datos abiertos.


Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como emprendedor e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.