Investigadores de la Universidad de Oregon y Adobe presentan CulturaX: un conjunto de datos multilingüe con 6,3T de tokens en 167 idiomas adaptado para el desarrollo de modelos de lenguaje grande (LLM)
Al mejorar drásticamente el rendimiento de última generación en una amplia gama de tareas y revelar nuevas habilidades emergentes, los modelos de lenguajes grandes (LLM) han impactado profundamente la investigación…