UCSD y Together AI Research presentan Parcae: una arquitectura estable para modelos de lenguaje en bucle que logra la calidad de un transformador dos veces más grande
La receta dominante para construir mejores modelos de lenguaje no ha cambiado mucho desde la era Chinchilla: gastar más FLOP, agregar más parámetros, entrenar con más tokens. Pero a medida…