Existe una carrera hacia modelos de lenguaje con ventanas de contexto más amplias. Pero ¿qué tan buenos son y cómo podemos saberlo?
Este artículo fue publicado originalmente en Arte Peces Inteligencia.
La ventana de contexto de los modelos de lenguaje grandes (la cantidad de texto que pueden procesar a la vez) ha estado aumentando a un ritmo exponencial.
En 2018, modelos de lenguaje como BERT, T5y GPT-1 Podrían aceptarse hasta 512 tokens como entrada. Ahora, en el verano de 2024, esta cifra ha aumentado a 2 millones de tokens (en LLM disponibles públicamente). Pero, ¿qué significa esto para nosotros y cómo evaluamos estos modelos cada vez más capaces?
El recientemente lanzado El modelo Gemini 1.5 Pro puede aceptar hasta 2 millones de tokens¿Pero qué significan 2 millones de tokens?
Si estimamos que 4 palabras equivalen aproximadamente a 3 tokens, significa que 2 millones de tokens pueden (casi) se adapta a toda la serie de Harry Potter y El Señor de los Anillos.
(El recuento total de palabras de los siete libros de la serie de Harry Potter es 1.084.625El recuento total de palabras de los siete libros de la serie El Señor de los Anillos es 481.103. (1.084.625 +…