Evaluación de modelos lingüísticos extensos de contexto extenso | por Yennie Jun

Evaluación de modelos lingüísticos extensos de contexto extenso | por Yennie Jun | Jul, 2024

Existe una carrera hacia modelos de lenguaje con ventanas de contexto más amplias. Pero ¿qué tan buenos son y cómo podemos saberlo?

La ventana de contexto de los modelos lingüísticos ha ido creciendo a un ritmo exponencial en los últimos años. Figura creada por el autor.

Este artículo fue publicado originalmente en Arte Peces Inteligencia.

La ventana de contexto de los modelos de lenguaje grandes (la cantidad de texto que pueden procesar a la vez) ha estado aumentando a un ritmo exponencial.

En 2018, modelos de lenguaje como BERT, T5y GPT-1 Podrían aceptarse hasta 512 tokens como entrada. Ahora, en el verano de 2024, esta cifra ha aumentado a 2 millones de tokens (en LLM disponibles públicamente). Pero, ¿qué significa esto para nosotros y cómo evaluamos estos modelos cada vez más capaces?

El recientemente lanzado El modelo Gemini 1.5 Pro puede aceptar hasta 2 millones de tokens¿Pero qué significan 2 millones de tokens?

Si estimamos que 4 palabras equivalen aproximadamente a 3 tokens, significa que 2 millones de tokens pueden (casi) se adapta a toda la serie de Harry Potter y El Señor de los Anillos.

(El recuento total de palabras de los siete libros de la serie de Harry Potter es 1.084.625El recuento total de palabras de los siete libros de la serie El Señor de los Anillos es 481.103. (1.084.625 +…

Evaluación de modelos lingüísticos extensos de contexto extenso | por Yennie Jun | Jul, 2024

ByEquipo de 7 minutos

Existe una carrera hacia modelos de lenguaje con ventanas de contexto más amplias. Pero ¿qué tan buenos son y cómo podemos saberlo?

By Equipo de 7 minutos

Related Post

Una implementación de codificación para construir sistemas de inteligencia artificial de múltiples agentes con SmolAgents mediante ejecución de código, llamada de herramientas y orquestación dinámica

UCSD y Together AI Research presentan Parcae: una arquitectura estable para modelos de lenguaje en bucle que logra la calidad de un transformador dos veces más grande

Cómo construir una capa de memoria universal a largo plazo para agentes de IA utilizando Mem0 y OpenAI

You missed

El podcast UE-Startups | Entrevista con Patrick Andrae, cofundador y director ejecutivo de HomeToGo

Menos de dos semanas para el Salón Aeronáutico Internacional de San Javier 2026

Reseña de la película Bhooth Bangla: la unión de Akshay Kumar y Priyadarshan es exactamente lo que podría salvar el destino de las películas de comedia

Llevar astronautas a la luna “es absolutamente factible, y será factible pronto”, dice el comandante Artemis 2 de la NASA