Investigadores de Apple presentan el muestreo especulativo paralelo (PaSS): un salto en la eficiencia y escalabilidad del modelo de lenguaje

Los investigadores de la EPFL, en colaboración con Apple, han introducido un nuevo enfoque para el muestreo especulativo llamado muestreo especulativo paralelo (PaSS). Este nuevo enfoque permite la redacción de múltiples tokens simultáneamente utilizando un solo modelo, combinando los beneficios de la generación autorregresiva y el muestreo especulativo. El método PaSS se evaluó en tareas de finalización de texto y código, mostrando un rendimiento prometedor sin comprometer la calidad del modelo. El equipo también exploró el impacto del número de incorporaciones anticipadas en el enfoque y descubrió un número óptimo para lograr los mejores resultados.

PaSS aborda las limitaciones del muestreo especulativo, que requiere dos modelos con el mismo tokenizador, al permitir la redacción de múltiples tokens en paralelo con un solo modelo. Las evaluaciones comparativas con generación autorregresiva y un método de referencia demuestran la velocidad y el rendimiento superiores de PaSS. Las pruebas en tareas de finalización de código y texto arrojan resultados prometedores sin comprometer la calidad general del modelo. También explora el impacto de los esquemas de muestreo y las incorporaciones anticipadas en el rendimiento de PaSS.

Los modelos de lenguaje grandes enfrentan limitaciones en el procesamiento del lenguaje natural debido a la generación autorregresiva, que requiere un paso hacia adelante para cada token generado y afecta el acceso a la memoria y el tiempo de procesamiento. El muestreo especulativo ofrece una solución, pero requiere dos modelos con el mismo tokenizador, lo que introduce cuellos de botella. PaSS es una alternativa que permite redactar múltiples tokens con un solo modelo, eliminando la necesidad de un segundo modelo.

El método propuesto utiliza decodificación paralela, lo que elimina la necesidad de un segundo modelo e implica dos fases: redacción y validación. Durante la fase de redacción, el modelo produce simultáneamente múltiples tokens utilizando decodificación paralela, y el primer token se excluye del borrador para que coincida con la distribución en caso de rechazo. Este enfoque logra una velocidad y un rendimiento superiores manteniendo al mismo tiempo la calidad general del modelo.

Se descubrió que el método PaSS era una forma eficaz de generar modelos de lenguaje con una aceleración significativa de hasta un 30% en comparación con la generación autorregresiva, manteniendo al mismo tiempo el rendimiento del modelo dentro del margen de error. También se demostró que PaSS genera tokens con menor varianza y mayor previsibilidad, como se demuestra en comparación con las líneas de base utilizando diferentes esquemas de muestreo. El estudio también encontró que la cantidad de pasos de anticipación impactó constantemente el rendimiento de PaSS, con una disminución en el tiempo de ejecución hasta 6 pasos de anticipación.

PaSS es una poderosa técnica de generación de modelos de lenguaje que utiliza un enfoque de redacción paralela para la decodificación de tokens con incrustaciones anticipadas ajustadas. Su eficacia para generar tokens con baja varianza y alta previsibilidad se ha demostrado mediante evaluaciones de tareas de finalización de texto y código. Se están buscando mejoras adicionales a través de tickets anticipados para mejorar aún más el rendimiento.

Las direcciones de investigación futuras recomiendan explorar métodos para mejorar la calidad de la generación paralela con tokens anticipados, considerándolo una vía prometedora para mejorar el rendimiento de PaSS. Los investigadores enfatizan la necesidad de seguir investigando el impacto del número de pasos anticipados en PaSS, ya que un mayor número de pasos podría potencialmente anular los beneficios del enfoque.

Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 33k+ ML, 41k+ comunidad de Facebook, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.

Hola, mi nombre es Adnan Hassan. Soy pasante de consultoría en Marktechpost y pronto seré aprendiz de gestión en American Express. Actualmente estoy cursando una doble titulación en el Instituto Indio de Tecnología, Kharagpur. Me apasiona la tecnología y quiero crear nuevos productos que marquen la diferencia.

↗ Tutorial paso a paso sobre ‘Cómo crear aplicaciones LLM que puedan ver, oír y hablar’

Investigadores de Apple presentan el muestreo especulativo paralelo (PaSS): un salto en la eficiencia y escalabilidad del modelo de lenguaje

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

Una implementación de codificación en OpenMementos de Microsoft con análisis de estructura de seguimiento, compresión de contexto y preparación de datos de ajuste fino

Conozca GitNexus: un motor de gráficos de conocimiento nativo de MCP de código abierto que brinda al código Claude y al cursor un conocimiento estructural completo de la base de código

Google DeepMind presenta Vision Banana: un generador de imágenes ajustado por instrucciones que supera a SAM 3 en segmentación y profundidad Anything V3 en estimación de profundidad métrica

You missed

Una pausa en el procedimiento

Gastó $ 3500 y luego se detuvieron los pedidos

Una implementación de codificación en OpenMementos de Microsoft con análisis de estructura de seguimiento, compresión de contexto y preparación de datos de ajuste fino

Vídeos de animales del ‘festín de murciélagos’ en una cueva africana ofrecen pistas sobre cómo se propagan los virus mortales