Explore las principales opciones de diseño del papel Apollo de Meta

Imagen del autor – Flux.1 Schnell

Como hemos estado anticipando, los modelos se están volviendo cada vez más capaces de comprender los diferentes tipos de entradas. Hemos visto modelos de transformadores de imágenes (vea mis blogs en flujo fino y el Investigación detrás de MM1) Y ahora estamos comenzando a ver que los modelos de video llegan a la escena.

En diciembre de 2024, Meta dio a conocer su nueva familia de modelos Apollo. Cuando dieron a conocerlos, también publicaron un artículo que detalla su investigación y trabaja en torno a grandes modelos multimodales (LMM). El documento está lleno de excelentes detalles, por lo que en lugar de tratar de cubrirlo todo, me centraré en las 4 principales opciones de diseño que destacaron al hacer su modelo.

¡Vamos a sumergirnos!

Incrustación

Primero diseñemos algunas ideas rápidas que son importantes para entender lo que está pasando aquí. Cada transformador se basa en incrustaciones para su entrada. Sin embargo, la entrada del usuario típicamente se convierte primero de algo entendido por el usuario (texto, videos) a tokens y luego incrustaciones. Para convertir a incrustaciones, utilizamos un modelo de incrustación. Para entradas multimodales, generalmente usamos un codificador diferente para cada tipo de entrada.

Por automata