Google ha lanzado una nueva familia de modelos de lenguaje visual llamada PaliGemma. PaliGemma puede producir texto al recibir una imagen y una entrada de texto. La arquitectura de la familia de modelos de lenguaje visión PaliGemma (Github) consta del codificador de imágenes SigLIP-So400m y el decodificador de texto Gemma-2B. Un modelo de vanguardia que puede comprender tanto texto como imágenes se llama SigLIP. Comprende un codificador de imágenes y texto entrenado conjuntamente, similar a CLIP. Al igual que PaLI-3, el modelo PaliGemma combinado se puede perfeccionar fácilmente en tareas posteriores, como subtítulos o segmentación de referencias, después de haber sido entrenado previamente con datos de imagen y texto. Gemma es un modelo generador de texto que requiere un decodificador. Al utilizar un adaptador lineal para integrar Gemma con el codificador de imágenes de SigLIP, PaliGemma se convierte en un potente modelo de lenguaje de visión.
Big_vision se utilizó como código base de entrenamiento para PaliGemma. Utilizando la misma base de código, ya se han desarrollado muchos otros modelos, incluidos CapPa, SigLIP, LiT, BiT y el ViT original.
La versión PaliGemma incluye tres tipos de modelos distintos, cada uno de los cuales ofrece un conjunto único de capacidades:
- Puntos de control PT: estos modelos previamente entrenados son altamente adaptables y están diseñados para sobresalir en una variedad de tareas. Puntos de control combinados: modelos PT ajustados para una variedad de tareas. Sólo se pueden utilizar con fines de investigación y son apropiados para inferencias de propósito general con indicaciones de texto libre.
- Puntos de control FT: una colección de modelos refinados centrados en un estándar académico distinto. Sólo están destinados a la investigación y vienen en varias resoluciones.
Los modelos están disponibles en tres niveles de precisión distintos (bfloat16, float16 y float32) y tres niveles de resolución diferentes (224×224, 448×448 y 896×896). Cada repositorio contiene los puntos de control para un determinado trabajo y resolución, con tres revisiones para cada precisión posible. La rama principal de cada repositorio tiene puntos de control float32, mientras que las revisiones bfloat16 y float16 tienen precisiones coincidentes. Es importante tener en cuenta que los modelos compatibles con la implementación JAX original y los transformadores de cara abrazada tienen repositorios diferentes.
Los modelos de alta resolución, aunque ofrecen una calidad superior, requieren mucha más memoria debido a sus secuencias de entrada más largas. Esto podría ser una consideración para usuarios con recursos limitados. Sin embargo, el aumento de calidad es insignificante para la mayoría de las tareas, lo que convierte a las versiones 224 en una opción adecuada para la mayoría de usos.
PaliGemma es un modelo de lenguaje visual de un solo turno que funciona mejor cuando se adapta a un caso de uso particular. No está diseñado para uso conversacional. Esto significa que, si bien destaca en tareas específicas, puede que no sea la mejor opción para todas las aplicaciones.
Los usuarios pueden especificar la tarea que realizará el modelo calificándolo con prefijos de tarea como “detectar” o “segmentar”. Esto se debe a que los modelos previamente entrenados se entrenaron de manera que les brindaran una amplia gama de habilidades, como respuesta a preguntas, subtítulos y segmentación. Sin embargo, en lugar de usarse inmediatamente, están diseñados para ajustarse a tareas específicas utilizando una estructura de indicaciones comparable. La familia de modelos ‘mix’, perfeccionada en diversas tareas, se puede utilizar para pruebas interactivas.
A continuación se muestran algunos ejemplos de lo que PaliGemma puede hacer: puede agregar títulos a imágenes, responder preguntas sobre imágenes, detectar entidades en imágenes, segmentar entidades dentro de imágenes y razonar y comprender documentos. Estas son sólo algunas de sus muchas capacidades.
- Cuando se le solicita, PaliGemma puede agregar títulos a las imágenes. Con los puntos de control combinados, los usuarios pueden experimentar con diferentes indicaciones de subtítulos para observar cómo reaccionan.
- PaliGemma puede responder a una pregunta sobre una imagen transmitida con ella.
- PaliGemma puede utilizar el detector [entity] Solicitud de búsqueda de entidades en una imagen. La ubicación de las coordenadas del cuadro delimitador se imprimirá como tokens únicos, donde el valor es un número entero que denota una coordenada normalizada.
- Cuando se le solicite el segmento [entity] rápido, los puntos de control de mezcla de PaliGemma también pueden segmentar entidades dentro de una imagen. Debido a que el equipo utiliza descripciones en lenguaje natural para referirse a los elementos de interés, esta técnica se conoce como segmentación de expresiones de referencia. El resultado es una serie de tokens de segmentación y ubicación. Como se mencionó anteriormente, un cuadro delimitador está representado por los tokens de ubicación. Se pueden crear máscaras de segmentación procesando los tokens de segmentación una vez más.
- Los puntos de control combinados de PaliGemma son muy buenos para razonar y comprender documentos.
el campo.
Revisar la Blog, Modeloy Manifestación. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Únete a nuestro Canal de telegramas, Canal de discordiay LinkedIn Grarriba.
Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..
No olvides unirte a nuestro SubReddit de 42k+ ML
Dhanshree Shenwai es ingeniero en informática y tiene una buena experiencia en empresas de tecnología financiera que cubren el ámbito financiero, tarjetas y pagos y banca con un gran interés en las aplicaciones de IA. Le entusiasma explorar nuevas tecnologías y avances en el mundo en evolución de hoy que facilita la vida de todos.