Google Deepmind Research Lotes Siglip2: una familia de nuevos codificadores de lenguaje de visión multilingüe con una mejor comprensión semántica, localización y características densas

Los modelos modernos en idioma de visión han transformado la forma en que procesamos los datos visuales, sin embargo, a menudo se quedan cortos cuando se trata de localización de grano fino y extracción densa de características. Muchos modelos tradicionales se centran en la comprensión semántica de alto nivel y la clasificación de cero disparos, pero luchan con un razonamiento espacial detallado. Estas limitaciones pueden afectar las aplicaciones que requieren una localización precisa, como el análisis de documentos o la segmentación de objetos.

Además, los modelos que dependen principalmente de la pérdida de contrastes a veces no funcionan bien en las tareas que necesitan señales espaciales refinadas. También existe un desafío para apoyar múltiples idiomas y garantizar una representación justa en diversos contextos culturales. Abordar estos problemas es esencial para crear modelos que sean técnicamente robustos y socialmente responsables.

Google Deepmind Research Lotes Siglip2: una familia de nuevos codificadores de lenguaje de visión multilingüe con una mejor comprensión semántica, localización y características densas. SIGLIP 2 extiende el objetivo de entrenamiento de texos de imagen original mediante la combinación de pretruación basada en subtítulos con enfoques auto-supervisados ​​como la autodistilación y la predicción enmascarada. Esta combinación está diseñada para mejorar tanto la representación semántica general como la capacidad del modelo para capturar características locales y detalladas. El proceso de capacitación también incluye una combinación de datos multilingües, principalmente inglés con una menor proporción de contenido no inglés, y emplea métodos de desacramamiento para garantizar resultados más justos.

Detalles y beneficios técnicos

En esencia, Siglip 2 se basa en la base de los transformadores de visión, asegurando la compatibilidad con versiones anteriores con versiones anteriores. Esto significa que los usuarios pueden reemplazar los pesos del modelo sin la necesidad de revisar todo su sistema. El modelo utiliza una pérdida sigmoidea en lugar de la pérdida de contraste tradicional, lo que permite un aprendizaje más equilibrado de las características globales y locales.

Además de la pérdida sigmoide, Siglip 2 incorpora una pérdida basada en el decodificador. Esto ayuda a aprender tareas como el subtítulos de imágenes y la localización específica de la región, lo que finalmente conduce a un mejor rendimiento en tareas de predicción densas. El diseño del modelo también incluye un cabezal de mapa para las características de agrupación de la imagen y los componentes de texto, asegurando que las representaciones aprendidas sean robustas y detalladas. Otro aspecto técnico notable es la introducción de la variante Naflex. NAFLEX admite relaciones de aspecto nativas mediante el procesamiento de imágenes en varias resoluciones utilizando un solo punto de control. Este método ayuda a mantener la integridad de la información espacial de la imagen, que es particularmente importante en las tareas donde la relación de aspecto puede influir en el resultado, como la comprensión de documentos u OCR.

Además, el uso de la autodistilación y la predicción enmascarada mejora la calidad de las características locales. Al entrenar al modelo para predecir parches enmascarados, aprende a centrarse en detalles sutiles que son cruciales para tareas como la segmentación y la estimación de la profundidad. Este diseño cuidadoso permite que los modelos aún más pequeños logren un rendimiento mejorado a través de técnicas de destilación mejoradas.

Resultados, información de datos y evaluación

Los resultados experimentales en el documento respaldan las opciones técnicas realizadas en Siglip 2. En varios puntos de referencia, incluidas las pruebas de clasificación de disparo cero en Imagenet, ObjectNet e Imagenet Real, el modelo muestra mejoras consistentes sobre los modelos anteriores. Los beneficios son particularmente claros en las tareas que exigen una comprensión espacial detallada.

Para tareas de recuperación de imágenes de imagen multilingüe, como las evaluadas en CrossModal-3600, Siglip 2 funciona de manera competitiva con modelos diseñados exclusivamente para datos multilingües. Al mismo tiempo, mantiene un fuerte rendimiento en las tareas centradas en inglés. Este equilibrio se logra a través de cuidadosos métodos de curación y entrenamiento de datos que enfatizan tanto la riqueza semántica como la precisión de localización. En tareas de predicción densa, como la segmentación semántica, la estimación de profundidad y la predicción normal de la superficie, las ventajas del modelo son nuevamente evidentes. Cuando se analiza en marcos de segmentación de vocabulario abierto como CAT-Seg, Siglip 2 informa consistentemente las puntuaciones de intersección media sobre sindicato (MIOU) consistentemente en comparación con sus predecesores y otros modelos de peso abierto. Estos resultados son un testimonio de la capacidad del modelo para capturar detalles complejos en las imágenes.

Las tareas de localización también se benefician de la capacitación refinada del modelo. Por ejemplo, al referir la comprensión de la expresión y la detección de vocabulario abierto, las mejoras de rendimiento son claras. El modelo no solo alinea las características de texto e imagen de manera más efectiva, sino que también demuestra una tendencia reducida hacia asociaciones sesgadas. En evaluaciones de sesgo de representación, Siglip 2 muestra una marcada disminución en las asociaciones injustas de objeto a género, lo que subraya la importancia de las técnicas de desparasamiento utilizadas durante el entrenamiento. La investigación presenta una gama de tablas y cifras comparativas que detallan estas mejoras. Los datos sugieren que a medida que aumenta el tamaño del modelo, los beneficios de estas mejoras de capacitación se vuelven aún más pronunciados. En varias configuraciones y resoluciones, el rendimiento del modelo sigue siendo robusto, lo que lo convierte en un candidato fuerte tanto para la investigación como para las aplicaciones prácticas.

Conclusión

En conclusión, Siglip 2 representa un paso adelante y bien diseñado en el desarrollo de modelos en idioma de visión. Integra técnicas establecidas con innovaciones reflexivas para abordar desafíos conocidos, como la localización de grano fino, la predicción densa y el soporte multilingüe. Al alejarse de las pérdidas únicamente contrastadas e incorporar objetivos adicionales auto-supervisados, Siglip 2 logra una representación más equilibrada de los datos visuales. Su cuidadoso manejo de las relaciones de aspecto nativas a través de la variante NAFLEX mejora aún más su aplicabilidad en escenarios del mundo real donde es importante la integridad de la imagen.

La inclusión de datos multilingües y medidas de desacramamiento refleja una conciencia de los diversos contextos en los que operan estos modelos. Este enfoque no solo mejora el rendimiento en varios puntos de referencia, sino que también garantiza que el modelo esté mejor alineado con consideraciones éticas más amplias en la IA. En general, el lanzamiento de Siglip 2 es un desarrollo prometedor para la comunidad de investigación en idioma visión. Ofrece un marco versátil y compatible con retroceso que se puede integrar fácilmente en los sistemas existentes. La capacidad del modelo para ofrecer un rendimiento confiable en una variedad de tareas, mientras se mantiene la equidad y la inclusión, establece un punto de referencia reflexivo para futuras investigaciones en este campo.


    Verificar el Papel, Página de Github y Modelos en la cara abrazada. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, siéntete libre de seguirnos Gorjeo Y no olvides unirte a nuestro 75k+ ml de subreddit.

    🚨 Lectura de lectura recomendada Liberaciones de investigación de IA: un sistema avanzado que integra el sistema de IA del agente y los estándares de cumplimiento de datos para abordar las preocupaciones legales en los conjuntos de datos de IA


    Aswin AK es un pasante de consultoría en MarktechPost. Está buscando su doble título en el Instituto de Tecnología Indio, Kharagpur. Le apasiona la ciencia de datos y el aprendizaje automático, aportando una sólida experiencia académica y una experiencia práctica en la resolución de desafíos de dominio de la vida real.