Esta es la segunda parte de una serie sobre cómo mejorar el rendimiento de Zero-Shot CLIP. En la primera parte, proporcioné una explicación detallada de cómo funciona el modelo CLIP y describí un método sencillo para mejorar su rendimiento. Esto implicó ampliar indicaciones estándar como “Una imagen de {clase}” con indicaciones personalizadas generadas por un modelo de lenguaje grande (LLM). Si aún no lo has hecho, puedes encontrar la parte 1. aquí. En este artículo presentaremos un método relativamente similar para mejorar el rendimiento de CLIP de disparo cero que, además, es muy explicable.
El modelo CLIP es un impresionante predictor de tiro cero, que permite predicciones sobre tareas para las que no ha sido entrenado explícitamente. A pesar de sus capacidades inherentes, existen varias estrategias para mejorar notablemente su rendimiento. En el primer artículo vimos una de estas estrategias; sin embargo, si bien lograr un mejor rendimiento es valioso, hay casos en los que podríamos estar dispuestos a hacer concesiones para priorizar una mejor explicabilidad. En este segundo artículo de nuestra serie exploraremos un método que no solo mejora el rendimiento del modelo CLIP de disparo cero sino que también garantiza que sus predicciones sean fácilmente comprensibles e interpretables.
En la actualidad, se encuentran disponibles varias técnicas de explicabilidad para los modelos de aprendizaje profundo. en un Artículo anterior, profundicé en los gradientes integrados, un método que indica cómo cada característica de una entrada influye en la salida de un modelo de aprendizaje automático, especialmente las redes neuronales profundas. Otro enfoque popular para la interpretación de modelos se basa en los valores de Shap, donde asignamos la contribución de cada característica al resultado del modelo en función de conceptos de la teoría de juegos cooperativos. Si bien estos métodos son versátiles y se pueden aplicar a cualquier modelo de aprendizaje profundo, su implementación e interpretación pueden resultar algo difíciles. CLIP, que ha sido entrenado para mapear características de imágenes y texto en el mismo espacio de incrustación, proporciona un método alternativo de explicabilidad basado en texto. Este enfoque es más fácil de usar y ofrece una fácil interpretación, proporcionando una perspectiva diferente sobre la explicación del modelo.