Cómo elegir el modelo de visión adecuado para sus necesidades específicas: más allá de la precisión de ImageNet: un análisis comparativo de redes neuronales convolucionales y arquitecturas de transformadores de visión

Ha habido un aumento espectacular en la complejidad del panorama de los modelos de visión por computadora. Muchos modelos están ahora a su alcance, desde los primeros ConvNets hasta los últimos Vision Transformers. Así como el aprendizaje supervisado en ImageNet dio paso al aprendizaje autosupervisado y al entrenamiento de pares imagen-texto, como CLIP, también lo hicieron los paradigmas de entrenamiento.

En comparación con ResNets, el codificador visual de CLIP es mucho más resistente y transferible, aunque tiene una precisión de ImageNet comparable. Debido a esto, los estudios han comenzado a investigar y ampliar las distintas ventajas de CLIP, que no eran evidentes cuando se usaba solo la métrica ImageNet. Esto demuestra que observar varios atributos podría conducir al descubrimiento de modelos prácticos.

Además de la investigación básica, se requiere un conocimiento profundo de los comportamientos de los modelos de visión debido a su creciente incorporación a los sistemas productivos. Las métricas tradicionales se quedan cortas cuando se trata de problemas de visión del mundo real, como diferentes posturas de la cámara, condiciones de iluminación u oclusiones.

Para llenar este vacío, un nuevo estudio de MBZUAI y Meta AI Research investiga las características del modelo más allá de la corrección de ImageNet. Los investigadores examinan cuatro modelos principales en visión por computadora: ConvNeXt, que significa ConvNet, y Vision Transformer (ViT), todos entrenados utilizando métodos CLIP y supervisados. Todos los modelos elegidos son comparables en recuento de parámetros y precisión de ImageNet-1K en todos los paradigmas de entrenamiento, lo que garantiza una comparación objetiva. En este trabajo se exploran los tipos de errores de predicción, la generalización, la calibración, las invarianzas de las representaciones aprendidas y muchas más propiedades del modelo.

El objetivo principal del equipo era arrojar luz sobre las cualidades intrínsecas del modelo que no requieren más capacitación ni ajustes para que los profesionales puedan tomar decisiones informadas cuando trabajan con modelos previamente entrenados. Encuentran que varias topologías y paradigmas de entrenamiento exhiben comportamientos de modelo significativamente variados. En comparación con su rendimiento ImageNet, los modelos CLIP, por ejemplo, producen menos errores de clasificación. Por otro lado, cuando se trata de pruebas comparativas de robustez de ImageNet, los modelos supervisados ​​tienden a funcionar mejor y tener una mejor calibración. En comparación con ViT, ConvNeXt está más sesgado en cuanto a texturas, aunque sobresale en datos sintéticos.

Además, los investigadores descubrieron que ConvNeXt supervisado supera a los modelos CLIP en cuanto a transferibilidad y funciona bastante bien en numerosos puntos de referencia. Estos resultados muestran que diferentes modelos muestran sus fortalezas de manera diferente y que una sola estadística no puede medir adecuadamente estas diferencias. Los hallazgos resaltan la importancia de desarrollar puntos de referencia nuevos e independientes y métricas de evaluación más completas para una selección de modelos precisa y específica del contexto.

Cuando la distribución de tareas deseada es similar a ImageNet, el equipo elige ConvNeXt supervisado porque supera numerosos puntos de referencia. Recomiendan el uso de modelos CLIP en caso de una transición de dominio significativa.


Revisar la Papel, Proyecto, y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo. Unirse nuestro SubReddit de 36k+ ML, 41k+ comunidad de Facebook, Canal de discordiay LinkedIn Grarriba.

Si te gusta nuestro trabajo, te encantará nuestro Boletin informativo..

No olvides unirte a nuestro Canal de telegramas


Dhanshree Shenwai es ingeniero en informática y tiene una buena experiencia en empresas de tecnología financiera que cubren el ámbito financiero, tarjetas y pagos y banca con un gran interés en las aplicaciones de IA. Le entusiasma explorar nuevas tecnologías y avances en el mundo en evolución de hoy que facilita la vida de todos.