1717601308024.jpeg

Nomic AI ha presentado recientemente dos lanzamientos importantes en modelos de integración multimodal: Visión integrada Nomic v1 y Visión integrada Nomic v1.5. Estos modelos están diseñados para proporcionar incrustaciones de visión totalmente replicables y de alta calidad que se integran perfectamente con los modelos Nomic Embed Text v1 y v1.5 existentes. Esta integración crea un espacio de incrustación unificado que mejora el rendimiento de tareas multimodales y de texto, superando a competidores como OpenAI CLIP y OpenAI Text Embedding 3 Small.

Visión integrada nómica tiene como objetivo abordar las limitaciones de los modelos multimodales existentes como CLIP, que, si bien son impresionantes en capacidades multimodales de disparo cero, tienen un rendimiento inferior en tareas fuera de la recuperación de imágenes. Al alinear un codificador de visión con el espacio latente de Nomic Embed Text existente, Nomic ha creado un espacio latente multimodal unificado que sobresale en tareas de imágenes y texto. Este espacio unificado ha mostrado un rendimiento superior en puntos de referencia como Imagenet 0-Shot, MTEB y Datacomp, lo que lo convierte en el primer modelo de pesas en lograr tales resultados.

Los modelos Nomic Embed Vision pueden incrustar datos de imágenes y texto, realizar una búsqueda semántica unimodal dentro de conjuntos de datos y realizar una búsqueda semántica multimodal entre conjuntos de datos. Con solo 92M de parámetros, el codificador de visión es ideal para casos de uso de producción de gran volumen y complementa el 137M Nomic Embed Text. Nomic ha abierto el código de entrenamiento y las instrucciones de replicación, lo que permite a los investigadores reproducir y mejorar los modelos.

El rendimiento de estos modelos se compara con estándares establecidos, y Nomic Embed Vision demuestra un rendimiento superior en diversas tareas. Por ejemplo, Nomic Embed v1 logró 70,70 en Imagenet 0-shot, 56,7 en Datacomp Avg. y 62,39 en MTEB Avg. Nomic Embed v1.5 tuvo un rendimiento ligeramente mejor, lo que indica la solidez de estos modelos.

Nomic Embed Vision potencia la búsqueda multimodal en Atlas, mostrando su capacidad para comprender consultas textuales y contenido de imágenes. Una consulta de ejemplo demostró la comprensión semántica del modelo al recuperar imágenes de animales de peluche de un conjunto de datos de 100.000 imágenes y leyendas.

La formación de Nomic Embed Vision implicó varios enfoques innovadores para alinear el codificador de visión con el codificador de texto. Estos incluyeron capacitación sobre pares de imagen y texto y datos de solo texto, utilizando un método de capacitación de Three Towers y ajuste de texto de imagen bloqueada. El enfoque más eficaz implicó congelar el codificador de texto y entrenar el codificador de visión en pares imagen-texto, asegurando la compatibilidad con versiones anteriores de las incrustaciones de Nomic Embed Text.

El codificador de visión se entrenó en un subconjunto de 1.500 millones de pares de imagen y texto utilizando 16 GPU H100, logrando resultados impresionantes en el punto de referencia de Datacomp, que incluye 38 tareas de clasificación y recuperación de imágenes.

Nomic ha lanzado dos versiones de Nomic Embed Vision, v1 y v1.5, que son compatibles con las versiones correspondientes de Nomic Embed Text. Esta compatibilidad permite realizar tareas multimodales sin interrupciones en diferentes versiones. Los modelos se lanzan bajo una licencia CC-BY-NC-4.0, lo que fomenta la experimentación y la investigación, con planes de volver a obtener la licencia bajo Apache-2.0 para uso comercial.

En conclusión, Nomic Embed Vision v1 y v1.5 transforman incrustaciones multimodales, proporcionando un espacio latente unificado que sobresale en tareas de imágenes y texto. Con códigos de capacitación de código abierto y un compromiso con la innovación continua, Nomic AI establece un nuevo estándar en la integración de modelos y ofrece herramientas poderosas para diversas aplicaciones.


Asif Razzaq es el director ejecutivo de Marktechpost Media Inc.. Como emprendedor e ingeniero visionario, Asif está comprometido a aprovechar el potencial de la inteligencia artificial para el bien social. Su esfuerzo más reciente es el lanzamiento de una plataforma de medios de inteligencia artificial, Marktechpost, que se destaca por su cobertura en profundidad del aprendizaje automático y las noticias sobre aprendizaje profundo que es técnicamente sólida y fácilmente comprensible para una amplia audiencia. La plataforma cuenta con más de 2 millones de visitas mensuales, lo que ilustra su popularidad entre el público.