Screenshot 2024 02 12 At 12.13.34 Pm.png

Nomic AI lanzó un modelo de integración con un proceso de capacitación de varias etapas. Incrustar nómico, un modelo de incrustación de texto de código abierto, auditable y de alto rendimiento. También tiene una longitud de contexto extendida que admite tareas como la recuperación de generación aumentada (RAG) y la búsqueda semántica. Los modelos populares existentes, incluido el text-embedded-ada-002 de OpenAI, carecen de apertura y auditabilidad. El modelo aborda el desafío de desarrollar un modelo de incrustación de texto que supere a los modelos actuales de código cerrado.

Los modelos actuales de última generación dominan las tareas de incrustación de texto de contexto largo. Sin embargo, su naturaleza de fuente cerrada y la falta de disponibilidad de datos de capacitación para la auditabilidad plantean limitaciones. La solución propuesta, Incrustar nómico, proporciona un modelo de incrustación de texto de código abierto, auditable y de alto rendimiento. Las características clave de Nomic Embed incluyen una longitud de contexto de 8192, reproducibilidad y transparencia.

Nomic Embed se construye a través de un proceso de aprendizaje contrastivo de varias etapas. Comienza entrenando un modelo BERT con una longitud de contexto de 2048 tokens, denominado nomic-bert-2048, con modificaciones inspiradas en MosaicBERT. La formación implica:

  1. Incrustaciones de posición rotativa,
  2. activaciones SwiGLU,
  3. Velocidad profunda y FlashAttention,
  4. Precisión BF16.

Usó vocabulario de mayor tamaño y un tamaño de lote de 4096. Luego, el modelo se entrena de manera contrastiva con ~235 millones de pares de texto, lo que garantiza conjuntos de datos etiquetados de alta calidad y extracción de ejemplos concretos. Nomic Embed supera a los modelos existentes en puntos de referencia como Massive Text Embedding Benchmark (MTEB), LoCo Benchmark y Jina Long Context Benchmark.

Nomic Embed no solo supera los modelos de código cerrado como text-embedding-ada-002 de OpenAI, sino que también supera a otros modelos de código abierto en varios puntos de referencia. El énfasis en la transparencia, la reproducibilidad y la publicación de pesos de modelos, códigos de entrenamiento y datos seleccionados muestran un compromiso con la apertura en el desarrollo de la IA. El desempeño de Nomic Embed en tareas de contexto prolongado y el llamado a mejorar los paradigmas de evaluación subrayan su importancia en el avance del campo de las incrustaciones de texto.


Pragati Jhunjhunwala es pasante de consultoría en MarktechPost. Actualmente está cursando su B.Tech en el Instituto Indio de Tecnología (IIT), Kharagpur. Es una entusiasta de la tecnología y tiene un gran interés en el alcance del software y las aplicaciones de ciencia de datos. Siempre está leyendo sobre los avances en diferentes campos de la IA y el ML.