Una variedad de modelos de lenguajes grandes (LLM) han demostrado sus capacidades en los últimos tiempos. Con los campos en constante avance de la Inteligencia Artificial (IA), el Procesamiento del Lenguaje Natural (NLP) y la Generación del Lenguaje Natural (NLG), estos modelos han evolucionado y han entrado en casi todas las industrias. En el creciente campo de la IA, se ha vuelto esencial tener integración de texto, imágenes y sonido para crear modelos complejos que puedan manejar y analizar una variedad de fuentes de entrada.
En respuesta a esto, Fireworks.ai ha publicado fuegoLLaVA, el primer modelo multimodal de código abierto bajo la licencia comunitaria Llama 2 que es comercialmente permisivo. El equipo ha compartido que los modelos de visión-lenguaje (VLM) serán mucho más versátiles con la técnica de FireLLaVA para comprender tanto indicaciones de texto como contenido visual.
Se ha demostrado que los modelos visión-lenguaje (VLM) son extremadamente útiles en una variedad de aplicaciones, incluida la creación de chatbots que pueden comprender datos gráficos y la creación de descripciones de marketing basadas en fotografías de productos. El conocido Modelo de Lenguaje Visual (VLM), LLaVA, destaca por su notable rendimiento en 11 pruebas. Sin embargo, debido a su licencia no comercial, la versión de código abierto, LLaVA v1.5 13B, tiene restricciones en su uso comercial.
Esta restricción ha sido abordada por FireLLaVA, que está disponible para descarga, experimentación e integración de proyectos de forma gratuita bajo una licencia comercialmente permisiva.. Trabajando más allá del potencial de LLaVA, FireLLaVA utiliza una arquitectura genérica y una metodología de capacitación para permitir que el modelo de lenguaje comprenda y responda a entradas textuales y visuales con igual eficiencia.
FireLLaVA se desarrolló con la idea de trabajar con una amplia gama de aplicaciones del mundo real, como responder preguntas basadas en fotografías y descifrar fuentes de datos complejas, lo que mejora la precisión y la amplitud de los conocimientos basados en IA.
Los datos de entrenamiento son un obstáculo importante en el desarrollo de modelos que puedan usarse comercialmente. A pesar de ser de código abierto, el modelo LLaVA original tenía limitaciones porque tenía licencia bajo términos no comerciales y se entrenó utilizando datos proporcionados por GPT-4. En FireLLaVA, el equipo ha adoptado una estrategia única de generar y entrenar datos utilizando únicamente modelos de software de código abierto (OSS).
Para equilibrar la calidad y la eficiencia del modelo, el equipo ha utilizado el modelo OSS CodeLlama 34B Instruct de solo lenguaje para replicar los datos de entrenamiento. Tras la evaluación, el equipo compartió que el modelo FireLLaVA resultante tuvo un rendimiento comparable al modelo LLaVA original en varios puntos de referencia. FireLLaVA tuvo un mejor desempeño que el modelo original en cuatro de los siete puntos de referencia, lo que demuestra la eficacia de iniciar un modelo de solo lenguaje para la creación de datos de entrenamiento del modelo VLM de alta calidad.
El equipo ha compartido que fuegoLLaVA permite a los desarrolladores incorporar fácilmente funciones con capacidad de visión en sus aplicaciones utilizando sus API de finalización y finalización de chat, ya que la interfaz API es compatible con los modelos OpenAI Vision. El equipo ha compartido algunos ejemplos de demostración del uso del modelo en el sitio web del proyecto. En un ejemplo, se proporcionó al modelo una imagen de un tren que cruzaba un puente con el mensaje de describir la escena en la imagen, lo que el modelo explicó perfectamente y proporcionó una descripción precisa de la imagen y la escena.
El lanzamiento de FireLLaVA es un avance notable en Inteligencia Artificial multimodal. El desempeño de FireLLaVA en los puntos de referencia indica un futuro brillante para la creación de modelos visión-lenguaje flexibles y rentables.
Tanya Malhotra es estudiante de último año de la Universidad de Estudios de Petróleo y Energía, Dehradun, y cursa BTech en Ingeniería en Ciencias de la Computación con especialización en Inteligencia Artificial y Aprendizaje Automático.
Es una entusiasta de la Ciencia de Datos con buen pensamiento analítico y crítico, junto con un ardiente interés en adquirir nuevas habilidades, liderar grupos y gestionar el trabajo de manera organizada.