Adept AI presenta Fuyu-Heavy: un nuevo modelo multimodal diseñado específicamente para agentes digitales

Con el crecimiento de las aplicaciones de IA de moda, los modelos de Machine Learning ML se utilizan para diversos fines, lo que lleva a un aumento en la llegada de modelos multimodales. Los modelos multimodales son muy útiles y los investigadores están poniendo mucho énfasis en ellos hoy en día, ya que ayudan a reflejar la complejidad de la cognición humana al integrar diversas fuentes de datos, como texto e imágenes. Además, estos modelos son valiosos en diversas aplicaciones en múltiples dominios.

Los investigadores expertos en IA han ideado un nuevo modelo multimodal llamado Fuyu-Heavy. Es el tercer modelo multimodal con mayor capacidad del mundo; solo GPT4-V y Gemini Ultra están por delante pero superaron a Gemini Pro en comprensión del lenguaje multimodal (MMLU) y comprensión del modelo multimodal (MOU). Los investigadores enfatizan que el modelo es más pequeño que sus contrapartes pero demuestra un desempeño encomiable en varios puntos de referencia. Los investigadores destacan que el desarrollo de Fuyu-Heavy necesitaba tener un equilibrio entre las tareas de modelado del lenguaje y de la imagen. Para ello, probaron y utilizaron metodologías especializadas para un rendimiento óptimo a escala.

En su reciente entrada en el blog, Los investigadores de Adept AI destacaron que la formulación de Fuyu-Heavy fue un gran desafío. La propia escala del desarrollo de un modelo tan grande generó muchos desafíos. Además, la compleja tarea de entrenar una arquitectura novedosa a partir de datos textuales y visuales planteó muchos desafíos. Además, los datos de imágenes de entrenamiento ejercieron una presión sustancial sobre los sistemas, lo que requirió la gestión de la afluencia de datos, la utilización de la memoria y el ancho de banda del almacenamiento en la nube.

Además, los investigadores necesitaban más datos de preentrenamiento de imágenes de alta calidad, lo que supuso un desafío adicional. Esto obligó a los investigadores a formular métodos innovadores de conjuntos de datos y, por lo tanto, utilizaron recursos existentes y datos generados sintéticamente para las capacidades de procesamiento de imágenes del modelo. Además, el manejo de los sistemas de coordenadas durante las etapas de entrenamiento e inferencia y diversos formatos de imágenes presentó desafíos formidables. Para abordar estos desafíos, los investigadores tuvieron que prestar atención a los detalles y a medidas rigurosas de garantía de calidad.

https://www.adept.ai/blog/adept-fuyu-heavy

Los investigadores probaron el modelo en varios puntos de referencia. Descubrieron que supera el rendimiento de muchos modelos más grandes dentro de su clase informática y funciona igualmente bien en muchos otros modelos grandes, lo que demuestra la precisión y capacidad de este modelo. Además, descubrieron que Fuyu-Heavy Chat demostró ser eficaz en la IA conversacional, ya que tiene capacidades similares a sus homólogos más grandes como Claude 2.0 en plataformas de evaluación de chat ampliamente utilizadas, como MT-Bench y AlpacaEval 1.0.

Hicieron hincapié en que se centrarían en mejorar las capacidades del modelo base en el futuro. Según el entrada en el blog, el equipo de investigación está estudiando cómo convertir estos modelos base en agentes útiles mediante modelos de recompensa, autojuego y varias técnicas de búsqueda en tiempo de inferencia. También se centran en conectar estos modelos para crear productos útiles y confiables. La capacidad de este modelo para integrar tareas de procesamiento de texto e imágenes muestra su potencial en diversos dominios. A medida que los investigadores trabajen para mejorar la eficacia y las capacidades de este modelo, aumentarán las aplicaciones prácticas de Fuyu-Heavy.

Rachit Ranjan es pasante de consultoría en MarktechPost. Actualmente está cursando su B.Tech en el Instituto Indio de Tecnología (IIT) de Patna. Está dando forma activamente a su carrera en el campo de la inteligencia artificial y la ciencia de datos y le apasiona y se dedica a explorar estos campos.

🧑‍💻 [FREE AI WEBINAR] ‘Cree análisis de imágenes/documentos en tiempo real con GPT-4 Vision’ (29 de enero de 2024)

Adept AI presenta Fuyu-Heavy: un nuevo modelo multimodal diseñado específicamente para agentes digitales

ByEquipo de 7 minutos

By Equipo de 7 minutos

Related Post

NVIDIA lanza Nemotron-Labs-TwoTower: un modelo de lenguaje de difusión de peso abierto construido sobre una columna vertebral autorregresiva congelada Nemotron-3-Nano-30B-A3B

Simplifique el acceso de múltiples cuentas a los modelos de Amazon Bedrock con derechos administrados

CUP (Python útil común): creación de flujos de trabajo de Python confiables con el kit de herramientas de utilidad de Baidu

You missed

Torrevieja lanza la campaña de compras de verano con más de 5.000€ en premios – The Leader

Danica Patrick genera expectación con una nueva foto junto al hombre misterioso

Por qué esta computadora cuántica de 98 qubits es tan importante

Las cuatro barreras que todo fundador de DeepTech enfrenta antes de escalar y cómo superarlas