5 arquitecturas de modelos de IA que todo ingeniero de IA debería conocer

Todo el mundo habla de LLM, pero el ecosistema de IA actual es mucho más grande que los simples modelos lingüísticos. Detrás de escena, toda una familia de arquitecturas especializadas está transformando silenciosamente la forma en que las máquinas ven, planifican, actúan, segmentan, representan conceptos e incluso se ejecutan de manera eficiente en dispositivos pequeños. Cada uno de estos modelos resuelve una parte diferente del rompecabezas de la inteligencia y juntos están dando forma a la próxima generación de sistemas de IA.

En este artículo, exploraremos los cinco actores principales: modelos de lenguaje grandes (LLM), modelos de visión-lenguaje (VLM), mezcla de expertos (MoE), modelos de acción grande (LAM) y modelos de lenguaje pequeño (SLM).

Los LLM toman texto, lo dividen en tokens, los convierten en incrustaciones, los pasan a través de capas de transformadores y generan texto nuevamente. Modelos como ChatGPT, Claude, Gemini, Llama y otros siguen este proceso básico.

En esencia, los LLM son modelos de aprendizaje profundo entrenados en cantidades masivas de datos de texto. Esta formación les permite comprender el lenguaje, generar respuestas, resumir información, escribir código, responder preguntas y realizar una amplia gama de tareas. Utilizan la arquitectura transformadora, que es extremadamente buena para manejar secuencias largas y capturar patrones complejos en el lenguaje.

Hoy en día, los LLM son ampliamente accesibles a través de herramientas y asistentes para el consumidor, desde ChatGPT de OpenAI y Claude de Anthropic hasta los modelos Llama de Meta, Microsoft Copilot y las familias Gemini y BERT/PaLM de Google. Se han convertido en la base de las aplicaciones modernas de IA debido a su versatilidad y facilidad de uso.

Los VLM combinan dos mundos:

Un codificador de visión que procesa imágenes o videos. Un codificador de texto que procesa el lenguaje.

Ambos flujos se encuentran en un procesador multimodal y un modelo de lenguaje genera el resultado final.

Los ejemplos incluyen GPT-4V, Gemini Pro Vision y LLaVA.

Un VLM es esencialmente un modelo de lenguaje grande al que se le ha dado la capacidad de ver. Al fusionar representaciones visuales y textuales, estos modelos pueden comprender imágenes, interpretar documentos, responder preguntas sobre imágenes, describir videos y más.

Los modelos tradicionales de visión por computadora están entrenados para una tarea específica (como clasificar gatos frente a perros o extraer texto de una imagen) y no pueden generalizar más allá de sus clases de entrenamiento. Si necesita una nueva clase o tarea, debe volver a capacitarlos desde cero.

Los VLM eliminan esta limitación. Capacitados con enormes conjuntos de datos de imágenes, videos y texto, pueden realizar muchas tareas de visión sin problemas, simplemente siguiendo instrucciones en lenguaje natural. Pueden hacer de todo, desde subtítulos de imágenes y OCR hasta razonamiento visual y comprensión de documentos de varios pasos, todo sin volver a capacitarse para tareas específicas.

Esta flexibilidad convierte a los VLM en uno de los avances más poderosos de la IA moderna.

Los modelos de combinación de expertos se basan en la arquitectura de transformador estándar, pero introducen una actualización clave: en lugar de una red de alimentación directa por capa, utilizan muchas redes de expertos más pequeñas y activan solo unas pocas para cada token. Esto hace que los modelos MoE sean extremadamente eficientes y, al mismo tiempo, ofrezcan una capacidad enorme.

En un transformador normal, cada token fluye a través de la misma red de retroalimentación, lo que significa que se utilizan todos los parámetros para cada token. Las capas MoE reemplazan esto con un grupo de expertos, y un enrutador decide qué expertos deben procesar cada token (selección Top-K). Como resultado, los modelos MoE pueden tener muchos más parámetros totales, pero solo calculan con una pequeña fracción de ellos a la vez, lo que genera un cálculo escaso.

Por ejemplo, Mixtral 8×7B tiene más de 46B parámetros, pero cada token usa solo alrededor de 13B.

Este diseño reduce drásticamente el costo de inferencia. En lugar de escalar haciendo que el modelo sea más profundo o más amplio (lo que aumenta los FLOP), los modelos MoE escalan agregando más expertos, aumentando la capacidad sin aumentar el cómputo por token. Esta es la razón por la que a menudo se describe a los MoE como “cerebros más grandes con un menor costo de tiempo de ejecución”.

Los grandes modelos de acción van un paso más allá de generar texto: convierten la intención en acción. En lugar de simplemente responder preguntas, un LAM puede comprender lo que quiere un usuario, dividir la tarea en pasos, planificar las acciones requeridas y luego ejecutarlas en el mundo real o en una computadora.

Una tubería LAM típica incluye:

Percepción – Comprender la entrada del usuario Reconocimiento de intención – Identificar lo que el usuario está tratando de lograr Descomposición de tareas – Dividir el objetivo en pasos viables Planificación de acciones + memoria – Elegir la secuencia correcta de acciones utilizando el contexto pasado y presente Ejecución – Llevar a cabo tareas de forma autónoma

Los ejemplos incluyen Rabbit R1, el marco UFO de Microsoft y Claude Computer Use, todos los cuales pueden operar aplicaciones, navegar por interfaces o completar tareas en nombre de un usuario.

Los LAM están capacitados en conjuntos de datos masivos de acciones reales de usuarios, lo que les brinda la capacidad no solo de responder, sino también de actuar: reservar salas, completar formularios, organizar archivos o realizar flujos de trabajo de varios pasos. Esto hace que la IA pase de ser un asistente pasivo a convertirse en un agente activo capaz de tomar decisiones complejas en tiempo real.

Los SLM son modelos de lenguaje livianos diseñados para ejecutarse de manera eficiente en dispositivos perimetrales, hardware móvil y otros entornos con recursos limitados. Utilizan tokenización compacta, capas de transformadores optimizadas y cuantificación agresiva para hacer posible la implementación local en el dispositivo. Los ejemplos incluyen Phi-3, Gemma, Mistral 7B y Llama 3.2 1B.

A diferencia de los LLM, que pueden tener cientos de miles de millones de parámetros, los SLM suelen oscilar entre unos pocos millones y unos pocos miles de millones. A pesar de su tamaño más pequeño, aún pueden comprender y generar lenguaje natural, lo que los hace útiles para chatear, resumir, traducir y automatizar tareas, sin necesidad de computación en la nube.

Debido a que requieren mucha menos memoria y computación, los SLM son ideales para:

Aplicaciones móviles IoT y dispositivos perimetrales Escenarios fuera de línea o sensibles a la privacidad Aplicaciones de baja latencia donde las llamadas en la nube son demasiado lentas

Los SLM representan un cambio creciente hacia una IA rápida, privada y rentable, que lleva la inteligencia lingüística directamente a los dispositivos personales.

Soy graduado en ingeniería civil (2022) de Jamia Millia Islamia, Nueva Delhi, y tengo un gran interés en la ciencia de datos, especialmente las redes neuronales y su aplicación en diversas áreas.