Una guía paso a paso para crear agentes visuales que puedan navegar por la web de forma autónoma
Esta publicación fue escrita en coautoría con Rafael Guedes.
En la era del crecimiento exponencial de la inteligencia artificial, el tema del momento es el surgimiento de la IA agente. Estos sistemas de IA aprovechan los grandes modelos de lenguaje (LLM) para tomar decisiones, planificar y colaborar con otros agentes o humanos.
Cuando envolvemos un LLM con un rol, un conjunto de herramientas y un objetivo específico, creamos lo que llamamos un agente. Al centrarse en un objetivo bien definido y tener acceso a API relevantes o herramientas externas (como motores de búsqueda, bases de datos o incluso interfaces de navegador; más sobre esto más adelante), los agentes pueden explorar de forma autónoma caminos para lograr sus objetivos. Por lo tanto, la IA agente abre un nuevo paradigma en el que múltiples agentes pueden abordar flujos de trabajo complejos de varios pasos.
John Carmack y Andrej Karpathy discutieron recientemente un tema en X (anteriormente Twitter) que inspiró este artículo. Carmack mencionó que los asistentes impulsados por IA pueden impulsar aplicaciones para exponer funciones a través de interfaces basadas en texto. En este mundo, los LLM hablan con una interfaz de línea de comandos incluida en la interfaz gráfica de usuario (también conocida como GUI), evitando parte de la complejidad de la navegación basada puramente en la visión (que existe porque los humanos la necesitamos). Karpathy plantea el punto válido de que los sistemas avanzados de IA pueden mejorar en…