Históricamente, hemos utilizado modelos de aprendizaje automático de refuerzo con entradas específicas para descubrir estrategias óptimas para maximizar métricas bien definidas (piense en obtener la puntuación más alta en un juego de arcade). Hoy en día, al LLM se le asigna un objetivo a largo plazo más ambiguo y se le ve tomando acciones para lograrlo. El hecho de que pensemos que el LLM es capaz de aproximarse a este tipo de objetivo indica un cambio importante en las expectativas de los agentes de ML.
Aquí, el LLM creará código que ejecute ciertas acciones en Minecraft. Como tienden a ser series de acciones más complejas, las llamamos habilidades.
Al crear las habilidades que se incluirán en la biblioteca de habilidades, los autores hicieron que su LLM recibiera 3 tipos distintos de retroalimentación durante el desarrollo: (1) errores de ejecución, (2) retroalimentación del entorno y (3) revisión por pares de otro LLM.
Los errores de ejecución pueden ocurrir cuando el LLM comete un error con la sintaxis del código, la biblioteca Mineflayer o algún otro elemento detectado por el compilador o en tiempo de ejecución. La retroalimentación del entorno proviene del propio juego de Minecraft. Los autores utilizan el bot.chat() función dentro de Mineflayer para obtener comentarios como “No puedo hacer pala_piedra porque necesito: 2 palos más”. Esta información luego se pasa al LLM.
Si bien la retroalimentación sobre la ejecución y el entorno parece natural, la retroalimentación de la revisión por pares puede parecer extraña. Después de todo, ejecutar dos LLM es más costoso que ejecutar solo uno. Sin embargo, como el conjunto de habilidades que puede crear el LLM es enorme, sería muy difícil escribir un código que verifique que las habilidades realmente hacen lo que se supone que deben hacer. Para solucionar esto, los autores hacen que un LLM independiente revise el código y brinde comentarios sobre si se completó la tarea. Si bien esto no es tan perfecto como verificar mediante programación que el trabajo esté terminado, es un proxy suficientemente bueno.
En orden cronológico, el LLM seguirá intentando crear una habilidad en código mientras se le brindan formas de mejorar a través de errores de ejecución, el entorno y la retroalimentación de los pares. Una vez que todos dicen que la habilidad se ve bien, se agrega a la biblioteca de habilidades para uso futuro.
La biblioteca de habilidades contiene las habilidades que el LLM generó antes y pasó por el proceso de aprobación en el paso de solicitud iterativo. Cada habilidad se agrega a la biblioteca tomando una descripción de la misma y luego convirtiendo esa descripción en una incrustación. Luego, los autores toman la descripción de la tarea y consultan la biblioteca de habilidades para encontrar habilidades con una integración similar.
Debido a que la Biblioteca de habilidades es un almacén de datos independiente, puede crecer libremente con el tiempo. El artículo no se ocupa de actualizar las habilidades que ya se encuentran en la biblioteca, por lo que parece que una vez que se aprende la habilidad permanecerá en ese estado. Esto plantea preguntas interesantes sobre cómo actualizar las habilidades a medida que avanza la experiencia.
La Voyager se considera parte del espacio del agente, donde esperamos que el LLM se comporte como una entidad por derecho propio, interactuando con el entorno y cambiando las cosas.
Con ese fin, se emplean algunas metodologías de estimulación diferentes para lograrlo. En primer lugar, AutoGPT es una biblioteca de Github que la gente ha utilizado para automatizar muchas tareas diferentes, desde acciones del sistema de archivos hasta el desarrollo de software simple. A continuación, tenemos Reflexión, que le da al LLM un ejemplo de lo que acaba de suceder y luego le pide que reflexione sobre lo que debería hacer la próxima vez en una situación similar. Usamos los consejos reflejados para decirle al jugador de Minecraft qué hacer. Finalmente, tenemos ReAct, que hará que el LLM divida las tareas en pasos más simples mediante una forma de pensar formulada. En la imagen de arriba puedes ver el formato que utiliza.
Cada una de las metodologías se incluyó en el juego y la siguiente tabla muestra los resultados. Solo los métodos AutoGPT y Voyager lograron llegar con éxito a la etapa Wooden Tool. Esto puede ser una consecuencia de los datos de formación de los LLM. Con ReAct y Reflexion, parece que se requiere una buena cantidad de conocimiento sobre la tarea en cuestión para que la indicación sea efectiva. En la siguiente tabla, podemos ver que la metodología Voyager sin la biblioteca de habilidades pudo funcionar mejor que AutoGPT, pero no pudo llegar a la categoría final de Herramienta Diamante. Por lo tanto, podemos ver claramente que la Biblioteca de habilidades juega un papel enorme aquí. En el futuro, las bibliotecas de habilidades para LLM pueden convertirse en una especie de foso para una empresa.
El progreso tecnológico es sólo una forma de ver un juego de Minecraft. La siguiente figura describe claramente las partes del mapa del juego que exploró cada LLM. Solo mire cuánto más lejos llegará la Voyager en el mapa que los demás. Queda por ver si se trata de un accidente de indicaciones ligeramente diferentes o de una parte inherente de la arquitectura de la Voyager. A medida que esta metodología se aplique a otras situaciones, tendremos una mejor comprensión.
Este artículo destaca un enfoque interesante para el uso de herramientas. A medida que presionamos para que los LLM tengan una mayor capacidad de razonamiento, buscaremos cada vez más que tomen decisiones basadas en esa capacidad de razonamiento. Si bien un LLM que se mejora a sí mismo será más valioso que uno estático, también plantea la pregunta: ¿Cómo se asegura de que no se desvíe?
Desde un punto de vista, esto se limita a la calidad de sus acciones. La mejora en entornos complejos no siempre es tan simple como maximizar una función de recompensa diferenciable. Por lo tanto, un área importante de trabajo aquí se centrará en validar que las habilidades del LLM estén mejorando en lugar de simplemente cambiar.
Sin embargo, desde un punto de vista más amplio, podemos preguntarnos razonablemente si hay algunas habilidades o áreas en las que el LLM puede volverse demasiado peligroso si se deja a su propia discreción. Me vienen a la mente áreas con impacto directo en la vida humana. Ahora bien, áreas como esta todavía tienen problemas que los LLM podrían resolver, por lo que la solución no puede ser congelar el progreso aquí y permitir que sufran personas que de otro modo se habrían beneficiado del progreso. Más bien, podemos ver un mundo en el que los LLM ejecuten las habilidades que diseñan los humanos, creando un mundo que combine la inteligencia humana y la de las máquinas.
Es un momento emocionante para construir.