Screenshot 2023 10 17 At 2.45.54 Pm.png

Casi todos los objetivos descritos en lenguaje natural pueden optimizarse consultando un modelo de lenguaje. Sin embargo, un programa puede frecuentemente proporcionar resultados con mayores valores objetivos al realizar varias llamadas organizadas a un modelo de lenguaje. Se refieren a estos como programas de “andamio” y, a menudo, son creados (por personas) utilizando un lenguaje informático como Python. Su principal hallazgo es que el diseño de un programa de andamiaje es una cuestión de optimización para cualquier problema de distribución sobre optimización y cualquier modelo de lenguaje determinado. Investigadores de Microsoft Research y la Universidad de Stanford describen en este artículo el Optimizador autodidacta (STOP), una técnica en la que la aplicación recursiva de código que utiliza un modelo de lenguaje para mejorar cualquier solución determinada conduce a la superación personal.

Su método comienza con un programa inicial de andamiaje “mejorador” de semillas que utiliza el modelo de lenguaje para mejorar una respuesta a un desafío posterior. El modelo mejora este programa de mejora a medida que el sistema itera. Para medir la eficacia de su arquitectura de optimización automática, aplican una selección limitada de tareas algorítmicas posteriores. Sus hallazgos muestran que el modelo mejora a medida que pasa por más iteraciones utilizando sus técnicas de superación personal. STOP demuestra cómo los modelos de lenguaje pueden funcionar como sus metaoptimizadores de esta manera. Además, analizan el tipo de tácticas de superación personal que sugiere el modelo (ver Figura 1), qué tan bien las estrategias recomendadas se traducen en tareas posteriores y si el modelo es vulnerable a técnicas de superación personal riesgosas.

Figura 1: Aquí se muestran ejemplos de técnicas de superación personal sugeridas y utilizadas por GPT-4. Luego, el código arbitrario, incluido el código de andamiaje en sí, se revisa utilizando cada técnica como andamio.

Dado que el modelo de lenguaje subyacente no se modifica, este problema se conoce como generación de código de mejora automática recursiva, que está inspirada, pero no completamente, en un sistema de mejora automática recursiva (RSI). Han pasado al menos 50 años desde que los investigadores formalizaron el concepto de RSI. Ese esfuerzo, sin embargo, se concentró en crear sistemas que fueran más competentes en general y asumió que el modelo podría mejorar cada parte de su código. Su investigación es un paso modesto en esa dirección porque sólo considera la capacidad del modelo para mejorar el andamiaje que lo invoca de forma iterativa. El problema de generación de código RSI se plantea por primera vez matemáticamente bien definido en este estudio.

Luego, crean y evalúan STOP para ilustrar el posible uso de la generación de código RSI. Diferentes trabajos posteriores han demostrado mejoras. Cuando se utiliza una versión del modelo de lenguaje GPT-4 entrenado con datos hasta 2021, mucho antes del debut de la mayoría de los sistemas de andamios, la Figura 1 muestra algunos de los andamios interesantes y útiles que ofrece STOP. Pruebas adicionales rastrean la frecuencia con la que el modelo intenta desactivar un indicador de zona de pruebas. Finalmente, abordan cuestiones relacionadas con el desarrollo ético de dicha tecnología.

Las principales aportaciones de este trabajo son:

  1. Formular una estrategia de metaoptimización donde un sistema de andamiaje se mejora a sí mismo de forma recursiva.
  2. Demostrando que este sistema puede mejorarse recursivamente con éxito utilizando un modelo de lenguaje moderno (GPT-4 en particular).
  3. Examinar las técnicas de superación personal propuestas e implementadas por el modelo, incluida cómo el modelo evita precauciones de seguridad como una caja de arena.

Revisar la Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 31k+ ML, Comunidad de Facebook de más de 40.000 personas, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.

Si te gusta nuestro trabajo, te encantará nuestra newsletter.

También estamos en WhatsApp. Únase a nuestro canal de IA en Whatsapp.


Aneesh Tickoo es pasante de consultoría en MarktechPost. Actualmente está cursando su licenciatura en Ciencia de Datos e Inteligencia Artificial en el Instituto Indio de Tecnología (IIT), Bhilai. Pasa la mayor parte de su tiempo trabajando en proyectos destinados a aprovechar el poder del aprendizaje automático. Su interés de investigación es el procesamiento de imágenes y le apasiona crear soluciones en torno a él. Le encanta conectarse con personas y colaborar en proyectos interesantes.