En el campo en rápida evolución de la robótica doméstica, ha surgido un desafío importante en la ejecución de tareas organizativas personalizadas, como colocar la compra en un refrigerador. Estas tareas requieren que los robots equilibren las preferencias del usuario con las limitaciones físicas y al mismo tiempo eviten colisiones y mantengan la estabilidad. Si bien los modelos de lenguaje grande (LLM) permiten la comunicación en lenguaje natural de las preferencias del usuario, este enfoque puede resultar engorroso y llevar mucho tiempo para que los usuarios articulen sus requisitos con precisión. Aunque los modelos visión-lenguaje (VLM) pueden aprender de las demostraciones de los usuarios, las metodologías actuales enfrentan dos limitaciones críticas: la ambigüedad al inferir preferencias únicas a partir de demostraciones limitadas, ya que múltiples preferencias podrían explicar el mismo comportamiento, y el desafío de traducir preferencias abstractas en términos físicamente viables. Lugares de colocación que respeten las limitaciones medioambientales. Estas limitaciones a menudo resultan en ejecuciones fallidas o posibles colisiones en nuevos escenarios.
Los enfoques existentes para abordar estos desafíos se dividen principalmente en dos categorías: aprendizaje de preferencias activas y sistemas de planificación basados en LLM. Los métodos de aprendizaje de preferencias activas tradicionalmente se basan en consultas comparativas para comprender las preferencias del usuario, utilizando demostraciones teleoperadas o comparaciones basadas en características. Si bien algunos enfoques han integrado LLM para traducir vectores de características en preguntas de lenguaje natural, tienen dificultades para escalar a preferencias de ubicación combinatorias complejas. En el frente de la planificación, han surgido varios sistemas, incluidos planificadores de tareas interactivos, planificadores de prestaciones y planificadores de códigos, pero a menudo carecen de mecanismos sólidos para refinar las preferencias basándose en los comentarios de los usuarios. Además, si bien algunos métodos intentan cuantificar la incertidumbre mediante la predicción conforme, enfrentan limitaciones debido al requisito de conjuntos de datos de calibración extensos, que a menudo no son prácticos de obtener en entornos domésticos. Estos enfoques no logran manejar eficazmente la ambigüedad en la inferencia de preferencias o luchan por incorporar restricciones físicas en su proceso de planificación.
Investigadores de la Universidad de Cornell y la Universidad de Stanford presentes APRICOT (Aprendizaje de preferencias activas con planificador de tareas consciente de las restricciones)una solución integral para llenar el vacío entre el aprendizaje de preferencias y la ejecución robótica práctica. El sistema integra cuatro componentes clave: un modelo de visión-lenguaje que traduce demostraciones visuales en instrucciones basadas en lenguaje, un sofisticado módulo de aprendizaje de preferencias activas bayesiano basado en LLM que identifica eficientemente las preferencias del usuario a través de preguntas específicas, un planificador de tareas consciente de las restricciones que genera archivos ejecutables planes respetando tanto las preferencias como las limitaciones físicas, y un sistema robótico para la implementación en el mundo real. Este enfoque único aborda las limitaciones anteriores al combinar un aprendizaje de preferencias eficiente con capacidades de ejecución prácticas, lo que requiere una interacción mínima del usuario y mantiene una alta precisión. La eficacia del sistema ha sido ampliamente validada mediante pruebas comparativas en 50 preferencias diferentes e implementaciones robóticas del mundo real en nueve escenarios distintos.
La arquitectura de APRICOT consta de tres etapas principales que trabajan en armonía para lograr una ejecución personalizada de tareas. La primera etapa presenta un módulo de aprendizaje de preferencias activas bayesiano basado en LLM que procesa demostraciones visuales a través de un VLM, generando demostraciones basadas en el lenguaje. Este módulo emplea tres componentes críticos: propuesta de preferencia de candidato, determinación de consulta y selección óptima de preguntas, trabajando juntos para refinar eficientemente la preferencia previa. La segunda etapa implementa un sofisticado planificador de tareas que opera a través de tres mecanismos clave: generación de planes semánticos usando LLM, refinamiento de planes geométricos utilizando modelos mundiales y optimización de búsqueda de haces, y un sistema de refinamiento de planes basado en reflexiones que incorpora retroalimentación tanto de funciones de recompensa como de violaciones de restricciones. . La etapa final maneja la ejecución en el mundo real a través de dos componentes cruciales: un sistema de percepción que utiliza Grounding-DINO para la detección de objetos y CLIP para la clasificación y una política de ejecución que convierte comandos de alto nivel en secuencias de habilidades de bajo nivel a través de políticas entrenadas en RL y Algoritmos de planificación de rutas. Este sistema integrado garantiza un rendimiento sólido manteniendo las limitaciones físicas y las preferencias del usuario.
Las evaluaciones experimentales demuestran el rendimiento superior de APRICOT en múltiples dimensiones. En precisión de aprendizaje preferencial, APRICOT logró una tasa de precisión del 58,0 %, superando significativamente a los métodos de referencia, incluidos los no interactivos (35,0 %), LLM-Q/A (39,0 %) y Cand+LLM-Q/A (43,0 %). El sistema mostró una eficiencia notable en la interacción del usuario, requiriendo un 71,9% menos de consultas en comparación con LLM-Q/A y un 46,25% menos de consultas que Cand+LLM-Q/A. En entornos restringidos, APRICOT mantuvo un rendimiento impresionante con un 96,0 % de planes factibles y un 89,0 % de tasas de satisfacción de preferencias en escenarios desafiantes. Las capacidades adaptativas del sistema fueron particularmente notables, como lo demuestra su capacidad para mantener el rendimiento incluso en espacios cada vez más limitados y ajustar con éxito los planes en respuesta a los cambios ambientales. Estos resultados resaltan la eficacia de APRICOT para equilibrar la satisfacción de las preferencias con las limitaciones físicas y al mismo tiempo minimizar la interacción del usuario.
ALBARICOQUE representa un avance significativo en la ejecución personalizada de tareas robóticas, integrando exitosamente el aprendizaje de preferencias con la planificación consciente de las restricciones. El sistema demuestra un desempeño efectivo en tareas organizacionales del mundo real a través de su enfoque de tres etapas, que combina una interacción mínima del usuario con capacidades de ejecución sólidas. Sin embargo, existe una limitación notable en el componente de aprendizaje de preferencias activas, que supone que la preferencia de la verdad fundamental debe estar entre los candidatos generados, lo que potencialmente limita su aplicabilidad en ciertos escenarios donde las preferencias del usuario son más matizadas o complejas.
Mira el Papel. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides seguirnos en Gorjeo y únete a nuestro Canal de telegramas y LinkedIn Grarriba. Si te gusta nuestro trabajo, te encantará nuestro hoja informativa.. No olvides unirte a nuestro SubReddit de más de 55.000 ml.
[Sponsorship Opportunity with us] Promocione su investigación/producto/seminario web con más de 1 millón de lectores mensuales y más de 500.000 miembros de la comunidad
Asjad es consultor interno en Marktechpost. Está cursando B.Tech en ingeniería mecánica en el Instituto Indio de Tecnología, Kharagpur. Asjad es un entusiasta del aprendizaje automático y el aprendizaje profundo que siempre está investigando las aplicaciones del aprendizaje automático en la atención médica.