Los avances recientes en el campo del reconocimiento de la acción humana han permitido algunos avances sorprendentes en la interacción humano-robot (HRI). Con esta tecnología, los robots han comenzado a comprender el comportamiento humano y reaccionar en consecuencia. La segmentación de acciones, que es el proceso de determinar las etiquetas y los límites temporales de las acciones humanas, es una parte crucial del reconocimiento de acciones. Los robots deben tener esta habilidad para localizar dinámicamente los comportamientos humanos y trabajar bien con las personas.
Los métodos convencionales para el entrenamiento de modelos de segmentación de acciones exigen una gran cantidad de etiquetas. Para una supervisión exhaustiva, es ideal tener etiquetas por marco, es decir, etiquetas aplicadas a cada marco de acción, pero estas etiquetas presentan dos dificultades importantes. En primer lugar, puede resultar costoso y llevar mucho tiempo anotar etiquetas de acción para cada cuadro. En segundo lugar, puede haber sesgos en los datos debido a un etiquetado inconsistente de múltiples anotadores y límites de tiempo poco claros entre acciones.
Para abordar estos desafíos, en una investigación reciente, un equipo de investigadores ha propuesto una técnica de aprendizaje nueva y única durante la fase de formación. Su método maximiza la probabilidad de unión de acciones para fotogramas sin etiquetar que se encuentran entre dos marcas de tiempo consecutivas. La probabilidad de que un fotograma determinado tenga una combinación de acciones indicadas por las etiquetas de las marcas de tiempo circundantes se conoce como unión de acciones. Este enfoque mejora la calidad del proceso de formación al ofrecer objetivos de aprendizaje más fiables para marcos sin etiquetar teniendo en cuenta la probabilidad de unión de acciones.
El equipo ha desarrollado un nuevo método de refinamiento durante el paso de inferencia para proporcionar mejores etiquetas de acción asignadas de forma rígida a partir de las predicciones asignadas de forma flexible del modelo. Las clases de acción que se asignan a los marcos se vuelven más precisas y confiables mediante este proceso de refinamiento. Considera no sólo las predicciones cuadro por cuadro sino también la consistencia y fluidez de las etiquetas de acción a lo largo del tiempo en diferentes segmentos de video. Esto mejora la capacidad del modelo para proporcionar categorizaciones de acciones precisas.
Las técnicas creadas en esta investigación pretenden ser independientes del modelo, lo que implica que pueden utilizarse con varios marcos de segmentación de acciones actuales. La adaptabilidad de estos métodos permite incluirlos en varios sistemas de aprendizaje de robots sin tener que realizar cambios significativos. La eficacia de estas técnicas se evaluó utilizando tres conjuntos de datos de segmentación de acciones ampliamente utilizados. Los resultados demostraron que este método logró nuevos niveles de rendimiento de última generación al superar a las técnicas anteriores de supervisión de marcas de tiempo. El equipo también señaló que su método produjo resultados similares con menos del 1% de etiquetas totalmente supervisadas, lo que la convierte en una solución extremadamente económica que puede igualar o incluso superar a las técnicas totalmente supervisadas en términos de rendimiento. Esto ilustra cómo el método sugerido podría avanzar efectivamente en el campo de la segmentación de acción y sus aplicaciones en la interacción humano-robot.
Las principales contribuciones se han resumido de la siguiente manera.
- La optimización de la unión de acciones se ha introducido en la formación de segmentación de acciones, lo que mejora el rendimiento del modelo. Este enfoque innovador considera la probabilidad de combinaciones de acciones para fotogramas sin etiquetar entre marcas de tiempo.
- Se ha introducido una técnica de posprocesamiento nueva y extremadamente beneficiosa para mejorar el resultado de los modelos de segmentación de acciones. La exactitud y confiabilidad de las clasificaciones de acciones aumentan considerablemente mediante este proceso de refinamiento.
- El método ha producido nuevos resultados de última generación en conjuntos de datos pertinentes, lo que demuestra su potencial para promover la investigación sobre la interacción entre humanos y robots.
Revisar la Papel y GitHub. Todo el crédito por esta investigación va a los investigadores de este proyecto. Además, no olvides unirte. nuestro SubReddit de 32k+ ML, Comunidad de Facebook de más de 40.000 personas, Canal de discordia, y Boletín electrónicodonde compartimos las últimas noticias sobre investigaciones de IA, interesantes proyectos de IA y más.
Si te gusta nuestro trabajo, te encantará nuestra newsletter.
También estamos en WhatsApp. Únase a nuestro canal de IA en Whatsapp.
Tanya Malhotra es estudiante de último año de la Universidad de Estudios de Petróleo y Energía, Dehradun, y cursa BTech en Ingeniería en Ciencias de la Computación con especialización en Inteligencia Artificial y Aprendizaje Automático.
Es una entusiasta de la Ciencia de Datos con buen pensamiento analítico y crítico, junto con un ardiente interés en adquirir nuevas habilidades, liderar grupos y gestionar el trabajo de manera organizada.