Improving the Robustness of Demonstration Learning

Correia, André Rosa de Sousa Porfírio

http://hdl.handle.net/10400.6/18835

Use this identifier to reference this record.

Name:	Description:	Size:	Format:
tese_andre_07_05_2025_signed.pdf		3.21 MB	Adobe PDF	Download

Send Feedback

Authors

Correia, André Rosa de Sousa Porfírio

Advisor(s)

Alexandre, Luís Filipe Barbosa de Almeida

Abstract(s)

With the fast improvement of machine learning, Reinforcement Learning (RL) has been used to automate human tasks in different areas. However, training such agents is difficult and restricted to expert users. Moreover, it is mostly limited to simulation environments due to the high cost and safety concerns of interactions in the real world. Demonstration Learning is a paradigm in which an agent learns to perform a task by imitating the behavior of an expert shown in demonstrations. It is a relatively recent area in machine learning, but it is gaining significant traction due to having tremendous potential for learning complex behaviors from demonstrations. Learning from demonstration accelerates the learning process by improving sample efficiency, while also reducing the effort of the programmer. Due to learning without interacting with the environment, demonstration learning can allow the automation of a wide range of real world applications such as robotics and healthcare. Demonstration learning methods still struggle with a plethora of problems. The estimated policy is reliant on the coverage of the data set which can be difficult to collect. Direct imitation through behavior cloning learns the distribution of the data set. However, this is often not enough and the methods may struggle to generalize to unseen scenarios. If the agent visits out-of-distribution cases, not only will it not know what to do, but the consequences in the real world can be catastrophic. Because of this, offline RL methods try to specifically reduce the distributional shift. In this thesis, we focused on proposing novel methods to tackle some of the open problems in demonstration learning. We start by introducing the fundamental concepts, methodologies, and algorithms that underpin the proposed methods in this thesis. Then, we provide a comprehensive study of the state-of-the-art of Demonstration Learning methods. This study allowed us to understand existing methods and expose the open problems which motivate this thesis. We then developed five methods that push improve upon the state-of-the-art and solve different problems. The first method proposes to tackle the context problem, where policies are restricted to the context in which they were trained. We propose a method to learn context-invariant image representations with contrastive learning, by making use of a multi-view demonstration data set. We show that these representations can be used in lieu of the original images to learn a policy with standard reinforcement learning algorithms. This work also contributed with benchmark environment and a demonstration data set. Next, we tackled the potential of combining reinforcement learning with demonstration learning to cover the weaknesses of both paradigms. Specifically, we developed a method to improve the safety of reinforcement learning agents during their learning process. The proposed method makes use of a demonstration data set with safe and unsafe trajectories. Before each interaction, the method evaluates the trajectory and stops it if deems it unsafe. The method was used to augment state-of-theart reinforcement learning methods, and it reduced the crash rate significantly which also resulted in a slight increase in performance. In the following work, we acknowledged the significant strides made in sequence modelling and their impact in a plethora of machine learning problems. We noticed that these methods had recently been applied to demonstration learning. However, the state-of-the-art method was reliant on task knowledge and user interaction to perform. We proposed a hierarchical method which identifies important states in each demonstration, and uses them to guide the sequence model. The result is a method that is task and user independent but also achieves better performance than the previous state-of-the-art. Next, we made use of the novel Mamba architecture to improve upon the previous sequence modelling method. By replacing the Transformer architecture with the Mamba, we proposed two methods that reduce the complexity, and inference time while also improving the performance. Finally, we apply demonstration learning to under-explored applications. Specifically, we apply demonstration learning to teach an agent to dance to music. We describe the insight of modelling the task of learning to dance as a translation task, where the agent learns to translate from the language of music to the language of dance. We used the previous experience resulted from the two sequence modelling methods to propose two variants: using the Transformer or the Mamba architectures. The method modifies the standard sequence modelling architecture to process sequences of audio features and translate them to dance poses. Results show that the method can translate diverse and unseen music to high-quality dance motions coherent within the genre. Results obtained by the proposed methods advance the state-of-the-art in Demonstration Learning and provide solutions to open problems in the field. All the proposed methods were evaluated against state-of-the-art baselines and evaluated on several tasks and diverse data sets, improving the performance and tackling their respective problems.

Os avanços na Aprendizagem por Reforço (AR) permitiram a automatização de tarefas complexas, impulsionados em grande parte pelos algoritmos de aprendizagem profunda que utilizam redes neuronais para estimar a função de política. O sucesso crescente da AR deve-se principalmente ao engenho e aos esforços de engenharia de especialistas que conceberam e otimizaram algoritmos de aprendizagem por reforço que maximizam os dados de exploração para estimar funções de política poderosas, obtendo resultados sem precedentes numa vasta panóplia de tarefas. Apesar dos notáveis sucessos alcançados, os métodos de AR enfrentam frequentemente ineficiências no uso de dados de treino, e requerem extensivas interações de tentativa e erro com o ambiente. Cada tentativa falhada coloca em causa a segurança do agente bem como a de todos os elementos ao seu redor. Este desafio levou ao surgimento da Aprendizagem por Demonstração (AD), que propõe colecionar os dados de interação antes do uso do robô sobre a forma de um conjunto de dados de demonstração. A política pode ser estimada usando este conjunto de dados, não requererendo que o agente interaja com o ambiente, mitigando preocupações de segurança. No entanto, os métodos de AD enfrentam desafios próprios, como a dependência da qualidade do conjunto de dados de demonstração que restringem a qualidade da política devido à incompletude ou inadequação do conjunto nos dados. Contudo, a criação de um conjunto de dados de demonstração com qualidade para aprender cada tarefa é um processo difícil. Caso o conjunto de dados não esteja completo existirá um desvio da distribuição representada pelo conjunto de dados para a distribuição real da tarefa. Se a política estimada não for capaz de generalizar através do treino do conjunto de dados, quando o agente encontrar um dado fora da distribuição, irá provávelmente falhar a interação. Nesta tese, visamos abordar essas lacunas e avançar no campo da AD. Em primeiro lugar, descrevemos os conceitos fundacionais, metodologias e algoritmos utilizados nos métodos propostos nesta tese. Depois conduzimos um estudo abrangente do estado da arte em métodos de AD. Neste estudo identificámos as várias escolhas que envolvem a criação do conjunto de dados de demonstração, seguido da categorização dos diferentes métodos existentes. Neste estudo foram também listadas as vantagens e desvantagens de métodos de AD, bem como as suas áreas de aplicação. Finalmente o estudo concluiu com a identificação dos problemas em aberto no ramo de AD. De seguida, proposemos o método CLfD, que utiliza Aprendizagem Contrastiva para criar representações invariantes em relação ao ponto de vista da câmara usando vídeos de demonstração sincronizados e capturados por camaras em diferentes posições. Neste método mostrámos que estas representações podem ser utilizadas como função de recompensa usando Aprendizagem por Reforço Inverso, para estimar uma política robusta às variações da posição da câmara e concluímos que pode ser usado para generalizar outras características. Adi cionalmente, propomosemos o método DEFENDER, que junta as qualidades de AD e AR. Especificamente, pode ser aplicado a qualquer algoritmo de AR e melhora a segurança dos agentes durante o treino. O método usa um conjunto de dados com demonstrações bem sucedidas e falhadas. Antes de cada interação, o método compara a trajetória do agente com as demonstrações, caso a trajetória se enquadre melhor com demonstrações falhadas, a trajetória é terminada evitando uma potencial interação catastrófica. Depois propomosemos o método HDT, que melhora o estado-da-arte de modelos de sequência em AD. Mostrámos que o estado-da-arte requer especificação precisa de um hyper-parâmetro cujo valor não é trivial e depende da tarefa, para que a política tenha um bom desempenho. O método proposto propõe uma arquitetura hierárquica que remove a necessidade desta especificação e melhora o desempenho sobre o estado-da-arte em diversas tarefas. Posteriormente utilizamos a arquitetura Mamba para melhorar o método HDT, bem como o estado-da-arte de modelos de sequência em AD. Esta substituição não só melhora o desempenho dos modelos, como reduz o tempo de inferência. Por fim, propomosemos o método MDLT que aplica modelos de sequência para aprender uma política de dança usando AD. O MDLT propõe modelar a aprendizagem da política como a tradução de linguagem musical para linguagem de dança usando um modelo sequêncial. Neste método, a política estimada demonstra capacidade de generalização para músicas do mesmo género musical em que foi treinada, bem como a capacidade para aprender diversos géneros musicais em simultâneo. Propomosemos duas variantes deste método: utilizando Transformers ou Mamba. Os resultados obtidos pelos métodos propostos mostram que é possivel melhorar os métodos de AD nos respetivos problemas em que cada um foi aplicado. Todos os métodos propostos foram avaliados em diversos conjuntos de dados e quando comparados com os métodos estado-da-arte dos respetivos problemas, todos mostraram melhorar o desempenho das políticas estimadas, a segurança durante o treino no caso do DEFENDER e a robustez da política no caso do método CLfD.

Keywords

Aprendizagem por Demonstração Aprendizagem por Imitação Aprendizagem por Reforço Robótica Função de Política Clonagem de Comportamento Aprendizagem por Reforço Inverso Demonstration Learning Imitation Learning Learning from Demonstrations Offline Reinforcement Learning Machine Learning Deep Learning Behavior Cloning