Name: | Description: | Size: | Format: | |
---|---|---|---|---|
32.84 MB | Adobe PDF |
Authors
Advisor(s)
Abstract(s)
6D pose estimation is a computer vision task where the objective is to estimate the 3
degrees of freedom of the object’s position (translation vector) and the other 3 degrees of
freedom for the object’s orientation (rotation matrix). 6D pose estimation is a hard problem
to tackle due to the possible scene cluttering, illumination variability, object truncations,
and different shapes, sizes, textures, and similarities between objects. However, 6D
pose estimation methods are used in multiple contexts like augmented reality, for example,
where badly placed objects into the real-world can break the experience of augmented
reality. Another application example is the use of augmented reality in the industry to
train new and competent workers where virtual objects need to be placed in the correct
positions to look like real objects or simulate their placement in the correct positions. In
the context of Industry 4.0, robotic systems require adaptation to handle unconstrained
pick-and-place tasks, human-robot interaction and collaboration, and autonomous robot
movement. These environments and tasks are dependent on methods that perform object
detection, object localization, object segmentation, and object pose estimation. To have
accurate robotic manipulation, unconstrained pick-and-place, and scene understanding,
accurate object detection and 6D pose estimation methods are needed.
This thesis presents methods that were developed to tackle the 6D pose estimation problem
as-well as the implementations of proposed pipelines in the real-world. To use the
proposed pipelines in the real-world a data set needed to be capture and annotated to
train and test the methods. Some controlling robot routines and interfaces were developed
in order to be able to control a UR3 robot in the pipelines.
The MaskedFusion method, proposed by us, achieves pose estimation accuracy below
6mm in the LineMOD dataset and an AUC score of 93.3% in the challenging YCB-Video
dataset. Despite longer training time, MaskedFusion demonstrates low inference time,
making it suitable for real-time applications. A study was performed about the effectiveness
of employing different color spaces and improved segmentation algorithms to enhance
the accuracy of 6D pose estimation methods.
Moreover, the proposed MPF6D outperforms other approaches, achieving remarkable
accuracy of 99.7% in the LineMOD dataset and 98.06% in the YCB-Video dataset, showcasing
its potential for high-precision 6D pose estimation. Additionally, the thesis presents
object grasping methods with exceptional accuracy. The first approach, comprising data
capture, object detection, 6D pose estimation, grasping detection, robot planning, and
motion execution, achieves a 90% success rate in non-controlled environment tests. Leveraging
a diverse dataset with varying light conditions proves critical for accurate performance in real-world scenarios. Furthermore, an alternative method demonstrates accurate
object grasping without relying on 6D pose estimation, offering faster execution and
requiring less computational power. With a remarkable 96% accuracy and an average
execution time of 5.59 seconds on a laptop without an NVIDIA GPU, this method demonstrates
efficiency and practicality performing unconstrained pick-and-place tasks using a
UR3 robot.
A estimação da postura 6D de objetos é uma tarefa de visão computacional cujo objetivo é estimar os 3 graus de liberdade da posição do objeto (vetor de translação) e os outros 3 graus de liberdade para a orientação do objeto (matriz de rotação). A estimação da postura 6D de objetos é um problema difícil de resolver devido à possível variabilidade de iluminação, desordem, ocultação, diferentes formas, tamanhos, texturas e semelhanças entre os objetos na cena. No entanto, métodos de estimação de postura 6D são usados em múltiplos contextos, como em realidade aumentada, por exemplo, onde objetos mal colocados no mundo real podem prejudicar a experiência da realidade aumentada. Outro exemplo de aplicação é o uso de realidade aumentada na indústria para treinar novos trabalhadores e competentes, onde objetos virtuais precisam de ser colocados nas posições corretas para se assemelharem aos objetos reais ou simular a sua colocação nas posições corretas. No contexto da Indústria 4.0, os sistemas robóticos requerem adaptação para lidar com tarefas de pegar e colocar não restritas, interação e colaboração humano-robô e movimento autónomo. Esses ambientes e tarefas dependem de métodos que realizam deteção, localização, segmentação e estimação de postura 6D de objetos. Para ter uma manipulação robótica precisa, sem necessidade de utilizar contraformas, é preciso uma compreensão e perceção do ambiente envolvente. Para conseguirmos estes objetivos são necessários métodos precisos de deteção e estimação da postura 6D de objetos. Esta tese apresenta métodos que foram desenvolvidos para resolver o problema de estimação de postura 6D, bem como a implementação dos fluxos de trabalho propostos para o mundo real. Para usá-los, foi necessário capturar e anotar um conjunto de dados para treinar e testar estes métodos no mundo real. Foi também necessário desenvolver algumas interfaces de controlo para conseguir implementar os fluxos de trabalho propostos num robô UR3. O método MaskedFusion, proposto por nós, alcança uma estimação da postura com erro abaixo de 6mm no conjunto de dados LineMOD e uma avaliação de AUC de 93,3% no conjunto de dados YCB-Video. Apesar do tempo de treino mais longo que métodos anteriores, o MaskedFusion demonstra um tempo de inferência baixo, tornando-o adequado para aplicações em tempo real. Foi também realizado um estudo sobre a eficácia da implementação de diferentes espaços de cores e algoritmos de segmentação para aperfeiçoar a precisão dos métodos de estimação de postura 6D. O método MPF6D, também proposto nesta tese, supera todas as outras abordagens, alcançando uma precisão notável de 99,7% no conjunto de dados LineMOD e 98,06% no conjunto de dados YCB-Video, demonstrando o seu potencial para estimação de postura 6D de alta precisão. A tese apresenta ainda métodos de pega de objetos com precisão elevada. A primeira abordagem, que compreende captura de dados, deteção de objetos, estimação de postura 6D, deteção da pega, planeamento da movimentação do robô e sua execução, alcança uma taxa de sucesso de 90% em testes em ambiente não controlado. O uso de um conjunto de dados diversificado com condições de iluminação variáveis é crucial para um desempenho preciso em cenários do mundo real. Além disso, um método alternativo demonstra uma pega precisa de objetos sem depender da estimação de postura 6D, oferecendo uma execução mais rápida e exigindo menor poder computacional. Com uma precisão notável de 96% e um tempo médio de execução de 5,59 segundos num computador portátil que não dispõe de uma GPU da NVIDIA, este método demonstra eficiência e aplicabilidade ao realizar tarefas de pegar e colocar objetos num ambiente não restritivo, usando um robô UR3. Concluímos que as técnicas por nós propostas permitiram avançar o estado da arte na área da estimação de postura 6D de objetos, contribuindo assim para a criação de sistemas mais responsivos e com melhor comportamento, sempre que seja necessário obter este tipo de informação a partir de dados reais.
A estimação da postura 6D de objetos é uma tarefa de visão computacional cujo objetivo é estimar os 3 graus de liberdade da posição do objeto (vetor de translação) e os outros 3 graus de liberdade para a orientação do objeto (matriz de rotação). A estimação da postura 6D de objetos é um problema difícil de resolver devido à possível variabilidade de iluminação, desordem, ocultação, diferentes formas, tamanhos, texturas e semelhanças entre os objetos na cena. No entanto, métodos de estimação de postura 6D são usados em múltiplos contextos, como em realidade aumentada, por exemplo, onde objetos mal colocados no mundo real podem prejudicar a experiência da realidade aumentada. Outro exemplo de aplicação é o uso de realidade aumentada na indústria para treinar novos trabalhadores e competentes, onde objetos virtuais precisam de ser colocados nas posições corretas para se assemelharem aos objetos reais ou simular a sua colocação nas posições corretas. No contexto da Indústria 4.0, os sistemas robóticos requerem adaptação para lidar com tarefas de pegar e colocar não restritas, interação e colaboração humano-robô e movimento autónomo. Esses ambientes e tarefas dependem de métodos que realizam deteção, localização, segmentação e estimação de postura 6D de objetos. Para ter uma manipulação robótica precisa, sem necessidade de utilizar contraformas, é preciso uma compreensão e perceção do ambiente envolvente. Para conseguirmos estes objetivos são necessários métodos precisos de deteção e estimação da postura 6D de objetos. Esta tese apresenta métodos que foram desenvolvidos para resolver o problema de estimação de postura 6D, bem como a implementação dos fluxos de trabalho propostos para o mundo real. Para usá-los, foi necessário capturar e anotar um conjunto de dados para treinar e testar estes métodos no mundo real. Foi também necessário desenvolver algumas interfaces de controlo para conseguir implementar os fluxos de trabalho propostos num robô UR3. O método MaskedFusion, proposto por nós, alcança uma estimação da postura com erro abaixo de 6mm no conjunto de dados LineMOD e uma avaliação de AUC de 93,3% no conjunto de dados YCB-Video. Apesar do tempo de treino mais longo que métodos anteriores, o MaskedFusion demonstra um tempo de inferência baixo, tornando-o adequado para aplicações em tempo real. Foi também realizado um estudo sobre a eficácia da implementação de diferentes espaços de cores e algoritmos de segmentação para aperfeiçoar a precisão dos métodos de estimação de postura 6D. O método MPF6D, também proposto nesta tese, supera todas as outras abordagens, alcançando uma precisão notável de 99,7% no conjunto de dados LineMOD e 98,06% no conjunto de dados YCB-Video, demonstrando o seu potencial para estimação de postura 6D de alta precisão. A tese apresenta ainda métodos de pega de objetos com precisão elevada. A primeira abordagem, que compreende captura de dados, deteção de objetos, estimação de postura 6D, deteção da pega, planeamento da movimentação do robô e sua execução, alcança uma taxa de sucesso de 90% em testes em ambiente não controlado. O uso de um conjunto de dados diversificado com condições de iluminação variáveis é crucial para um desempenho preciso em cenários do mundo real. Além disso, um método alternativo demonstra uma pega precisa de objetos sem depender da estimação de postura 6D, oferecendo uma execução mais rápida e exigindo menor poder computacional. Com uma precisão notável de 96% e um tempo médio de execução de 5,59 segundos num computador portátil que não dispõe de uma GPU da NVIDIA, este método demonstra eficiência e aplicabilidade ao realizar tarefas de pegar e colocar objetos num ambiente não restritivo, usando um robô UR3. Concluímos que as técnicas por nós propostas permitiram avançar o estado da arte na área da estimação de postura 6D de objetos, contribuindo assim para a criação de sistemas mais responsivos e com melhor comportamento, sempre que seja necessário obter este tipo de informação a partir de dados reais.
Description
Keywords
Inteligência Artificial Postura de Objectos Deep Learning Redes Neuronais Artificiais Redes Neuronais de convolução Segmentação de imagens Robótica Pick-and-place Object Grasping Artificial Intelligence Artificial Neural Networks Robotics