Publication
6D Pose Estimation and Object Recognition
datacite.subject.fos | Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática | pt_PT |
dc.contributor.advisor | Alexandre, Luís Filipe Barbosa de Almeida | |
dc.contributor.author | Pereira, Nuno José Matos | |
dc.date.accessioned | 2024-01-29T11:18:36Z | |
dc.date.available | 2024-01-29T11:18:36Z | |
dc.date.issued | 2024-01 | |
dc.description.abstract | 6D pose estimation is a computer vision task where the objective is to estimate the 3 degrees of freedom of the object’s position (translation vector) and the other 3 degrees of freedom for the object’s orientation (rotation matrix). 6D pose estimation is a hard problem to tackle due to the possible scene cluttering, illumination variability, object truncations, and different shapes, sizes, textures, and similarities between objects. However, 6D pose estimation methods are used in multiple contexts like augmented reality, for example, where badly placed objects into the real-world can break the experience of augmented reality. Another application example is the use of augmented reality in the industry to train new and competent workers where virtual objects need to be placed in the correct positions to look like real objects or simulate their placement in the correct positions. In the context of Industry 4.0, robotic systems require adaptation to handle unconstrained pick-and-place tasks, human-robot interaction and collaboration, and autonomous robot movement. These environments and tasks are dependent on methods that perform object detection, object localization, object segmentation, and object pose estimation. To have accurate robotic manipulation, unconstrained pick-and-place, and scene understanding, accurate object detection and 6D pose estimation methods are needed. This thesis presents methods that were developed to tackle the 6D pose estimation problem as-well as the implementations of proposed pipelines in the real-world. To use the proposed pipelines in the real-world a data set needed to be capture and annotated to train and test the methods. Some controlling robot routines and interfaces were developed in order to be able to control a UR3 robot in the pipelines. The MaskedFusion method, proposed by us, achieves pose estimation accuracy below 6mm in the LineMOD dataset and an AUC score of 93.3% in the challenging YCB-Video dataset. Despite longer training time, MaskedFusion demonstrates low inference time, making it suitable for real-time applications. A study was performed about the effectiveness of employing different color spaces and improved segmentation algorithms to enhance the accuracy of 6D pose estimation methods. Moreover, the proposed MPF6D outperforms other approaches, achieving remarkable accuracy of 99.7% in the LineMOD dataset and 98.06% in the YCB-Video dataset, showcasing its potential for high-precision 6D pose estimation. Additionally, the thesis presents object grasping methods with exceptional accuracy. The first approach, comprising data capture, object detection, 6D pose estimation, grasping detection, robot planning, and motion execution, achieves a 90% success rate in non-controlled environment tests. Leveraging a diverse dataset with varying light conditions proves critical for accurate performance in real-world scenarios. Furthermore, an alternative method demonstrates accurate object grasping without relying on 6D pose estimation, offering faster execution and requiring less computational power. With a remarkable 96% accuracy and an average execution time of 5.59 seconds on a laptop without an NVIDIA GPU, this method demonstrates efficiency and practicality performing unconstrained pick-and-place tasks using a UR3 robot. | pt_PT |
dc.description.abstract | A estimação da postura 6D de objetos é uma tarefa de visão computacional cujo objetivo é estimar os 3 graus de liberdade da posição do objeto (vetor de translação) e os outros 3 graus de liberdade para a orientação do objeto (matriz de rotação). A estimação da postura 6D de objetos é um problema difícil de resolver devido à possível variabilidade de iluminação, desordem, ocultação, diferentes formas, tamanhos, texturas e semelhanças entre os objetos na cena. No entanto, métodos de estimação de postura 6D são usados em múltiplos contextos, como em realidade aumentada, por exemplo, onde objetos mal colocados no mundo real podem prejudicar a experiência da realidade aumentada. Outro exemplo de aplicação é o uso de realidade aumentada na indústria para treinar novos trabalhadores e competentes, onde objetos virtuais precisam de ser colocados nas posições corretas para se assemelharem aos objetos reais ou simular a sua colocação nas posições corretas. No contexto da Indústria 4.0, os sistemas robóticos requerem adaptação para lidar com tarefas de pegar e colocar não restritas, interação e colaboração humano-robô e movimento autónomo. Esses ambientes e tarefas dependem de métodos que realizam deteção, localização, segmentação e estimação de postura 6D de objetos. Para ter uma manipulação robótica precisa, sem necessidade de utilizar contraformas, é preciso uma compreensão e perceção do ambiente envolvente. Para conseguirmos estes objetivos são necessários métodos precisos de deteção e estimação da postura 6D de objetos. Esta tese apresenta métodos que foram desenvolvidos para resolver o problema de estimação de postura 6D, bem como a implementação dos fluxos de trabalho propostos para o mundo real. Para usá-los, foi necessário capturar e anotar um conjunto de dados para treinar e testar estes métodos no mundo real. Foi também necessário desenvolver algumas interfaces de controlo para conseguir implementar os fluxos de trabalho propostos num robô UR3. O método MaskedFusion, proposto por nós, alcança uma estimação da postura com erro abaixo de 6mm no conjunto de dados LineMOD e uma avaliação de AUC de 93,3% no conjunto de dados YCB-Video. Apesar do tempo de treino mais longo que métodos anteriores, o MaskedFusion demonstra um tempo de inferência baixo, tornando-o adequado para aplicações em tempo real. Foi também realizado um estudo sobre a eficácia da implementação de diferentes espaços de cores e algoritmos de segmentação para aperfeiçoar a precisão dos métodos de estimação de postura 6D. O método MPF6D, também proposto nesta tese, supera todas as outras abordagens, alcançando uma precisão notável de 99,7% no conjunto de dados LineMOD e 98,06% no conjunto de dados YCB-Video, demonstrando o seu potencial para estimação de postura 6D de alta precisão. A tese apresenta ainda métodos de pega de objetos com precisão elevada. A primeira abordagem, que compreende captura de dados, deteção de objetos, estimação de postura 6D, deteção da pega, planeamento da movimentação do robô e sua execução, alcança uma taxa de sucesso de 90% em testes em ambiente não controlado. O uso de um conjunto de dados diversificado com condições de iluminação variáveis é crucial para um desempenho preciso em cenários do mundo real. Além disso, um método alternativo demonstra uma pega precisa de objetos sem depender da estimação de postura 6D, oferecendo uma execução mais rápida e exigindo menor poder computacional. Com uma precisão notável de 96% e um tempo médio de execução de 5,59 segundos num computador portátil que não dispõe de uma GPU da NVIDIA, este método demonstra eficiência e aplicabilidade ao realizar tarefas de pegar e colocar objetos num ambiente não restritivo, usando um robô UR3. Concluímos que as técnicas por nós propostas permitiram avançar o estado da arte na área da estimação de postura 6D de objetos, contribuindo assim para a criação de sistemas mais responsivos e com melhor comportamento, sempre que seja necessário obter este tipo de informação a partir de dados reais. | pt_PT |
dc.description.sponsorship | I would like to acknowledge the support and financial assistance provided by NOVA LINCS (UIDB/04516/2020) with the financial support of FCT.IP, and partially supported by project 026653 (POCI-01-0247-FEDER-026653) INDTECH 4.0 – New technologies for smart manufacturing, cofinanced by the Portugal 2020 Program (PT 2020), Compete 2020 Program and the European Union through the European Regional Development Fund (ERDF). | pt_PT |
dc.identifier.tid | 101652321 | pt_PT |
dc.identifier.uri | http://hdl.handle.net/10400.6/14177 | |
dc.language.iso | eng | pt_PT |
dc.relation | NOVA Laboratory for Computer Science and Informatics | |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-sa/4.0/ | pt_PT |
dc.subject | Inteligência Artificial | pt_PT |
dc.subject | Postura de Objectos | pt_PT |
dc.subject | Deep Learning | pt_PT |
dc.subject | Redes Neuronais Artificiais | pt_PT |
dc.subject | Redes Neuronais de convolução | pt_PT |
dc.subject | Segmentação de imagens | pt_PT |
dc.subject | Robótica | pt_PT |
dc.subject | Pick-and-place | pt_PT |
dc.subject | Object Grasping | pt_PT |
dc.subject | Artificial Intelligence | pt_PT |
dc.subject | Artificial Neural Networks | pt_PT |
dc.subject | Robotics | pt_PT |
dc.title | 6D Pose Estimation and Object Recognition | pt_PT |
dc.type | doctoral thesis | |
dspace.entity.type | Publication | |
oaire.awardTitle | NOVA Laboratory for Computer Science and Informatics | |
oaire.awardURI | info:eu-repo/grantAgreement/FCT/6817 - DCRRNI ID/UIDB%2F04516%2F2020/PT | |
oaire.fundingStream | 6817 - DCRRNI ID | |
project.funder.identifier | http://doi.org/10.13039/501100001871 | |
project.funder.name | Fundação para a Ciência e a Tecnologia | |
rcaap.rights | openAccess | pt_PT |
rcaap.type | doctoralThesis | pt_PT |
relation.isProjectOfPublication | ccebc324-b0d7-400f-9c95-b6a8ac0149be | |
relation.isProjectOfPublication.latestForDiscovery | ccebc324-b0d7-400f-9c95-b6a8ac0149be | |
thesis.degree.name | Doutoramento em Engenharia Informática | pt_PT |
Files
Original bundle
1 - 1 of 1
No Thumbnail Available
- Name:
- Tese_Doutoramento_Nuno_Pereira_signed.pdf
- Size:
- 32.84 MB
- Format:
- Adobe Portable Document Format
License bundle
1 - 1 of 1
No Thumbnail Available
- Name:
- license.txt
- Size:
- 1.71 KB
- Format:
- Item-specific license agreed upon to submission
- Description: