Repository logo
 
Publication

Object Detection in Data Acquired From Aerial Devices

datacite.subject.fosEngenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informáticapor
dc.contributor.advisorProença, Hugo Pedro Martins Carriço
dc.contributor.authorBrito, Pedro Jorge Franco
dc.date.accessioned2023-02-20T16:43:16Z
dc.date.available2023-02-20T16:43:16Z
dc.date.issued2022-07-26
dc.date.submitted2022-06-30
dc.description.abstractThe object detection task, both in images and in videos, has been the source of extraordinary advances with state-of-the-art architectures that can achieve close to perfect precision on large modern datasets. As a result, since these models are trained on large-scale datasets, most of them can adapt to almost any other real-world scenario if given enough data. Nevertheless, there is a specific scenario, aerial images, in which these models tend to perform worse due to their natural characteristics. The main problem differentiating typical object detection datasets from aerial object detection datasets is the object’s scale that needs to be located and identified. Moreover, factors such as the image’s brightness, object rotation and details, and background colours also play a crucial role in the model’s performance, no matter its architecture. Deep learning models make decisions based on the features they can extract from the training data. This technique works particularly well in standard scenarios, where images portray the object at a standard scale in which the object’s details are precise and allow the model to distinguish it from the other objects and background. However, when considering a scenario where the image is being captured from 50 meters above, the object’s details diminish considerably and, thus, logically, making it harder for deep learning models to extract meaningful features that will allow for the identification and localization of the said object. Nowadays, many surveillance systems use static cameras placed in pre-defined places; however, a more appropriate approach for some scenarios would be using drones to surveil a particular area with a specific route. More specifically, these types of surveillance would be adequate for scenarios where it is not feasible to cover the whole area with static cameras, such as wild forests. The first objective of this dissertation is to gather a dataset that focuses on detecting people and vehicles in wild-forest scenarios. The dataset was captured using a DJI drone in four distinct zones of Serra da Estrela. It contains instances captured under different weather conditions – sunny and foggy – and during different parts of the day – morning, afternoon and evening. In addition, it also includes four different types of terrain, earth, tar, forest, and gravel, and there are two classes of objects, person and vehicle. Later on, the second objective of this dissertation aims to precisely analyze how state-ofthe-art single-frame-based and video object detectors perform in the previously described dataset. The analysis focuses on the models’ performance related to each object class in every terrain. Given this, we can demonstrate the exact situations in which the different models stand out and which ones tend to perform the worse. Finally, we propose two methods based on the results obtained during the first phase of experiments, where each aims to solve a different problem that emerged from applying stateof-the-art models to aerial images. The first method aims to improve the performance of the video object detector models in certain situations by using background removal algorithms to delineate specific areas in which the detectors’ predictions are considered valid. One of the main problems with creating a high-quality dataset from scratch is the intensive and time-consuming annotation process after gathering the data. Regarding this, the second method we propose consists of a self-supervised architecture that aims to tackle the particular scarcity of high-quality aerial datasets. The main idea is to analyze the usefulness of unlabelled data in these problems and thus, avoid the immense time-consuming process of labelling the entirety of a full-scale aerial dataset. The reported results show that even with only a partially labelled dataset, it is possible to use the unlabelled data in a self-supervised matter to improve the model’s performance further.eng
dc.description.abstractA tarefa de deteção de objetos, tanto em imagem como em vídeo, tem contribuído com inúmeros avanços extraordinários no que toca a arquiteturas inovadoras e ao desenvolvimento de conjuntos de dados cada vez mais completos e de qualidade. Nesse sentido, a maioria dos modelos consegue adaptar-se a quase qualquer cenário do mundo real – se existirem dados suficientes –, uma vez que estes modelos são treinados nestes grandes conjuntos de dados. No entanto, existe um cenário específico – as imagens aéreas –, e que devido às suas caraterísticas naturais, estes modelos tendem a mostrar um desempenho de menor qualidade. Contudo, a diferença de escala do próprio objeto que precisa de ser localizado e identificado é o principal aspeto que marca a diferença entre os conjuntos de imagens típicas e os conjuntos de imagens aéreas. Além disso, fatores como o brilho da imagem, a rotação do objeto, os detalhes do mesmo e as cores de fundo também desempenham um papel crucial no desempenho do modelo, independentemente da sua arquitetura. Modelos de aprendizagem profunda tomam decisões com base nas características que conseguem extrair do conjunto de imagens de treino. Esta técnica funciona particularmente bem em cenários padrão, em que as imagens representam o objeto numa escala normal, onde os detalhes do objeto são precisos e permitem que o modelo o distinga de outros objetos. Contudo, ao considerar um cenário onde a imagem está a ser capturada a 50 metros de altura, os detalhes do objeto diminuem consideravelmente e, portanto, torna-se mais difícil para o modelo extrair as melhores caraterísticas significativas que permitem a identificação e localização do objeto. Atualmente, muitos sistemas de vigilância utilizam câmaras estáticas colocadas em locais pré-definidos; porém, uma abordagem mais apropriada para alguns cenários poderia passar por utilizar drones de modo a vigiar uma determinada área com um percurso pré-definido. Mais especificamente, estes tipos de vigilância seriam adequados a cenários em que não é viável cobrir toda a área com câmaras, tal como florestas. O primeiro objetivo do presente trabalho passa por reunir um conjunto de dados que se foque na deteção de pessoas e veículos em florestas. O conjunto de dados foi capturado com um drone DJI em quatro zonas distintas da Serra da Estrela, e contém gravações que foram capturadas com diferentes condições meteorológicas – sol e nevoeiro – e durante diferentes fases do dia – manhã, tarde e ao anoitecer. Além do mais, contempla também quatro tipos diferentes de terreno, terra, alcatrão, floresta e gravilha, para além de existirem duas classes de objetos, pessoa e veículo. Posteriormente, o segundo objetivo contempla a análise precisa do modo como os detetores de objetos de vídeo e imagem atuam no conjunto de dados anteriormente descrito. A análise centra-se no desempenho dos modelos em relação a cada classe de objeto e a cada terreno. Com isto, conseguimos demonstrar uma perspetiva das situações exatas em que os diferentes tipos de modelos se destacam e quais os que tendem a não ter um desempenho tão adequado. Finalmente, com base nos resultados obtidos durante a primeira fase de experiências, o objetivo final tem como propósito propor dois métodos em que cada um deles visa resolver um problema diferente que surgiu da aplicação destes detetores em imagens aéreas. O primeiro método destaca a utilização de algoritmos de remoção de fundo para melhorar o desempenho dos modelos de deteção de objetos em vídeo em determinadas situações com o objetivo de delimitar áreas específicas nas quais as deteções dos modelos devem ser consideradas válidas. Um dos principais problemas na criação de um conjunto de dados de alta qualidade a partir do zero é o processo intensivo e moroso de anotação após a recolha dos dados. Com respeito a isto, o segundo método proposto consiste numa arquitetura auto-supervisionada que tem como objetivo enfrentar a escassez particular de conjuntos de dados aéreos de alta qualidade. A ideia principal é analisar a utilidade dos dados não anotados nestes projetos e, assim, evitar o processo demorado e custoso de anotar a totalidade de um conjunto de dados aéreos. Os resultados relatados mostram que, mesmo com um conjunto de dados parcialmente anotado, é possível utilizar os dados não anotados numa arquitetura auto-supervisionada para melhorar ainda mais o desempenho do modelo.por
dc.identifier.tid203226240
dc.identifier.urihttp://hdl.handle.net/10400.6/13114
dc.language.isoengpor
dc.rights.urihttp://creativecommons.org/licenses/by-nc-sa/4.0/
dc.subjectAprendizagem Auto-Supervisionadapor
dc.subjectAprendizagem Profundapor
dc.subjectAprendizagem Supervisionadapor
dc.subjectDeteção de Objetospor
dc.subjectGravações com Dronepor
dc.subjectImagens Aéreaspor
dc.subjectInteligência Artificialpor
dc.subjectRede Neuronais Convolucionaispor
dc.titleObject Detection in Data Acquired From Aerial Devicespor
dc.typemaster thesis
dspace.entity.typePublication
rcaap.rightsopenAccesspor
rcaap.typemasterThesispor
thesis.degree.name2º Ciclo em Engenharia Informáticapor

Files

Original bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
9182_19549.pdf
Size:
7.11 MB
Format:
Adobe Portable Document Format