Repository logo
 
No Thumbnail Available
Publication

Redes Neuronais Espaciais e Temporais para a Compreensão de Vídeo em Sistemas Embebidos

Use this identifier to reference this record.
Name:Description:Size:Format: 
9859_213685.89 MBUnknown Download

Abstract(s)

A deteção e classificação de ação humana em vídeo são, hoje em dia, tarefas de extrema importância da área de Visão Computacional. Tal importância é atribuída a estas tarefas devido à necessidade de detetar atividade criminosa ou situações de perigo, tornando possível a prevenção e a rápida intervenção no caso de ocorrências das mesmas. Um problema subjacente à utilização desta tecnologia é, precisamente, o elevado poder computacional que lhe está associado, seja a treinar as redes de Aprendizagem Profunda ou na própria inferência. Os dispositivos usados para desempenhar as funções dos sistemas de vigilância são, sobretudo, dispositivos de baixo poder computacional, devido principalmente a fatores como: o elevado custo das placas gráficas e a sua dimensão. É aqui que surgem os problemas que esta dissertação se propõe a tentar resolver. Em virtude da impossibilidade da fase de treino de um modelo ser realizada nos próprios dispositivos e, dado tal processo não ser indispensável, uma vez que esta fase pode ser efetuada em dispositivos com elevado poder computacional, torna-se necessário otimizar o modelo para que este possa ter o menor tempo de inferência e tamanho com a melhor taxa de acertos. Para tentar solucionar este problema, este projeto visa explorar diversas técnicas/métodos de otimização, tais como: fazer uso das camadas convolucionais separáveis, quantização, knowledge distillation, entre outros; assim como criar métodos ou algoritmos que possam ser adicionados ou substituam parte de uma rede.
The detection and classification of human action in video are, nowadays, extremely important tasks in the field of Computer Vision. Such importance is attributed to these tasks due to the need to detect criminal activity or dangerous situations, making prevention and quick intervention possible in the event of occurrences. A problem underlying the use of this technology is precisely the high computational power associated with it, whether training Deep Learning networks or inference itself. The devices used to carry out the functions of surveillance systems are, above all, devices with low computational power, mainly due to factors such as: the high cost of graphics cards and their size. It is here that the problems that this dissertation proposes to try to solve arise. Due to the impossibility of the training phase of a model being carried out on the devices themselves and, given that such a process is not essential, since this phase can be carried out on devices with high computational power, it becomes necessary to optimize the model so that it may have the shortest inference time and size with the best hit rate. To try to solve this problem, this project aims to explore several optimization techniques/methods, such as: making use of separable convolutional layers, quantization, knowledge distillation, among others; as well as creating methods or algorithms that can be added to or replace part of a network.

Description

Keywords

Classificação em Vídeo Deteção de Objetos Dispositivos de Baixo Poder Computacional Otimização Redes de Aprendizagem Profunda Visão Computacional

Citation

Research Projects

Organizational Units

Journal Issue