Browsing by Author "Mbongo, Nzakiese"
Now showing 1 - 1 of 1
Results Per Page
Sort Options
- Estruturas de aprendizagem supervisionada para pesquisa multimédiaPublication . Mbongo, Nzakiese; Proença, Hugo Pedro Martins CarriçoTal como escrito no título “Estruturas de aprendizagem supervisionada para pesquisa multimédia”. Este trabalho, destinase à pesquisa e deteção de uma determinada identidade numa sequência de video. É apresentado também como a técnica de aprendizagem profundo por redes neuronais artificiais consegue detetar um personagem através dos vídeos, essa técnica de deteção de um personagem em um vídeo é um campo de estudo muito interessante já pela sua complexidade em múltiplos objetos presentes nos dados em análise, a partir de vídeos de desenhos animados, usamos um banco de dados separado por dois agrupamentos de dados, incluindo o conjunto de quadros que contém a personagem a ser detetada e outro conjunto que não contém a personagem, ou seja, contém outros objetos e entidades que não é a personagem ou pessoa que queremos localizar sua presença. Nesse caso, os rótulos ou etiquetas de formação dos nossos dois estados específicos de frames podem ser ”personagem ausente ou presente” no vídeo, no entanto o 0(zero) representa a ausência da personagem e o 1(um) marcamos sua existência na sequência dos frames do vídeo; isto significa que temos um conjunto de dados brutos de 20h et 20 minutos contendo movimentos rápidos e normal e, todos eles são vídeos de desenhos animados, isto é, o casodeuso foi a pesquisa de personagem animadas em videos de desenhos animados, por uma questão de facilidade em arranjar conjuntos de dados. Devemos, a todo custo, reconhecer uma personagem (o nosso caso de uso foi o avatar ”korra”) que imaginamos detetar nas sequências de vídeos usando assim a rede neural convolucional 3D, treinado para a deteção de ações anormais nos vídeos de vigilâncias. O algoritmo de aprendizagem supervisionado permitiu finalmente neste trabalho para a deteção do indivíduo. É uma tarefa difícil que requer a extração de características espaçotemporais significativas para capturar as informações necessárias. A Rede Convolucional 3D (C3D) codifica fluxos de vídeo usando uma rede tridimensional totalmente convolucional e, esta rede gera regiões de temporárias candidatas contendo objetos nas regiões selecionadas para atividades específicas. De seguida, analisaramse os casos de erro observados, procurando perceber os padrões nos dados que levaram a tais conclusões erradas por parte dos modelos.