Repository logo
 
No Thumbnail Available
Publication

Towards Zero-Shot Interpretable Human Recognition: A 2D-3D Registration Framework

Use this identifier to reference this record.
Name:Description:Size:Format: 
10602_24767.pdf28.7 MBAdobe PDF Download

Abstract(s)

Large vision models based in deep learning architectures have been consistently advancing the state-of-the-art in biometric recognition. However, three weaknesses are commonly reported for such kind of approaches: 1) their extreme demands in terms of learning data; 2) the difficulties in generalising between different domains; and 3) the lack of interpretability/explainability, with biometrics being of particular interest, as it is important to provide evidence able to be used for forensics/legal purposes (e.g., in courts). This thesis presents a novel framework that aims at addressing the three weaknesses simultaneously. At first, it relies exclusively in synthetic samples for learning purposes. Instead of requiring a large amount and variety of samples for each subject, the idea is to exclusively enroll a 3D point cloud per identity. Then, using generative strategies, we synthesize a very large (potentially infinite) number of samples, containing all the desired covariates (poses, clothing, distances, perspectives, lighting, occlusions,...). Upon the synthesizing method used, it is possible to adapt precisely to different kind of domains, which accounts for generalization purposes. Such data are then used to learn a model that performs local registration between image pairs, establishing positive correspondences between body parts that are the key, not only to recognition (according to cardinality and distribution), but also to provide an interpretable description of the response (e.g.: ”both samples are from the same person, as they have similar facial shape, hair color and legs thickness”).
Os grandes modelos de visão computacional baseados em arquiteturas de aprendizagem profunda têm avançado consistentemente o estado da arte no reconhecimento biométrico. No entanto, é comum relatar três fraquezas para este tipo de abordagem: 1) exigências extremas em termos de quantidade de dados necessários; 2) dificuldades em generalizar entre diferentes domínios; e 3) a falta de interpretabilidade/explicabilidade, sendo a biometria de particular interesse, pois é importante fornecer evidências que possam ser usadas para fins forenses/legais (por exemplo, em tribunais). Esta tese apresenta uma nova proposta que visa abordar simultaneamente as três fraquezas. Em primeiro lugar, baseia-se exclusivamente em amostras sintéticas para fins de aprendizagem. Em vez de exigir uma grande quantidade e variedade de amostras para cada sujeito, a ideia é associar exclusivamente uma nuvem de pontos 3D por identidade. Em seguida, usando estratégias generativas, sintetizamos um número muito grande (potencialmente infinito) de amostras, contendo todas as covariáveis desejadas (poses, roupas, distâncias, perspectivas, iluminação, oclusões, ...). Dependendo do método de síntese utilizado, é possível adaptar-se precisamente a diferentes tipos de domínios, o que contribui para fins de generalização. Esses dados são então usados para aprender um modelo que realiza o registo local entre pares de imagens, estabelecendo correspondências positivas entre partes do corpo que são a chave, não apenas para o reconhecimento (de acordo com a cardinalidade e distribuição), mas também para fornecer uma descrição interpretável da resposta (por exemplo: ”ambas as amostras são da mesma pessoa, pois têm forma facial semelhante, cor do cabelo e espessura das pernas”).

Description

Keywords

Aprendizagem Automática Dados Sintéticos Generalização de Domínio Inter-Pretabilidade Reconhecimento Semântico Registo de Imagem-Objeto 3d Visão Computacional

Pedagogical Context

Citation

Research Projects

Organizational Units

Journal Issue