| Name: | Description: | Size: | Format: | |
|---|---|---|---|---|
| 28.7 MB | Adobe PDF |
Authors
Advisor(s)
Abstract(s)
Large vision models based in deep learning architectures have been consistently advancing
the state-of-the-art in biometric recognition. However, three weaknesses are commonly reported for such kind of approaches: 1) their extreme demands in terms of learning data; 2)
the difficulties in generalising between different domains; and 3) the lack of interpretability/explainability, with biometrics being of particular interest, as it is important to provide
evidence able to be used for forensics/legal purposes (e.g., in courts).
This thesis presents a novel framework that aims at addressing the three weaknesses simultaneously. At first, it relies exclusively in synthetic samples for learning purposes. Instead
of requiring a large amount and variety of samples for each subject, the idea is to exclusively
enroll a 3D point cloud per identity. Then, using generative strategies, we synthesize a very
large (potentially infinite) number of samples, containing all the desired covariates (poses,
clothing, distances, perspectives, lighting, occlusions,...). Upon the synthesizing method used,
it is possible to adapt precisely to different kind of domains, which accounts for generalization purposes. Such data are then used to learn a model that performs local registration
between image pairs, establishing positive correspondences between body parts that are the
key, not only to recognition (according to cardinality and distribution), but also to provide
an interpretable description of the response (e.g.: ”both samples are from the same person,
as they have similar facial shape, hair color and legs thickness”).
Os grandes modelos de visão computacional baseados em arquiteturas de aprendizagem profunda têm avançado consistentemente o estado da arte no reconhecimento biométrico. No entanto, é comum relatar três fraquezas para este tipo de abordagem: 1) exigências extremas em termos de quantidade de dados necessários; 2) dificuldades em generalizar entre diferentes domínios; e 3) a falta de interpretabilidade/explicabilidade, sendo a biometria de particular interesse, pois é importante fornecer evidências que possam ser usadas para fins forenses/legais (por exemplo, em tribunais). Esta tese apresenta uma nova proposta que visa abordar simultaneamente as três fraquezas. Em primeiro lugar, baseia-se exclusivamente em amostras sintéticas para fins de aprendizagem. Em vez de exigir uma grande quantidade e variedade de amostras para cada sujeito, a ideia é associar exclusivamente uma nuvem de pontos 3D por identidade. Em seguida, usando estratégias generativas, sintetizamos um número muito grande (potencialmente infinito) de amostras, contendo todas as covariáveis desejadas (poses, roupas, distâncias, perspectivas, iluminação, oclusões, ...). Dependendo do método de síntese utilizado, é possível adaptar-se precisamente a diferentes tipos de domínios, o que contribui para fins de generalização. Esses dados são então usados para aprender um modelo que realiza o registo local entre pares de imagens, estabelecendo correspondências positivas entre partes do corpo que são a chave, não apenas para o reconhecimento (de acordo com a cardinalidade e distribuição), mas também para fornecer uma descrição interpretável da resposta (por exemplo: ”ambas as amostras são da mesma pessoa, pois têm forma facial semelhante, cor do cabelo e espessura das pernas”).
Os grandes modelos de visão computacional baseados em arquiteturas de aprendizagem profunda têm avançado consistentemente o estado da arte no reconhecimento biométrico. No entanto, é comum relatar três fraquezas para este tipo de abordagem: 1) exigências extremas em termos de quantidade de dados necessários; 2) dificuldades em generalizar entre diferentes domínios; e 3) a falta de interpretabilidade/explicabilidade, sendo a biometria de particular interesse, pois é importante fornecer evidências que possam ser usadas para fins forenses/legais (por exemplo, em tribunais). Esta tese apresenta uma nova proposta que visa abordar simultaneamente as três fraquezas. Em primeiro lugar, baseia-se exclusivamente em amostras sintéticas para fins de aprendizagem. Em vez de exigir uma grande quantidade e variedade de amostras para cada sujeito, a ideia é associar exclusivamente uma nuvem de pontos 3D por identidade. Em seguida, usando estratégias generativas, sintetizamos um número muito grande (potencialmente infinito) de amostras, contendo todas as covariáveis desejadas (poses, roupas, distâncias, perspectivas, iluminação, oclusões, ...). Dependendo do método de síntese utilizado, é possível adaptar-se precisamente a diferentes tipos de domínios, o que contribui para fins de generalização. Esses dados são então usados para aprender um modelo que realiza o registo local entre pares de imagens, estabelecendo correspondências positivas entre partes do corpo que são a chave, não apenas para o reconhecimento (de acordo com a cardinalidade e distribuição), mas também para fornecer uma descrição interpretável da resposta (por exemplo: ”ambas as amostras são da mesma pessoa, pois têm forma facial semelhante, cor do cabelo e espessura das pernas”).
Description
Keywords
Aprendizagem Automática Dados Sintéticos Generalização de Domínio Inter-Pretabilidade Reconhecimento Semântico Registo de Imagem-Objeto 3d Visão Computacional
