Self-Explanatory Deep Learning Models with Concept-based Multimodal Explanations for Medical Imaging Diagnosis

Patrício, Cristiano Pires

Publicação

Self-Explanatory Deep Learning Models with Concept-based Multimodal Explanations for Medical Imaging Diagnosis

2026-04-17Tese de doutoramento

datacite.subject.fos	Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
datacite.subject.sdg	04:Educação de Qualidade
dc.contributor.advisor	Neves, João Carlos Raposo
dc.contributor.advisor	Teixeira, Luís Filipe Pinto de Almeida
dc.contributor.author	Patrício, Cristiano Pires
dc.date.accessioned	2026-05-04T14:31:41Z
dc.date.available	2026-05-04T14:31:41Z
dc.date.issued	2026-04-17
dc.description.abstract	The remarkable performance of deep learning models in automated medical imaging diagnosis is achieved at the expense of the low interpretability of their representations. The opaque nature of these methods, which often operate as “black boxes”, remains a major barrier to their adoption in real-world applications, especially in high-stakes scenarios such as healthcare. This lack of interpretability motivated the development of eXplainable Artificial Intelligence (XAI) techniques capable of explaining model decisions so that humans can understand and interpret their decision-making. Early efforts in XAI applied to images relied mainly on post-hoc strategies that generate model-agnostic explanations by assessing the influence of input regions on predictions. However, these explanations are often ambiguous and unreliable. Similarly, textual explanations face challenges as language models are prone to generate inaccurate content, including ambiguous or factually incorrect statements. As an alternative, Concept Bottleneck Models (CBMs) offer an inherently interpretable design, where the final predictions are explicitly derived from intermediate human-understandable concepts. Nevertheless, CBMs face several critical limitations. Their reliance on manual concept annotations, the lack of visual interpretability for the predicted concepts, and the need for model retraining when new concepts are introduced hinders their utility and scalability. This thesis addresses these limitations by introducing methods capable of generating multimodal explanations grounded on human-understandable concepts, thereby enhancing both the transparency and the interpretability of the model output. First, we present a comprehensive survey of state-of-the-art XAI methods, datasets, and evaluation metrics in medical image diagnosis, highlighting existing gaps and open challenges in the XAI literature. Building on these insights, we propose two concept-based approaches for skin lesion diagnosis: one extending the conventional CBMs to produce concept-based visual explanations, and another that leverages a transformer-based architecture with learnable concept tokens, improving the visual coherence of concept explanations through a dedicated architecture and regularization. To reduce reliance on concept annotations, we further explore Vision Language Models (VLMs), proposing strategies that automatically annotate concepts and predict the final diagnosis either through a linear classifier or by prompting Large Language Models (LLMs). To overcome the lack of visual context in disease prediction in these latter approaches, we propose CBVLM, a training-free framework that integrates off-the-shelf Large Vision-Language Models (LVLMs) to jointly generate concept-based explanations and predict disease diagnoses grounded in both semantic concepts and visual demonstration examples. Beyond concept-based explanations, we also demonstrate that interpretability can also be achieved even in constrained scenarios with limited annotations. Specifically, we propose an unsupervised framework for brain Magnetic Resonance Imaging (MRI) tumor detection that learns to reconstruct benign patterns of an input image using solely a dataset of healthy examples. At inference, when presented with brain MRI containing anomaly patterns, the reconstruction error between the input and the reconstructed image highlights potential tumor regions, allowing intuitive and interpretable anomaly localization. The results obtained from the methods proposed in this thesis demonstrate that it is possible to enhance the interpretability of CBMs by integrating visual concept explanations consistent with the learned concepts, while reducing their reliance on manual concept annotations, maintaining the interpretability and performance. Furthermore, extensive experiments across various medical imaging modalities, including dermoscopy, radiology, eye fundus imaging, and brain MRI, demonstrate that the proposed approaches not only improve disease diagnosis, but also provide more transparent and faithful multimodal explanations, paving the way for safer clinical integration and increased trust.	eng
dc.description.abstract	Os modelos baseados em aprendizagem profunda têm demonstrado um desempenho notável no diagnóstico automático de doenças a partir de imagens médicas. No entanto, a falta de transparência e interpretabilidade no processo de decisão constituem os principais fatores que dificultam a adoção destes modelos em ambiente clínico. Esta falta de interpretabilidade motivou o desenvolvimento de técnicas de Inteligência Artificial eXplicável (XAI) capazes de explicar as decisões dos modelos de forma que os humanos compreendam e interpretem os seus resultados. Os primeiros esforços em XAI aplicado a imagem basearam-se sobretudo em estratégias post-hoc, que geram explicações agnósticas ao modelo através da avaliação da influência de regiões da imagem de entrada nas previsões do modelo. Contudo, estas explicações revelam-se frequentemente ambíguas e pouco fiáveis. De forma semelhante, as explicações textuais, apesar de intuitivas, apresentam limitações, uma vez que os modelos de linguagem tendem a produzir conteúdo impreciso, podendo incluir afirmações ambíguas e factualmente incorretas. Como alternativa, os modelos Concept Bottleneck (CBMs) oferecem uma arquitetura intrinsecamente interpretável, em que as previsões finais derivam explicitamente de conceitos intermédios compreensíveis para os humanos. Não obstante, os CBMs enfrentam algumas limitações críticas: a sua dependência de anotações manuais de conceitos, a ausência de interpretabilidade visual para os conceitos previstos e a necessidade de retreinar o modelo sempre que surgem novos conceitos, comprometem a sua utilidade e escalabilidade. Esta tese procura mitigar as limitações descritas anteriormente através do desenvolvimento de métodos capazes de gerar explicações multimodais baseadas em conceitos compreensíveis para os humanos, aumentando assim a transparência e interpretabilidade do processo de decisão do modelo. Em primeiro lugar, apresentamos uma revisão abrangente e uma categorização dos métodos de XAI mais promissores, bem como dos conjuntos de dados e métricas de avaliação aplicados ao diagnóstico de doenças a partir de imagens médicas, destacando lacunas existentes e desafios em aberto na literatura. Com base nestes conhecimentos, propomos duas abordagens baseadas em conceitos para o diagnóstico de lesões cutâneas a partir de imagens dermoscópicas: i) uma que estende os CBMs convencionais de forma a produzir explicações visuais associadas a cada conceito, e ii) outra que melhora a coerência visual das explicações através de uma arquitetura baseada em transformers que utiliza vetores aprendíveis para representar cada conceito. Para reduzir a dependência em anotações manuais de conceitos, exploramos ainda os modelos de visão-linguagem (VLMs), propondo estratégias que permitem anotar conceitos automaticamente e prever o diagnóstico final, seja através de um classificador linear, seja mediante a utilização de grandes modelos de linguagem (LLMs). Para mitigar quer a dependência em anotações manuais de conceitos quer a necessidade de retreinar o modelo sempre que novos conceitos são introduzidos, propomos o CBVLM, uma arquitetura que não requer qualquer tipo de aprendizagem e que integra grandes modelos de visão-linguagem (LVLMs) pré-treinados para gerar simultaneamente explicações baseadas em conceitos e prever diagnósticos fundamentados tanto em conceitos semânticos como em exemplos visuais demonstrativos. Para além das explicações baseadas em conceitos, demonstramos também que é possível alcançar interpretabilidade em cenários mais restritos, onde as anotações são limitadas. Especificamente, propomos uma abordagem não supervisionada para a deteção de tumores em imagens de ressonância magnética (RM) do crânio, que aprende a reconstruir padrões benignos da imagem de entrada usando apenas um conjunto de treino com exemplos benignos. Na fase de inferência, quando apresentada uma RM contendo padrões anómalos (e.g., um tumor), o erro de reconstrução entre a imagem de entrada e a imagem reconstruída permite destacar as potenciais regiões tumorais, facilitando uma análise intuitiva e interpretável da previsão do modelo. Os resultados obtidos pelos métodos propostos nesta tese demonstram que é possível melhorar a interpretabilidade dos CBMs ao complementá-los com explicações visuais coerentes com os conceitos aprendidos, bem como reduzir a dependência de anotações manuais de conceitos, obtendo resultados competitivos e mantendo a interpretabilidade. Além disso, as experiências realizadas em diversas modalidades de imagem médica, incluindo dermoscopia, radiologia, retinografia e RM, evidenciam que as abordagens propostas melhoram não só a precisão no diagnóstico, mas também a coerência e fiabilidade das explicações baseadas em conceitos, abrindo caminho a uma integração clínica mais segura e a um aumento da confiança por parte dos utilizadores.	por
dc.identifier.tid	101778910
dc.identifier.uri	http://hdl.handle.net/10400.6/20089
dc.language.iso	eng
dc.relation	Bolsa de Doutoramento FCT: Modelos Autoexplicativos de Aprendizagem Profunda com Explicações Multimodais baseadas em Conceitos para o Diagnóstico Médico [2022.11566.BD]
dc.relation	NOVA LINCS: Laboratory for Computer Science and Informatics [UIDB/04516/2020]
dc.rights.uri	http://creativecommons.org/licenses/by/4.0/
dc.subject	Inteligência Artificial Explicável
dc.subject	Aprendizagem Profunda
dc.subject	Classificação de Imagem Médica
dc.subject	Modelos Baseados em Conceitos
dc.subject	Explicações Multimodais
dc.subject	Interpretabilidade
dc.subject	Diagnóstico de Lesões da Pele
dc.subject	Grandes Modelos de Visão-Linguagem
dc.subject	Explicações Baseadas em Conceitos
dc.subject	Explainable Artificial Intelligence
dc.subject	Deep Learning
dc.subject	Medical Image Classification
dc.subject	Concept Bottleneck Models
dc.subject	Multimodal Explanations
dc.subject	Interpretability
dc.subject	Skin Lesion Diagnosis
dc.subject	Large Vision Language Models
dc.subject	Concept-based Explanations
dc.title	Self-Explanatory Deep Learning Models with Concept-based Multimodal Explanations for Medical Imaging Diagnosis	eng
dc.type	doctoral thesis
dspace.entity.type	Publication
oaire.awardNumber	2022.11566.BD
oaire.awardNumber	UIDB/04516/2020
oaire.awardTitle	Bolsa de Doutoramento FCT: Modelos Autoexplicativos de Aprendizagem Profunda com Explicações Multimodais baseadas em Conceitos para o Diagnóstico Médico [2022.11566.BD]
oaire.awardTitle	NOVA LINCS: Laboratory for Computer Science and Informatics [UIDB/04516/2020]
oaire.awardURI	http://hdl.handle.net/10400.6/20086
oaire.awardURI	info:eu-repo/grantAgreement/FCT/6817 - DCRRNI ID/UIDB%2F04516%2F2020/PT
oaire.fundingStream	Bolsa de Doutoramento
oaire.fundingStream	6817 - DCRRNI ID
person.familyName	Patrício
person.givenName	Cristiano Pires
person.identifier.ciencia-id	4415-5923-9CC9
person.identifier.orcid	0000-0003-2215-3334
project.funder.identifier	http://doi.org/10.13039/501100001871
project.funder.name	Fundação para a Ciência e a Tecnologia
relation.isAuthorOfPublication	b9b6e1ec-d46e-4a17-b8e9-bd93648fadcc
relation.isAuthorOfPublication.latestForDiscovery	b9b6e1ec-d46e-4a17-b8e9-bd93648fadcc
relation.isProjectOfPublication	93339562-cbd7-4a93-b5ee-810ee758122f
relation.isProjectOfPublication	ccebc324-b0d7-400f-9c95-b6a8ac0149be
relation.isProjectOfPublication.latestForDiscovery	93339562-cbd7-4a93-b5ee-810ee758122f
thesis.degree.name	Doutoramento em Engenharia Informática

Ficheiros

Principais

A mostrar 1 - 1 de 1

Nome:: PhD_Thesis_CristianoPatricio_vDigital_abril2026_signed.pdf
Tamanho:: 27.25 MB
Formato:: Adobe Portable Document Format

Ver/Abrir

Licença

A mostrar 1 - 1 de 1

Nome:: license.txt
Tamanho:: 4.03 KB
Formato:: Item-specific license agreed upon to submission
Descrição:

Ver/Abrir

Coleções

FE - DI | Dissertações de Mestrado e Teses de Doutoramento