Publicação
Self-Explanatory Deep Learning Models with Concept-based Multimodal Explanations for Medical Imaging Diagnosis
| datacite.subject.fos | Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática | |
| datacite.subject.sdg | 04:Educação de Qualidade | |
| dc.contributor.advisor | Neves, João Carlos Raposo | |
| dc.contributor.advisor | Teixeira, Luís Filipe Pinto de Almeida | |
| dc.contributor.author | Patrício, Cristiano Pires | |
| dc.date.accessioned | 2026-05-04T14:31:41Z | |
| dc.date.available | 2026-05-04T14:31:41Z | |
| dc.date.issued | 2026-04-17 | |
| dc.description.abstract | The remarkable performance of deep learning models in automated medical imaging diagnosis is achieved at the expense of the low interpretability of their representations. The opaque nature of these methods, which often operate as “black boxes”, remains a major barrier to their adoption in real-world applications, especially in high-stakes scenarios such as healthcare. This lack of interpretability motivated the development of eXplainable Artificial Intelligence (XAI) techniques capable of explaining model decisions so that humans can understand and interpret their decision-making. Early efforts in XAI applied to images relied mainly on post-hoc strategies that generate model-agnostic explanations by assessing the influence of input regions on predictions. However, these explanations are often ambiguous and unreliable. Similarly, textual explanations face challenges as language models are prone to generate inaccurate content, including ambiguous or factually incorrect statements. As an alternative, Concept Bottleneck Models (CBMs) offer an inherently interpretable design, where the final predictions are explicitly derived from intermediate human-understandable concepts. Nevertheless, CBMs face several critical limitations. Their reliance on manual concept annotations, the lack of visual interpretability for the predicted concepts, and the need for model retraining when new concepts are introduced hinders their utility and scalability. This thesis addresses these limitations by introducing methods capable of generating multimodal explanations grounded on human-understandable concepts, thereby enhancing both the transparency and the interpretability of the model output. First, we present a comprehensive survey of state-of-the-art XAI methods, datasets, and evaluation metrics in medical image diagnosis, highlighting existing gaps and open challenges in the XAI literature. Building on these insights, we propose two concept-based approaches for skin lesion diagnosis: one extending the conventional CBMs to produce concept-based visual explanations, and another that leverages a transformer-based architecture with learnable concept tokens, improving the visual coherence of concept explanations through a dedicated architecture and regularization. To reduce reliance on concept annotations, we further explore Vision Language Models (VLMs), proposing strategies that automatically annotate concepts and predict the final diagnosis either through a linear classifier or by prompting Large Language Models (LLMs). To overcome the lack of visual context in disease prediction in these latter approaches, we propose CBVLM, a training-free framework that integrates off-the-shelf Large Vision-Language Models (LVLMs) to jointly generate concept-based explanations and predict disease diagnoses grounded in both semantic concepts and visual demonstration examples. Beyond concept-based explanations, we also demonstrate that interpretability can also be achieved even in constrained scenarios with limited annotations. Specifically, we propose an unsupervised framework for brain Magnetic Resonance Imaging (MRI) tumor detection that learns to reconstruct benign patterns of an input image using solely a dataset of healthy examples. At inference, when presented with brain MRI containing anomaly patterns, the reconstruction error between the input and the reconstructed image highlights potential tumor regions, allowing intuitive and interpretable anomaly localization. The results obtained from the methods proposed in this thesis demonstrate that it is possible to enhance the interpretability of CBMs by integrating visual concept explanations consistent with the learned concepts, while reducing their reliance on manual concept annotations, maintaining the interpretability and performance. Furthermore, extensive experiments across various medical imaging modalities, including dermoscopy, radiology, eye fundus imaging, and brain MRI, demonstrate that the proposed approaches not only improve disease diagnosis, but also provide more transparent and faithful multimodal explanations, paving the way for safer clinical integration and increased trust. | eng |
| dc.description.abstract | Os modelos baseados em aprendizagem profunda têm demonstrado um desempenho notável no diagnóstico automático de doenças a partir de imagens médicas. No entanto, a falta de transparência e interpretabilidade no processo de decisão constituem os principais fatores que dificultam a adoção destes modelos em ambiente clínico. Esta falta de interpretabilidade motivou o desenvolvimento de técnicas de Inteligência Artificial eXplicável (XAI) capazes de explicar as decisões dos modelos de forma que os humanos compreendam e interpretem os seus resultados. Os primeiros esforços em XAI aplicado a imagem basearam-se sobretudo em estratégias post-hoc, que geram explicações agnósticas ao modelo através da avaliação da influência de regiões da imagem de entrada nas previsões do modelo. Contudo, estas explicações revelam-se frequentemente ambíguas e pouco fiáveis. De forma semelhante, as explicações textuais, apesar de intuitivas, apresentam limitações, uma vez que os modelos de linguagem tendem a produzir conteúdo impreciso, podendo incluir afirmações ambíguas e factualmente incorretas. Como alternativa, os modelos Concept Bottleneck (CBMs) oferecem uma arquitetura intrinsecamente interpretável, em que as previsões finais derivam explicitamente de conceitos intermédios compreensíveis para os humanos. Não obstante, os CBMs enfrentam algumas limitações críticas: a sua dependência de anotações manuais de conceitos, a ausência de interpretabilidade visual para os conceitos previstos e a necessidade de retreinar o modelo sempre que surgem novos conceitos, comprometem a sua utilidade e escalabilidade. Esta tese procura mitigar as limitações descritas anteriormente através do desenvolvimento de métodos capazes de gerar explicações multimodais baseadas em conceitos compreensíveis para os humanos, aumentando assim a transparência e interpretabilidade do processo de decisão do modelo. Em primeiro lugar, apresentamos uma revisão abrangente e uma categorização dos métodos de XAI mais promissores, bem como dos conjuntos de dados e métricas de avaliação aplicados ao diagnóstico de doenças a partir de imagens médicas, destacando lacunas existentes e desafios em aberto na literatura. Com base nestes conhecimentos, propomos duas abordagens baseadas em conceitos para o diagnóstico de lesões cutâneas a partir de imagens dermoscópicas: i) uma que estende os CBMs convencionais de forma a produzir explicações visuais associadas a cada conceito, e ii) outra que melhora a coerência visual das explicações através de uma arquitetura baseada em transformers que utiliza vetores aprendíveis para representar cada conceito. Para reduzir a dependência em anotações manuais de conceitos, exploramos ainda os modelos de visão-linguagem (VLMs), propondo estratégias que permitem anotar conceitos automaticamente e prever o diagnóstico final, seja através de um classificador linear, seja mediante a utilização de grandes modelos de linguagem (LLMs). Para mitigar quer a dependência em anotações manuais de conceitos quer a necessidade de retreinar o modelo sempre que novos conceitos são introduzidos, propomos o CBVLM, uma arquitetura que não requer qualquer tipo de aprendizagem e que integra grandes modelos de visão-linguagem (LVLMs) pré-treinados para gerar simultaneamente explicações baseadas em conceitos e prever diagnósticos fundamentados tanto em conceitos semânticos como em exemplos visuais demonstrativos. Para além das explicações baseadas em conceitos, demonstramos também que é possível alcançar interpretabilidade em cenários mais restritos, onde as anotações são limitadas. Especificamente, propomos uma abordagem não supervisionada para a deteção de tumores em imagens de ressonância magnética (RM) do crânio, que aprende a reconstruir padrões benignos da imagem de entrada usando apenas um conjunto de treino com exemplos benignos. Na fase de inferência, quando apresentada uma RM contendo padrões anómalos (e.g., um tumor), o erro de reconstrução entre a imagem de entrada e a imagem reconstruída permite destacar as potenciais regiões tumorais, facilitando uma análise intuitiva e interpretável da previsão do modelo. Os resultados obtidos pelos métodos propostos nesta tese demonstram que é possível melhorar a interpretabilidade dos CBMs ao complementá-los com explicações visuais coerentes com os conceitos aprendidos, bem como reduzir a dependência de anotações manuais de conceitos, obtendo resultados competitivos e mantendo a interpretabilidade. Além disso, as experiências realizadas em diversas modalidades de imagem médica, incluindo dermoscopia, radiologia, retinografia e RM, evidenciam que as abordagens propostas melhoram não só a precisão no diagnóstico, mas também a coerência e fiabilidade das explicações baseadas em conceitos, abrindo caminho a uma integração clínica mais segura e a um aumento da confiança por parte dos utilizadores. | por |
| dc.identifier.tid | 101778910 | |
| dc.identifier.uri | http://hdl.handle.net/10400.6/20089 | |
| dc.language.iso | eng | |
| dc.relation | Bolsa de Doutoramento FCT: Modelos Autoexplicativos de Aprendizagem Profunda com Explicações Multimodais baseadas em Conceitos para o Diagnóstico Médico [2022.11566.BD] | |
| dc.relation | NOVA LINCS: Laboratory for Computer Science and Informatics [UIDB/04516/2020] | |
| dc.rights.uri | http://creativecommons.org/licenses/by/4.0/ | |
| dc.subject | Inteligência Artificial Explicável | |
| dc.subject | Aprendizagem Profunda | |
| dc.subject | Classificação de Imagem Médica | |
| dc.subject | Modelos Baseados em Conceitos | |
| dc.subject | Explicações Multimodais | |
| dc.subject | Interpretabilidade | |
| dc.subject | Diagnóstico de Lesões da Pele | |
| dc.subject | Grandes Modelos de Visão-Linguagem | |
| dc.subject | Explicações Baseadas em Conceitos | |
| dc.subject | Explainable Artificial Intelligence | |
| dc.subject | Deep Learning | |
| dc.subject | Medical Image Classification | |
| dc.subject | Concept Bottleneck Models | |
| dc.subject | Multimodal Explanations | |
| dc.subject | Interpretability | |
| dc.subject | Skin Lesion Diagnosis | |
| dc.subject | Large Vision Language Models | |
| dc.subject | Concept-based Explanations | |
| dc.title | Self-Explanatory Deep Learning Models with Concept-based Multimodal Explanations for Medical Imaging Diagnosis | eng |
| dc.type | doctoral thesis | |
| dspace.entity.type | Publication | |
| oaire.awardNumber | 2022.11566.BD | |
| oaire.awardNumber | UIDB/04516/2020 | |
| oaire.awardTitle | Bolsa de Doutoramento FCT: Modelos Autoexplicativos de Aprendizagem Profunda com Explicações Multimodais baseadas em Conceitos para o Diagnóstico Médico [2022.11566.BD] | |
| oaire.awardTitle | NOVA LINCS: Laboratory for Computer Science and Informatics [UIDB/04516/2020] | |
| oaire.awardURI | http://hdl.handle.net/10400.6/20086 | |
| oaire.awardURI | info:eu-repo/grantAgreement/FCT/6817 - DCRRNI ID/UIDB%2F04516%2F2020/PT | |
| oaire.fundingStream | Bolsa de Doutoramento | |
| oaire.fundingStream | 6817 - DCRRNI ID | |
| person.familyName | Patrício | |
| person.givenName | Cristiano Pires | |
| person.identifier.ciencia-id | 4415-5923-9CC9 | |
| person.identifier.orcid | 0000-0003-2215-3334 | |
| project.funder.identifier | http://doi.org/10.13039/501100001871 | |
| project.funder.name | Fundação para a Ciência e a Tecnologia | |
| relation.isAuthorOfPublication | b9b6e1ec-d46e-4a17-b8e9-bd93648fadcc | |
| relation.isAuthorOfPublication.latestForDiscovery | b9b6e1ec-d46e-4a17-b8e9-bd93648fadcc | |
| relation.isProjectOfPublication | 93339562-cbd7-4a93-b5ee-810ee758122f | |
| relation.isProjectOfPublication | ccebc324-b0d7-400f-9c95-b6a8ac0149be | |
| relation.isProjectOfPublication.latestForDiscovery | 93339562-cbd7-4a93-b5ee-810ee758122f | |
| thesis.degree.name | Doutoramento em Engenharia Informática |
Ficheiros
Principais
1 - 1 de 1
A carregar...
- Nome:
- PhD_Thesis_CristianoPatricio_vDigital_abril2026_signed.pdf
- Tamanho:
- 27.25 MB
- Formato:
- Adobe Portable Document Format
Licença
1 - 1 de 1
Miniatura indisponível
- Nome:
- license.txt
- Tamanho:
- 4.03 KB
- Formato:
- Item-specific license agreed upon to submission
- Descrição:
