| Name: | Description: | Size: | Format: | |
|---|---|---|---|---|
| 18.62 MB | Adobe PDF |
Authors
Abstract(s)
The availability of digital images on the Internet has grown exponentially in recent years. This has made it challenging for users to find relevant images in the context of Information Retrieval IR tasks, as search engines are often unable to understand their content accurately. This challenge becomes even greater when searching for images in languages other than English - especially low-to-mid resource languages like Portuguese, which often lack the necessary linguistic resources. To address these issues, several approaches have been proposed, such as using multimodal language models that attempt to understand both image content and associated textual information. However, most of these models are fine-tuned primarily for the English language. Another common strategy involves language translation models, where queries in a target language are translated into English before being processed. However, such a solution is also not perfect as the meaning of the query can be lost in translation, leading to suboptimal results. This MSc thesis tackles this challenge by developing and evaluating multimodal approaches for Portuguese image retrieval, with a specific focus on understanding the limitations and opportunities of current vision-language models. Our hypothesis is that combining text-based and image-based retrieval modalities through innovative score adjustment mechanisms will lead to more effective results than individual approaches alone. The primary objective of this research is to develop an effective image IR system for Portuguese queries and establish performance baselines for this domain. To achieve this, we created a Portuguese image retrieval evaluation dataset comprising 80 queries and 5,201 annotated images from the Portuguese Presidency website. We developed a novel hybrid retrieval algorithm that combines text-based and image-based retrieval through mathematical score adjustment mechanisms, utilizing K-Nearest Neighbors (KNN) algorithms for similarity matching. Our comprehensive evaluation encompassed traditional text-based IR methods, commercial search engines, Portuguese-specific language models, and state-of-the-art vision-language models. The results revealed that multilingual visionlanguage models, particularly OpenCLIP xlm-roberta-base, substantially outperformed traditional text-based approaches by 62% in MRR scores, achieving 71% better performance with shorter queries compared to longer descriptive formulations. Surprisingly, fine-tuning experiments showed decreased performance across all metrics, with degradations ranging from 16% to 28%, suggesting that pre-trained multilingual representations are more valuable than domain-specific adaptations. The proposed hybrid algorithm achieved meaningful improvements, with a 1.8% enhancement in Mean Reciprocal Rank over the best baseline approach.
A disponibilidade de imagens digitais na Internet tem crescido exponencialmente nos últimos anos. Isto tornou difícil para os utilizadores encontrarem imagens relevantes no contexto de tarefas de Recuperação de Informação (RI), uma vez que os motores de pesquisa frequentemente não conseguem compreender o seu conteúdo de forma precisa. Este desafio torna-se ainda maior quando se procuram imagens em línguas que não o inglês — especialmente línguas de recursos baixos a médios como o português, que frequentemente necessitam dos recursos linguísticos necessários. Para abordar estas questões, vários métodos têm sido propostos, como a utilização de modelos de linguagem multimodais que tentam compreender tanto o conteúdo da imagem como a informação textual associada. No entanto, a maioria destes modelos são afinados principalmente para a língua inglesa. Outra estratégia comum envolve modelos de tradução linguística, onde as procuras numa língua-alvo são traduzidas para inglês antes de serem processadas. Contudo, tal solução também não é perfeita, pois os detalhes da procura podem-se perder na tradução, levando a resultados subóptimos. Esta dissertação de mestrado aborda este desafio através do desenvolvimento e avaliação de abordagens multimodais para recuperação de imagens em português, com um foco específico na compreensão das limitações e oportunidades dos modelos visão-linguagem atuais. A nossa hipótese é que combinar modalidades de recuperação baseadas em texto e em imagem através de mecanismos inovadores de ajuste de pontuação, que levará a resultados mais eficazes do que abordagens que apenas utilizam uma modalidade. O objetivo principal desta investigação foi desenvolver um sistema de RI de imagens eficaz para pesquisas em português e estabelecer baselines de desempenho abrangentes para este domínio. Para tal, criámos um conjunto de dados de avaliação de recuperação de imagens em português com 80 pesquisas e 5.201 imagens anotadas do website da Presidência portuguesa. Desenvolvemos um algoritmo híbrido de recuperação que combina recuperação baseada em texto e em imagem através de mecanismos matemáticos de ajuste de pontuação em conjunto com o algoritmo K-Nearest Neighbors (KNN) para correspondência de similaridade. A nossa avaliação englobou métodos tradicionais de RI baseados em texto, motores de busca comerciais, modelos de linguagem específicos para português e modelos visão-linguagem estado-da-arte. Os resultados revelaram que modelos visão-linguagem multilingues, particularmente o OpenCLIP xlm-roberta-base, superaram substancialmente as abordagens tradicionais baseadas em texto em 62% nas pontuações MRR, alcançando 71% melhor desempenho com consultas mais curtas comparativamente a formulações descritivas mais longas. Surpreendentemente, as experiências de afinação mostraram desempenho diminuído em todas as métricas, com degradações que variaram entre 16% e 28%, sugerindo que representações multilingues prétreinadas são mais valiosas que adaptações específicas do domínio. O algoritmo híbrido proposto alcançou melhorias significativas, com um aumento de 1.8% no Mean Reciprocal Rank (MRR) em relação à melhor abordagem baseline.
A disponibilidade de imagens digitais na Internet tem crescido exponencialmente nos últimos anos. Isto tornou difícil para os utilizadores encontrarem imagens relevantes no contexto de tarefas de Recuperação de Informação (RI), uma vez que os motores de pesquisa frequentemente não conseguem compreender o seu conteúdo de forma precisa. Este desafio torna-se ainda maior quando se procuram imagens em línguas que não o inglês — especialmente línguas de recursos baixos a médios como o português, que frequentemente necessitam dos recursos linguísticos necessários. Para abordar estas questões, vários métodos têm sido propostos, como a utilização de modelos de linguagem multimodais que tentam compreender tanto o conteúdo da imagem como a informação textual associada. No entanto, a maioria destes modelos são afinados principalmente para a língua inglesa. Outra estratégia comum envolve modelos de tradução linguística, onde as procuras numa língua-alvo são traduzidas para inglês antes de serem processadas. Contudo, tal solução também não é perfeita, pois os detalhes da procura podem-se perder na tradução, levando a resultados subóptimos. Esta dissertação de mestrado aborda este desafio através do desenvolvimento e avaliação de abordagens multimodais para recuperação de imagens em português, com um foco específico na compreensão das limitações e oportunidades dos modelos visão-linguagem atuais. A nossa hipótese é que combinar modalidades de recuperação baseadas em texto e em imagem através de mecanismos inovadores de ajuste de pontuação, que levará a resultados mais eficazes do que abordagens que apenas utilizam uma modalidade. O objetivo principal desta investigação foi desenvolver um sistema de RI de imagens eficaz para pesquisas em português e estabelecer baselines de desempenho abrangentes para este domínio. Para tal, criámos um conjunto de dados de avaliação de recuperação de imagens em português com 80 pesquisas e 5.201 imagens anotadas do website da Presidência portuguesa. Desenvolvemos um algoritmo híbrido de recuperação que combina recuperação baseada em texto e em imagem através de mecanismos matemáticos de ajuste de pontuação em conjunto com o algoritmo K-Nearest Neighbors (KNN) para correspondência de similaridade. A nossa avaliação englobou métodos tradicionais de RI baseados em texto, motores de busca comerciais, modelos de linguagem específicos para português e modelos visão-linguagem estado-da-arte. Os resultados revelaram que modelos visão-linguagem multilingues, particularmente o OpenCLIP xlm-roberta-base, superaram substancialmente as abordagens tradicionais baseadas em texto em 62% nas pontuações MRR, alcançando 71% melhor desempenho com consultas mais curtas comparativamente a formulações descritivas mais longas. Surpreendentemente, as experiências de afinação mostraram desempenho diminuído em todas as métricas, com degradações que variaram entre 16% e 28%, sugerindo que representações multilingues prétreinadas são mais valiosas que adaptações específicas do domínio. O algoritmo híbrido proposto alcançou melhorias significativas, com um aumento de 1.8% no Mean Reciprocal Rank (MRR) em relação à melhor abordagem baseline.
Description
Keywords
Modelos Multimodais Processamento de Linguagem Natural Recuperação de Informação
Baseada em Conteúdo Recuperação de Informação de Imagens Visão Computacional
