Name: | Description: | Size: | Format: | |
---|---|---|---|---|
1.19 MB | Adobe PDF |
Authors
Advisor(s)
Abstract(s)
Fraud detection configures a very interesting problem yet to solve, particularly when related to
automobile insurance claims. In this research we address this challenge from a not so typical
"record" perspective of data, but rather from a network point of view, where relations between
entities involved in claims are explored to detect organized fraud structures.
First we propose a random data generator, able to generate graphs that resemble realistic patterns
evidenced on authentic scenarios, based on insurance authorities statistics and graph features
already described in the literature. We show how this graph copes with the requirements on
every single step, and how it can be adjustable to different locals.
Secondly, we propose a variation of Subelj approach [ŠFB11], and apply it to the generated graphs.
This approach explores the relations between entities, takes advantage of the power of social
network analysis metrics and statistical methods such as RIDIT scores and Principal Component
Analysis to score each connected component and Support Vector Machines to classify them either
fraudulent or honest.
The main contributions of this research is a new approach to generate data regarding automobile
insurance claims suitable for social network analysis, and a variation of an approach described
on the literature, proving thus not only benchmark results but also new insights regarding fraud
detection through graph-based algorithms.
A detecção de fraude configura um desafio interessante, que não está totalmente resolvido particularmente no que respeita a fraude em seguros automóvel. A fraude no seguro automóvel representa várias centenas de milhões de euros de prejuízo para as companhias seguradoras na Europa, e consequentemente um aumento de preço das apólices cobrado ao consumidor final. A dimensão do mercado segurador e o impacto que a fraude tem nas companhias faz com que a tarefa de detecção de fraude possa transformada em vantagem competitiva, e assim se assuma como uma prioridade no sector. A fraude que provoca danos mais volumosos é a praticada por grupos organizados, que concebem esquemas e contornam o sistema de forma a sistematicamente repetir a actividade fraudulenta. Esta dissertação aborda o tema da detecção de fraude de uma perpectiva que não será a mais comum nos sistemas hoje em dia utilizados. Em vez de analisar dados de sinistros como números e estatísticas isoladas, tenta perceber as relações entre as entidades que participam nos sinistros e identificar estruturas suspeitas de entre um vasto conjunto de dados. O conjunto de dados necessário à análise que propomos tem características especiais, como por exemplo ser sensível a divulgação a terceiros por conter dados pessoais e ser normalmente propriedade das companhias de seguros ou de estruturas policiais. Por estes motivos, não existem conjuntos de dados públicos que permitam o desenvolvimento de uma investigação neste sentido. Para colmatar este facto, propomos um gerador de grafos aleatório capaz de produzir redes com padrões semelhantes àqueles que seria expectável encontrar em cenários reais. O gerador incorpora conhecimento descrito na literatura [ŠFB11] sobre características e padrões encontrados em conjuntos de dados relacionados com este tema. Além disso, especialistas de seguros da Deloitte, parceira no desenvolvimento desta dissertação, contribuiram com a sua experiência no campo para que o gerador pudesse representar fielmente a realidade. No que respeita à detecção de fraude, este trabalho propõe uma abordagem que inclui a classificação de componentes do grafo como fraudulentos ou honestos, através do uso do conhecido classificador SVM (Support Vector Machine). São feitas avaliações de performance com várias variações do método proposto e de parte do método que inspirou a abordagem usada, chamado PRIDIT. Uma das conclusões mais interessantes que estas experiências parecem sugerir é que nem sempre o uso do método PRIDIT garante o aumento de performance desejado. As contribuições deste trabalho centram-se no desenvlvimento de um gerador de grafos para o contexto de análise de fraude de seguros automóvel, e na avaliação e comparação do uso de SVM na classificação de componentes fraudulentos.
A detecção de fraude configura um desafio interessante, que não está totalmente resolvido particularmente no que respeita a fraude em seguros automóvel. A fraude no seguro automóvel representa várias centenas de milhões de euros de prejuízo para as companhias seguradoras na Europa, e consequentemente um aumento de preço das apólices cobrado ao consumidor final. A dimensão do mercado segurador e o impacto que a fraude tem nas companhias faz com que a tarefa de detecção de fraude possa transformada em vantagem competitiva, e assim se assuma como uma prioridade no sector. A fraude que provoca danos mais volumosos é a praticada por grupos organizados, que concebem esquemas e contornam o sistema de forma a sistematicamente repetir a actividade fraudulenta. Esta dissertação aborda o tema da detecção de fraude de uma perpectiva que não será a mais comum nos sistemas hoje em dia utilizados. Em vez de analisar dados de sinistros como números e estatísticas isoladas, tenta perceber as relações entre as entidades que participam nos sinistros e identificar estruturas suspeitas de entre um vasto conjunto de dados. O conjunto de dados necessário à análise que propomos tem características especiais, como por exemplo ser sensível a divulgação a terceiros por conter dados pessoais e ser normalmente propriedade das companhias de seguros ou de estruturas policiais. Por estes motivos, não existem conjuntos de dados públicos que permitam o desenvolvimento de uma investigação neste sentido. Para colmatar este facto, propomos um gerador de grafos aleatório capaz de produzir redes com padrões semelhantes àqueles que seria expectável encontrar em cenários reais. O gerador incorpora conhecimento descrito na literatura [ŠFB11] sobre características e padrões encontrados em conjuntos de dados relacionados com este tema. Além disso, especialistas de seguros da Deloitte, parceira no desenvolvimento desta dissertação, contribuiram com a sua experiência no campo para que o gerador pudesse representar fielmente a realidade. No que respeita à detecção de fraude, este trabalho propõe uma abordagem que inclui a classificação de componentes do grafo como fraudulentos ou honestos, através do uso do conhecido classificador SVM (Support Vector Machine). São feitas avaliações de performance com várias variações do método proposto e de parte do método que inspirou a abordagem usada, chamado PRIDIT. Uma das conclusões mais interessantes que estas experiências parecem sugerir é que nem sempre o uso do método PRIDIT garante o aumento de performance desejado. As contribuições deste trabalho centram-se no desenvlvimento de um gerador de grafos para o contexto de análise de fraude de seguros automóvel, e na avaliação e comparação do uso de SVM na classificação de componentes fraudulentos.
Description
Keywords
Fraud Detection Random Graph Generator Social Network Analysis Svm