Social Network Analysis for Insurance Fraud Detection

Garcia, Nuno Ricardo da Cruz

http://hdl.handle.net/10400.6/5895

Utilize este identificador para referenciar este registo.

Nome:	Descrição:	Tamanho:	Formato:
4658_8865.pdf		1.19 MB	Adobe PDF	Ver/Abrir

Contacte-nos

Autores

Garcia, Nuno Ricardo da Cruz

Orientador(es)

Proença, Hugo Pedro Martins Carriço

Resumo(s)

Fraud detection configures a very interesting problem yet to solve, particularly when related to automobile insurance claims. In this research we address this challenge from a not so typical "record" perspective of data, but rather from a network point of view, where relations between entities involved in claims are explored to detect organized fraud structures. First we propose a random data generator, able to generate graphs that resemble realistic patterns evidenced on authentic scenarios, based on insurance authorities statistics and graph features already described in the literature. We show how this graph copes with the requirements on every single step, and how it can be adjustable to different locals. Secondly, we propose a variation of Subelj approach [ŠFB11], and apply it to the generated graphs. This approach explores the relations between entities, takes advantage of the power of social network analysis metrics and statistical methods such as RIDIT scores and Principal Component Analysis to score each connected component and Support Vector Machines to classify them either fraudulent or honest. The main contributions of this research is a new approach to generate data regarding automobile insurance claims suitable for social network analysis, and a variation of an approach described on the literature, proving thus not only benchmark results but also new insights regarding fraud detection through graph-based algorithms.

A detecção de fraude configura um desafio interessante, que não está totalmente resolvido particularmente no que respeita a fraude em seguros automóvel. A fraude no seguro automóvel representa várias centenas de milhões de euros de prejuízo para as companhias seguradoras na Europa, e consequentemente um aumento de preço das apólices cobrado ao consumidor final. A dimensão do mercado segurador e o impacto que a fraude tem nas companhias faz com que a tarefa de detecção de fraude possa transformada em vantagem competitiva, e assim se assuma como uma prioridade no sector. A fraude que provoca danos mais volumosos é a praticada por grupos organizados, que concebem esquemas e contornam o sistema de forma a sistematicamente repetir a actividade fraudulenta. Esta dissertação aborda o tema da detecção de fraude de uma perpectiva que não será a mais comum nos sistemas hoje em dia utilizados. Em vez de analisar dados de sinistros como números e estatísticas isoladas, tenta perceber as relações entre as entidades que participam nos sinistros e identificar estruturas suspeitas de entre um vasto conjunto de dados. O conjunto de dados necessário à análise que propomos tem características especiais, como por exemplo ser sensível a divulgação a terceiros por conter dados pessoais e ser normalmente propriedade das companhias de seguros ou de estruturas policiais. Por estes motivos, não existem conjuntos de dados públicos que permitam o desenvolvimento de uma investigação neste sentido. Para colmatar este facto, propomos um gerador de grafos aleatório capaz de produzir redes com padrões semelhantes àqueles que seria expectável encontrar em cenários reais. O gerador incorpora conhecimento descrito na literatura [ŠFB11] sobre características e padrões encontrados em conjuntos de dados relacionados com este tema. Além disso, especialistas de seguros da Deloitte, parceira no desenvolvimento desta dissertação, contribuiram com a sua experiência no campo para que o gerador pudesse representar fielmente a realidade. No que respeita à detecção de fraude, este trabalho propõe uma abordagem que inclui a classificação de componentes do grafo como fraudulentos ou honestos, através do uso do conhecido classificador SVM (Support Vector Machine). São feitas avaliações de performance com várias variações do método proposto e de parte do método que inspirou a abordagem usada, chamado PRIDIT. Uma das conclusões mais interessantes que estas experiências parecem sugerir é que nem sempre o uso do método PRIDIT garante o aumento de performance desejado. As contribuições deste trabalho centram-se no desenvlvimento de um gerador de grafos para o contexto de análise de fraude de seguros automóvel, e na avaliação e comparação do uso de SVM na classificação de componentes fraudulentos.

Palavras-chave

Fraud Detection Random Graph Generator Social Network Analysis Svm

URI

http://hdl.handle.net/10400.6/5895

Coleções

FE - DI | Dissertações de Mestrado e Teses de Doutoramento

Ver registo completo