Show simple item record

dc.contributor.advisorMendes, Eduardo Fonseca
dc.contributor.authorLento, Gabriel Carneiro
dc.date.accessioned2017-05-17T12:43:35Z
dc.date.available2017-05-17T12:43:35Z
dc.date.issued2017-03-27
dc.identifier.citationLENTO, Gabriel Carneiro. Random forest em dados desbalanceados: uma aplicação na modelagem de churn em seguro saúde. Dissertação (Mestrado em Matemática Aplicada) - Escola de Matemática Aplicada, Fundação Getúlio Vargas - FGV, Rio de Janeiro, 2017.
dc.identifier.urihttp://hdl.handle.net/10438/18256
dc.description.abstractIn this work we study churn in health insurance, that is predicting which clients will cancel the product or service within a preset time-frame. Traditionally, the probability whether a client will cancel the service is modeled using logistic regression. Recently, modern machine learning techniques are becoming popular in churn modeling, having been applied in the areas of telecommunications, banking, and car insurance, among others. One of the big challenges in this problem is that only a fraction of all customers cancel the service, meaning that we have to deal with highly imbalanced class probabilities. Under-sampling and over-sampling techniques have been used to overcome this issue. We use random forests, that are ensembles of decision trees, where each of the trees fits a subsample of the data constructed using either under-sampling or over-sampling. We compare the distinct specifications of random forests using various metrics that are robust to imbalanced classes, both in-sample and out-of-sample. We observe that random forests using imbalanced random samples with fewer observations than the original series present a better overall performance. Random forests also present a better performance than the classical logistic regression, often used in health insurance companies to model churn.eng
dc.description.abstractNeste trabalho estudamos o problema de churn em seguro saúde, isto é, a previsão se o cliente irá cancelar o produto ou serviço em até um período de tempo pré-estipulado. Tradicionalmente, regressão logística é utilizada para modelar a probabilidade de cancelamento do serviço. Atualmente, técnicas modernas de machine learning vêm se tornando cada vez mais populares para esse tipo de problema, com exemplos nas áreas de telecomunicação, bancos, e seguros de carro, dentre outras. Uma das grandes dificuldades nesta modelagem é que apenas uma pequena fração dos clientes de fato cancela o serviço, o que significa que a base de dados tratada é altamente desbalanceada. Técnicas de under-sampling e over-sampling são utilizadas para contornar esse problema. Neste trabalho, aplicamos random forests, que são combinações de árvores de decisão ajustadas em subamostras dos dados, construídas utilizando under-sampling e over-sampling. Ao fim do trabalho comparamos métricas de ajustes obtidas nas diversas especificações dos modelos testados e avaliamos seus resultados dentro e fora da amostra. Observamos que técnicas de random forest utilizando sub-amostras não balanceadas com o tamanho menor do que a amostra original apresenta a melhor performance dentre as random forests utilizadas e uma melhora com relação ao praticado no mercado de seguro saúde.por
dc.language.isopor
dc.subjectUnder-samplingeng
dc.subjectOver-samplingeng
dc.subjectImbalanced classeng
dc.subjectHealth insuranceeng
dc.subjectRandom foresteng
dc.subjectChurnpor
dc.subjectDados desbalanceadospor
dc.subjectSeguro-saúdepor
dc.titleRandom forest em dados desbalanceados: uma aplicação na modelagem de churn em seguro saúdepor
dc.typeDissertationeng
dc.subject.areaMatemáticapor
dc.contributor.unidadefgvEscolas::EMAppor
dc.subject.bibliodataAprendizado do computadorpor
dc.subject.bibliodataMineração de dados (Computação)por
dc.subject.bibliodataSeguro-saúdepor
dc.contributor.memberMello, Carlos Eduardo
dc.contributor.memberTargino, Rodrigo dos Santos
dc.contributor.memberSouza, Renato Rocha


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record