Show simple item record

dc.contributor.advisorMendes, Eduardo Fonseca
dc.contributor.authorAzevedo, Glauco Gomes de
dc.date.accessioned2018-09-12T17:39:51Z
dc.date.available2018-09-12T17:39:51Z
dc.date.issued2018-06-04
dc.identifier.urihttp://hdl.handle.net/10438/24742
dc.description.abstractNeste trabalho é proposta uma metodologia para estimar distâncias entre pontos de dados mistos, contínuos e categóricos, contendo dados faltantes. Estimação de distâncias é a base para muitos métodos de regressão/classificação, tais como vizinhos mais próximos e análise de discriminantes, e para técnicas de clusterização como k-means e k-medoids. Métodos clássicos para manipulação de dados faltantes se baseiam em imputação pela média, o que pode subestimar a variância, ou em métodos baseados em regressão. Infelizmente, quando a meta é a estimar a distância entre observações, a imputação de dados pode performar de modo ineficiente e enviesar os resultados na direção do modelo. Na proposta desse trabalho, estima-se a distância dos pares diretamente, tratando os dados faltantes como aleatórios. A distribuição conjunta dos dados é aproximada utilizando um modelo de mistura multivariado para dados mistos, contínuos e categóricos. Apresentamentos um algoritmo do tipo EM para estimar a mistura e uma metodologia geral para estimar a distância entre observações. Simulações mostram que um método proposto performa tanto dados simulados, como reais.por
dc.description.abstractIn this work we propose a methodology to estimate the pairwise distance between mixed continuous and categorical data with missing values. Distance estimation is the base for many regression/classification methods, such as nearest neighbors and discriminant analysis, and for clustering techniques such as k-means and k-medoids. Classical methods for handling missing data rely on mean imputation, that could underestimate the variance, or regression-based imputation methods. Unfortunately, when the goal is to estimate the distance between observations, data imputation may perform badly and bias the results toward the data imputation model. In this work we estimate the pairwise distances directly, treating the missing data as random. The joint distribution of the data is approximated using a multivariate mixture model for mixed continuous and categorical data. We present an EM-type algorithm for estimating the mixture and a general methodology for estimating the distance between observations. Simulation shows that the proposed method performs well in both simulated and real data.eng
dc.language.isoeng
dc.subjectDados faltantespor
dc.subjectMachine learningpor
dc.subjectModelos de mixturapor
dc.subjectMissing dataeng
dc.subjectMixture modelseng
dc.titleDistance estimation for mixed continuous and categorical data with missing valueseng
dc.typeDissertationeng
dc.subject.areaTecnologiapor
dc.contributor.unidadefgvEscolas::EMAppor
dc.subject.bibliodataAprendizado do computadorpor
dc.subject.bibliodataAusência de dados (Estatística)por
dc.subject.bibliodataModelagem de dadospor
dc.contributor.memberSouza, Renato Lopes de
dc.contributor.memberMello, Carlos Eduardo


Files in this item

Thumbnail

This item appears in the following Collection(s)

Show simple item record