FGV Repositório Digital
    • português (Brasil)
    • English
    • español
      Acesse:
    • FGV Biblioteca Digital
    • FGV Periódicos científicos e revistas
  • português (Brasil) 
    • português (Brasil)
    • English
    • español
  • Entrar
Ver item 
  •   Página inicial
  • FGV EMAp - Escola de Matemática Aplicada
  • FGV EMAp - Dissertações, Mestrado em Modelagem Matemática
  • Ver item
  •   Página inicial
  • FGV EMAp - Escola de Matemática Aplicada
  • FGV EMAp - Dissertações, Mestrado em Modelagem Matemática
  • Ver item
JavaScript is disabled for your browser. Some features of this site may not work without it.

Navegar

Todo o repositórioComunidades FGVAutorOrientadorAssuntoTítuloDataPalavra-chaveEsta coleçãoAutorOrientadorAssuntoTítuloDataPalavra-chave

Minha conta

EntrarCadastro

Estatísticas

Ver as estatísticas de uso

Using supervised machine learning and sentiment analysis techniques to predict homophobia in portuguese tweets

Thumbnail
Visualizar/Abrir
Dissertação de Mestrado (1.935Mb)
Data
2018-04-16
Autor
Pereira, Vinicius Gomes
Orientador
Mendes, Eduardo Fonseca
Metadados
Mostrar registro completo
Resumo
Este trabalho estuda a identificação de tweets homofóbicos, utilizando uma abordagem de processamento de linguagem natural e aprendizado de máquina. O objetivo é construir um modelo preditivo que possa detectar, com razoável precisão, se um Tweet contém conteúdo ofensivo a indivı́duos LGBT ou não. O banco de dados utilizado para treinar os modelos preditivos foi construı́do agregando tweets de usuários que interagiram com polı́ticos e/ou partidos polı́ticos no Brasil. Tweets contendo termos relacionados a LGBTs ou que têm referências a indivı́duos LGBT foram coletados e classificados manualmente. Uma grande parte deste trabalho está na construção de features que capturam com precisão não apenas o texto do tweet, mas também caracterı́sticas especı́ficas dos usuários e de expressões coloquiais do português. Em particular, os usos de palavrões e vocabulários especı́ficos são um forte indicador de tweets ofensivos. Naturalmente, n-gramas e esquemas de frequência de termos também foram considerados como caracterı́sticas do modelo. Um total de 12 conjuntos de recursos foram construı́dos. Uma ampla gama de técnicas de aprendizado de máquina foi empregada na tarefa de classificação: Naive Bayes, regressões logı́sticas regularizadas, redes neurais feedforward, XGBoost (extreme gradient boosting), random forest e support vector machines. Depois de estimar e ajustar cada modelo, eles foram combinados usando voting e stacking. Voting utilizando 10 modelos obteve o melhor resultado, com 89,42% de acurácia.
 
This work studies the identification of homophobic tweets from a natural language processing and machine learning approach. The goal is to construct a predictive model that can detect, with reasonable accuracy, whether a Tweet contains offensive content to LGBT or not. The database used to train the predictive models was constructed aggregating tweets from users that have interacted with politicians and/or political parties in Brazil. Tweets containing LGBT-related terms or that have references to open LGBT individuals were collected and manually classified. A large part of this work is in constructing features that accurately capture not only the text of the tweet but also specific characteristics of the users and language choices. In particular, the uses of swear words and strong vocabulary is a quite strong predictor of offensive tweets. Naturally, n-grams and term weighting schemes were also considered as features of the model. A total of 12 sets of features were constructed. A broad range of machine learning techniques were employed in the classification task: naive Bayes, regularized logistic regressions, feedforward neural networks, extreme gradient boosting (XGBoost), random forest and support vector machines. After estimating and tuning each model, they were combined using voting and stacking. Voting using 10 models obtained the best result, with 89.42% accuracy.
 
URI
http://hdl.handle.net/10438/24301
Coleções
  • FGV EMAp - Dissertações, Mestrado em Modelagem Matemática [78]
Áreas do conhecimento
Matemática
Assunto
Processamento da linguagem natural (Computação)
Mineração de dados (Computação)
Aprendizado do computador
Modelagem de dados
Homofobia
Palavra-chave
Sentiment analysis
Machine learning
Supervised learning
Ensemble methods
Homophobia
Análise de sentimentos
Aprendizagem de máquina
Aprendizagem supervisionada

DSpace software copyright © 2002-2016  DuraSpace
Entre em contato | Deixe sua opinião
Theme by 
@mire NV
 

 


DSpace software copyright © 2002-2016  DuraSpace
Entre em contato | Deixe sua opinião
Theme by 
@mire NV
 

 

Importar metadado