Levantamento de indicadores através de data mining, Latent Dirichlet Allocation e TF-IDF
Resumo
A pesquisa visou identificar aplicações de técnicas de Processamento de Linguagem Natural (NLP) na prática de administração de empresas. Técnicas de NLP visam à análise automatizada de documentos escritos em linguagem natural, sem uma padronização das informações exibidas. Entre elas, duas técnicas destinadas à Recuperação de Informação foram utilizadas. Uma técnica específica, a Alocação de Dirichlet Latente (LDA) mostrou-se eficaz na classificação automática de relatórios de administração, agrupando-os por similaridade. Uma segunda técnica, busca de palavras por TF-IDF, revelou-se eficaz na identificação automatizada de grupos de documentos com indicadores desejados, em sua maioria, de natureza financeira. Uma terceira técnica, Mineração de Dados, foi combinada às duas primeiras para automatizar a coleta em massa de relatórios do repositório da CVM. O resultado combinado das três técnicas foi, a partir de uma palavra-chave de escolha e um grande repositório remoto de relatórios da CVM, o de conseguir localizar automaticamente documentos específicos contendo indicadores financeiros desejados, em meio a centenas de milhares de outros documentos. A busca automatizada desses documentos, que, de outra forma, poderiam ter sido ignorados devido ao excesso de dados a serem analisados, pode contribuir para a melhoria da prática administrativa. This research aimed at identifying applications of Natural Language Processing (NLP) techniques in the practice of business administration. NLP techniques aim at automated analysis of documents written in natural language, without any standardization of displayed information. Among the applications, two techniques for Information Retrieval were used. One specific technique, the Latent Dirichlet Allocation (LDA) was shown to be effective for automatically classifying administrative reports, grouping them by similarity. A second technique, keywords search based on TF-IDF, was shown to be effective in automatically identifying groups of documents with desired indicators, the majority being of financial nature. A third technique, Data Mining, was combined with the first two, to automate a mass collection of reports from the CVM repository. The combined result of the three techniques was, from a keyword of choice and a big remote CVM repository of reports, to be able to automatically locate specific documents containing desired indicators, among hundreds of thousands of other documents. The automated search of these documents that, otherwise, could have been ignored due to the excess of data to be analyzed, can contribute to the improvement of the business administration practice.


