O poder da palavra: aplicação da modelagem de tópicos na construção de indicadores econômicos
Resumo
Dados textuais, como notícias de jornais, contêm informações econômicas relevantes, sendo importante na formação das expectativas dos agentes econômicos. Essas informações, se devidamente quantificadas, podem ser eficazes na análise do estado atual da economia (nowcast) ou na sua previsão. Com o advento de técnicas de machine learning, mais especificamente as de Processamento de Linguagem Natural (NLP, Natural Language Processing), desenvolvidas para lidar com dados textuais, é possível extrair os tópicos e o sentimento de um texto. Utilizando-se de Latent Dirichlet Allocation (LDA) (BLEI; NG; JORDAN, 2003), um processo probabilístico generativo de documentos, foi inferida a distribuição de tópicos em um corpus de mais de 135,000 notícias do jornal Valor Econômico, jornal especializado em economia e finanças de maior circulação no Brasil. Além disso, através de um léxico de sentimento e Análise de Sentimento, foi aferido o sentimento de cada notícia a partir de suas palavras. Com a informação dos tópicos e dos sentimentos das notícias, foram criados indicadores de tópico-sentimento que se mostraram correlacionados a indicadores econômicos, como indicadores de confiança e índices de inflação, e que tem como vantagem ter frequência diária e poderem ser expandidos para novos conjuntos de textos. A utilização de LDA para a língua portuguesa é ainda pequena, e sua aplicação em Economia para o caso brasileiro é aparentemente inexistente, este trabalho contribui em ambos os casos; mostrando as adaptações necessárias às técnicas já desenvolvidas para a língua inglesa, e evidenciando a utilidade de dados textuais na análise econômica. Textual data, such as newspaper news, contains relevant economic information and is important in shaping the expectations of economic agents. This information, if properly quantified, can be effective in analyzing the current state of the economy (nowcast) or in its forecast. With the advent of machine learning techniques, more specifically Natural Language Processing (NLP), developed to deal with textual data, it is possible to extract the topics and the sentiment of a text. Using Latent Dirichlet Allocation (LDA) (BLEI; NG; JORDAN, 2003), a probabilistic generative process of documents, the distribution of topics was inferred in a corpus of more than 135,000 news of the newspaper Valor Econômico, the leading newspaper specialized in economics and finance in Brazil. In addition, through a lexicon and Sentiment Analysis, the sentiment of each news was measured. With the information of the topic distribution and the sentiment of the news, topic-sentiment indicators were created that were shown to be correlated to economic indicators, such as confidence indicators and inflation indexes, and that has the advantage of having daily frequency and can be expanded to new sets of texts. The use of LDA for the Portuguese language is still small, and its application in Economics for the Brazilian case is apparently non-existent, this work contributes in both cases; showing the necessary adaptations to the techniques already developed for English, and highlighting the usefulness of textual data in economic analysis.


