Previsão de vendas em alta frequência do varejo brasileiro: um estudo comparativo entre modelos tradicionais e redes neurais artificiais
Abstract
O estudo das vendas agregadas do comércio varejista é essencial para compreender a dinâmica de consumo de um país. Neste contexto, a avaliação de métodos de previsão que sejam capazes de gerar um nível de acuracidade elevado para estas vendas demonstra-se importante para a formação das expectativas de crescimento do consumo. Este trabalho, portanto, tem como principal finalidade a realização de um estudo comparativo entre as previsões de quatro índices diários de vendas no varejo em quatro horizontes de previsão. A comparação foi feita entre modelos tradicionais de séries temporais – Naïve, Seasonal Naïve, Holt-Winters e SARIMA – e duas arquiteturas de redes neurais – feedforward Multilayer Perceptron (MLP) e recorrente Long Short-Term Memory (LSTM). No total, foram testadas 1632 combinações distintas de parâmetros para cada índice com a técnica holdout cross-validation no período in-sample. As métricas de erros das previsões, Root Mean Squared Error (RMSE) e Mean Absolute Percentual Error (MAPE), foram calculadas iterativamente no período out-of-sample para simular a situação real de um agente econômico construindo diariamente suas previsões. As evidências encontradas neste trabalho sugerem que existe ganho em acuracidade ao optar pelo modelo de rede neural recorrente LSTM em horizontes mais longos de previsão, pois foi possível rejeitar a hipótese nula do teste Diebold-Mariano para dois dos quatro índices. Por fim, os resultados também demonstram que houve ganho significativo em acuracidade ao modelar o efeito calendário do comércio varejista com redução de até 60,6% de RMSE. Analyzing aggregated retail sales is essential to comprehend a country’s consumption dynamics. In this context, the comparison of forecasting methods that can generate high accuracy for these sales are essential to form consumption’s growth expectations. The main objective of this work is, therefore, to compare the forecasting accuracy of four daily retail sales indexes at four prediction horizons. The comparison was made between traditional time series models – Naïve, Seasonal Naïve, Holt-Winters and SARIMA – and two neural network architectures – feedforward Multilayer Perceptron (MLP) and recurrent Long Short-Term Memory (LSTM). A total of 1632 parameter combinations were tested for each index using holdout crossvalidation method to evaluate the models in in-sample period. The forecasting error metrics, Root Mean Squared Error (RMSE) and Mean Absolute Percentual Error (MAPE), were calculated iteratively in out-of-sample period to simulate a real daily forecasting work of an economic agent. The evidences found in this study suggests that there is accuracy improvement by choosing recurrent neural network LSTM for forecasting at distant horizons since it was possible to reject the null hypothesis of Diebold-Mariano’s statistical test for two of the four indexes. Lastly, results also indicate that an accuracy improvement was obtained by modelling retail sale’s calendar effect with a RMSE’s reduction of up to 60,6%.


