Projeções para o resultado das eleições de 2022 para prsidente da republica usando resultados de pesquisas eleitorais disponibilizados no GitHub do Jornal Nexo. A ideia dessa modelagem surgiu a partir de um Tweet do Gabriel Lorenssi e do meu interesse em acompanhar das pesquisas agregado os resultados e prevendo até o dia da eleição.
O modelo proposto utiliza as estimativas para a proporção de votos de cada candidato como desfecho ou variável resposta, e prevê para cada candidato co serão os próximos dias até a data da eleição.
O modelo estatístico escolhido foi um modelo dinâmico de crescimento linear considerando dados diários e uma transformação logística para as proporções. Seja
O modelo se completa com distribuições a priori para os parâmetros, que foram utilizadas prioris pouco informativas e default do pacote INLA (https://www.r-inla.org/).
Uma vez estimados os parâmetros, a distribuição preditiva é acessada gerando estiamtivas para todos os dias desde o primeiro dia que se tem alguma pesquisa até o dia da eleição. Para dias anteriores ao dia da última pesquisa disponível no banco temos as estimativas ajustadas, e entre o último dia com algum resultado de pesquisa eleitoral até a data da eleição temos as projeções diárias de cada candidato sob esse modelo.
Os candidatos considerados foram Lula, Bolsonaro, Ciro, e Tebet. Os demais candidatos foram agrupados em Outros, e brancos nulos e indecisos foram chamados de BNI. Outros e BNI foram tratados como se fossem candidatos independentes.
As projeções das estimativas de cada candidato foram geradas, e para o dia da eleição amostras da distribuição preditiva a proporção de votos de cada candidato foi gerada, e a proporção de votos válidos foi calculada removendo os brancos, nulos e indecisos e recalculando os totais.
Com a amostra da distribuição preditiva da proporção de votos, podemos calcular a probabilidade de vitória já no primeiro turno para cada candidato. Essa etapa é feita usando integração de Monte Carlo.
Os códigos estão disponíveis aqui.
Candidato Prop LI LS Prob_vitoria_1o_turno
<ord> <dbl> <dbl> <dbl> <dbl>
1 Lula 0.499 0.447 0.553 0.496
2 Bolsonaro 0.358 0.304 0.412 0
3 Ciro 0.0637 0.0428 0.0897 0
4 Tebet 0.0598 0.0369 0.0895 0
5 Outros 0.0168 0.00983 0.0293 0
Existem muitas limitações, algumas delas:
- O modelo não considera a abstenção que nas últimas eleições ficou acima de 20%.
- Não assume nenhuma mudança de cenário, apenas acompanha a tendencia de crescimento (linear) mais recente.
- Uso de modelos gaussianos em transfrmações dos dados poderia ser aprimorado usando por exemplo a distribuição Dirichet. Isso é importante pois como no formato atual cada candidato é tratado separadamente, teoricamente é possível que a soma das proporções passe de 100%. No passo de Monte Carlo (isso é corrigido ao remover a categoria BNI e recalcular as proporções).
- Todos institutos de pesquisas tiveram o mesmo peso.
- Certamente exstem outras, postarei aqui se lembrar de outra.