Pular para o conteúdo

Metodologia

Como o E²D agrega pesquisas: critérios de inclusão, modelo estatístico, validação e transparência.

Como funciona o E²D

Posicionamento

O E²D utiliza apenas agregação de pesquisas publicadas; não fazemos previsão de probabilidade de vitória nem modelo estrutural. Os números são médias e intervalos de confiança com base nas pesquisas que entraram no recorte — sem interpretação de tendência.

Fontes e Coleta de Dados

Incluímos pesquisas de intenção de voto divulgadas por institutos com atuação nacional ou regional, desde que a data de coleta, amostra e resultados por candidato estejam disponíveis. Priorizamos fontes primárias (sites dos institutos, TSE quando aplicável).

Ingestão Assistida por IA: Agentes inteligentes monitoram portais de notícias para encontrar e extrair publicações de novas pesquisas. O agente extrai exclusivamente faturários numéricos e fatos concretos. Todas as pesquisas são supervisionadas e cruzadas com bases oficiais do TSE quando disponíveis.

Registro de pesquisas (PesqEle)

No ano eleitoral, as pesquisas eleitorais devem ser registradas no PesqEle até cinco dias antes da divulgação. O registro é obrigatório; porém, não há obrigação de divulgar os resultados. Por isso, o E²D pode exibir pesquisas até 7 dias após a data prevista de divulgação.

Ao clicar na data de publicação de uma pesquisa na lista, você pode acessar o registro oficial no PesqEle (TSE) (abre em nova janela).

Modelo de Agregação (weighted_avg_v1)

O agregador usa um modelo de média ponderada. Cada pesquisa entra com um peso que combina:

  • Recência (meia-vida exponencial): Pesquisas mais recentes têm peso maior — o peso decai pela metade a cada 30 dias. Fórmula: w = e^(-ln2 × Δt / t½).
  • Raiz do n (tamanho da amostra): Peso proporcional a √(amostra). Pesquisas com 4.000 entrevistados pesam o dobro de pesquisas com 1.000 (Cochran, 1977).
  • Score de qualidade do instituto: Score composto (0–1) baseado em acurácia histórica (40%), tamanho médio de amostra (25%), consistência metodológica (20%) e frequência de divulgação (15%). Multiplicador de peso: 0,5× a 1,5×. A acurácia usa baseline Leave-One-Out (LOO) — cada instituto é comparado ao consenso dos demais, eliminando viés circular.
  • Penalidade por amostra imputada: Pesquisas sem tamanho de amostra informado recebem peso 75% menor (fator 0,75), evitando que dados incompletos inflem artificialmente a precisão do agregado.
  • Fator geográfico: Em agregados por estado ou cidade, o peso é ajustado pela população de referência.
  • Monte Carlo (10.000 simulações): Gera distribuições completas e intervalos de confiança (2,5% a 97,5%) e probabilidades de Top 2 ou 1º colocado.
  • Rastreabilidade: A API aceita include_polls=true, retornando as pesquisas que entraram no cálculo.

Modelo de Incerteza Multicomponente

A incerteza total é decomposta em 5 componentes independentes. O sigma amostral usa o N efetivo de Kish (n_eff = (Σwᵢ)² / Σwᵢ²) para corrigir o efeito de concentração de peso — quando poucas pesquisas dominam, a incerteza é maior do que a média simples sugeriria (Kish, 1965):

ComponenteO que capturaReferência
σ² amostralIncerteza do tamanho da amostra de cada pesquisaKish (1965)
σ² institutoVariação entre as médias de diferentes institutosShirani-Mehr et al. (2018)
σ² sistêmicoErros correlacionados entre todos os institutosSilver (2022)
σ² driftMudança real de opinião pública ao longo do tempoLinzer (2013)
σ² heterogeneidadeDiferenças entre metodologias (telefone vs presencial vs online)Gelman et al. (2014)

House Effects (Viés Sistemático)

Cada instituto pode ter uma inclinação sistemática. O E²D calcula e corrige esse viés automaticamente:

  1. Para cada instituto com ≥ 3 pesquisas: house_effect = média(p_instituto − p_agregado)
  2. A correção é modulada pela confiança (número de observações e variância).
  3. Os percentuais são renormalizados para 100% após a correção.

Shrinkage: Com menos de 3 pesquisas, a correção é zerada — equivalente a um prior bayesiano centrado em zero, análogo ao James-Stein shrinkage usado pelo FiveThirtyEight.

Inovações do Modelo

  • Zero-Noise Shield: Candidatos com 0% não recebem ruído artificial na simulação Monte Carlo, eliminando "ghost probabilities".
  • Normalização Monte Carlo: Em cada simulação, os percentuais são renormalizados para soma exata de 100%.
  • Padronização Semântica: Variações de "Branco/Nulo", "NS/NR", "Indecisos" são mapeadas para rótulos canônicos.
  • Cap progressivo HHI: Quando um único instituto concentra peso excessivo (Índice Herfindahl-Hirschman > 0,35), a participação máxima é progressivamente limitada. Fórmula: max_share = max(0,25; 0,5 − 0,25 × (HHI − 0,35) / 0,65). Isso evita que institutos com alta frequência de publicação dominem o agregado mesmo sendo reponderados pelo score de qualidade.
  • N efetivo de Kish no σ amostral: O erro padrão usa n_eff em vez do n médio simples, tornando a incerteza Monte Carlo proporcional à real concentração de dados no pool.

Validação Científica (5 Camadas)

TesteO que verificaCritério
Leave-One-Out (LOO-CV)Se uma pesquisa pode "sequestrar" o resultadoDeslocamento < 2pp
Análise de SensibilidadeSe o resultado muda com hiperparâmetros diferentesRange < 3pp por candidato
Testes de ChoqueSe uma pesquisa falsa/extrema distorce o modeloAbsorção > 80% para choque de 30pp
Decomposição de VariânciaDe onde vem a incerteza (5 componentes)Nenhum componente > 60%
ColinearidadeSe institutos são redundantes entre siCorrelação < 0.85, VIF < 5.0

Comparação Internacional

DimensãoE²DFiveThirtyEightThe Economist
Ponderação por qualidade✅ Score composto (4 métricas)✅ Pollster Ratings✅ Via priors bayesianos
House Effects✅ Shrinkage adaptativo✅ Regressão hierárquica✅ Bayesian
Incerteza multicomponente✅ 5 componentes✅ 3+ componentes✅ Full Bayesian posterior
LOO Cross-Validation✅ Automatizado✅ Interno✅ PSIS-LOO
Metodologia aberta✅ Código + specs✅ Documentado✅ Documentado
Separação estado/previsão✅ Apenas agregação❌ Forecast❌ Forecast

Como ler os números

  • Margem de erro: O agregado exibe um intervalo de confiança (banda de incerteza) em torno da média.
  • Amostra (n): Pesquisas com n maior pesam mais (√n).
  • Recência: Pesquisas antigas ficam fora da janela do modelo.
  • Empate técnico: Quando a diferença entre candidatos está dentro do intervalo de confiança.

Fonte oficial

A fonte primária oficial para dados eleitorais no Brasil é o Tribunal Superior Eleitoral (TSE) (abre em nova janela).

Imparcialidade e Rigor

O E²D é independente e sem vínculo partidário ou ideológico. O modelo não possui "preferências" e trata todos os institutos e candidatos exclusivamente sob critérios matemáticos e estatísticos.

Referências Bibliográficas

  1. Gelman, A. et al. (2014). Bayesian Data Analysis (3rd ed.). CRC Press.
  2. Linzer, D. A. (2013). Dynamic Bayesian Forecasting of Presidential Elections. JASA, 108(501).
  3. Shirani-Mehr, H. et al. (2018). Disentangling Bias and Variance in Election Polls. JASA, 113(522).
  4. Silver, N. (2022). FiveThirtyEight Pollster Ratings Methodology.
  5. Kish, L. (1965). Survey Sampling. John Wiley & Sons.
  6. Cochran, W. G. (1977). Sampling Techniques (3rd ed.). John Wiley & Sons.

API e Contato

O portal consome apenas endpoints públicos da API. Os principais são:

  • /api/v1/polls — lista e detalhes de pesquisas
  • /api/v1/aggregates — agregado atual por cenário
  • /api/v1/aggregates/series — série temporal de agregados
  • /api/v1/aggregates/quality-scores — scores de qualidade por instituto (transparência dos multiplicadores de peso: acurácia LOO, amostra, frequência, consistência)
  • /api/v1/models — histórico de rodadas do modelo

Nenhum endpoint administrativo é exposto na interface.

Dúvidas ou inconsistências: suporte@eleicaoemdados.com.br

Integridade e auditoria

O portal trabalha com pesquisas públicas e regras explícitas de validação.

Referência da base

29/05/2026, 14:45

Pesquisas no recorte

21

Rastreabilidade

Cada pesquisa pode ser conferida na origem: fonte, data de coleta, escopo e, quando disponível, registro no TSE. Os agregados indicam quantas pesquisas entraram no cálculo e em qual recorte geográfico.

Validação antes do agregado

O sistema aplica checagens automáticas de consistência de percentuais e coerência de escopo. Quando algo não fecha, o trecho é sinalizado para revisão ou excluído do cálculo.

Linguagem neutra

O produto evita prognóstico e leitura política: mostramos estimativas, intervalos e probabilidades no sentido estatístico, alinhados à metodologia publicada.

Evolução contínua

A base e as regras de qualidade são revisadas continuamente. Indicadores operacionais ficam na área interna da equipe para não confundir o visitante com ruído operacional.

Para jornalistas e analistas

Uso editorial, atribuição e recursos para equipes de imprensa.

Como citar

Informe sempre: fonte (E²D), data de corte, escopo geográfico e número de pesquisas no recorte. Exemplo: "Segundo o E²D (corte 15/05/2026, 12 pesquisas nacionais), o candidato X marca 32% na estimulada."

Sala de imprensa

Acesse briefing em JSON, pesquisas recentes e atalhos para uso editorial na página de imprensa.

Abrir sala de imprensa