Metodologia
Como o E²D agrega pesquisas: critérios de inclusão, modelo estatístico, validação e transparência.
Como funciona o E²D
Posicionamento
O E²D utiliza apenas agregação de pesquisas publicadas; não fazemos previsão de probabilidade de vitória nem modelo estrutural. Os números são médias e intervalos de confiança com base nas pesquisas que entraram no recorte — sem interpretação de tendência.
Fontes e Coleta de Dados
Incluímos pesquisas de intenção de voto divulgadas por institutos com atuação nacional ou regional, desde que a data de coleta, amostra e resultados por candidato estejam disponíveis. Priorizamos fontes primárias (sites dos institutos, TSE quando aplicável).
Ingestão Assistida por IA: Agentes inteligentes monitoram portais de notícias para encontrar e extrair publicações de novas pesquisas. O agente extrai exclusivamente faturários numéricos e fatos concretos. Todas as pesquisas são supervisionadas e cruzadas com bases oficiais do TSE quando disponíveis.
Registro de pesquisas (PesqEle)
No ano eleitoral, as pesquisas eleitorais devem ser registradas no PesqEle até cinco dias antes da divulgação. O registro é obrigatório; porém, não há obrigação de divulgar os resultados. Por isso, o E²D pode exibir pesquisas até 7 dias após a data prevista de divulgação.
Ao clicar na data de publicação de uma pesquisa na lista, você pode acessar o registro oficial no PesqEle (TSE) (abre em nova janela).
Modelo de Agregação (weighted_avg_v1)
O agregador usa um modelo de média ponderada. Cada pesquisa entra com um peso que combina:
- Recência (meia-vida exponencial): Pesquisas mais recentes têm peso maior — o peso decai pela metade a cada 30 dias. Fórmula:
w = e^(-ln2 × Δt / t½). - Raiz do n (tamanho da amostra): Peso proporcional a √(amostra). Pesquisas com 4.000 entrevistados pesam o dobro de pesquisas com 1.000 (Cochran, 1977).
- Score de qualidade do instituto: Score composto (0–1) baseado em acurácia histórica (40%), tamanho médio de amostra (25%), consistência metodológica (20%) e frequência de divulgação (15%). Multiplicador de peso: 0,5× a 1,5×. A acurácia usa baseline Leave-One-Out (LOO) — cada instituto é comparado ao consenso dos demais, eliminando viés circular.
- Penalidade por amostra imputada: Pesquisas sem tamanho de amostra informado recebem peso 75% menor (fator 0,75), evitando que dados incompletos inflem artificialmente a precisão do agregado.
- Fator geográfico: Em agregados por estado ou cidade, o peso é ajustado pela população de referência.
- Monte Carlo (10.000 simulações): Gera distribuições completas e intervalos de confiança (2,5% a 97,5%) e probabilidades de Top 2 ou 1º colocado.
- Rastreabilidade: A API aceita
include_polls=true, retornando as pesquisas que entraram no cálculo.
Modelo de Incerteza Multicomponente
A incerteza total é decomposta em 5 componentes independentes. O sigma amostral usa o N efetivo de Kish (n_eff = (Σwᵢ)² / Σwᵢ²) para corrigir o efeito de concentração de peso — quando poucas pesquisas dominam, a incerteza é maior do que a média simples sugeriria (Kish, 1965):
| Componente | O que captura | Referência |
|---|---|---|
| σ² amostral | Incerteza do tamanho da amostra de cada pesquisa | Kish (1965) |
| σ² instituto | Variação entre as médias de diferentes institutos | Shirani-Mehr et al. (2018) |
| σ² sistêmico | Erros correlacionados entre todos os institutos | Silver (2022) |
| σ² drift | Mudança real de opinião pública ao longo do tempo | Linzer (2013) |
| σ² heterogeneidade | Diferenças entre metodologias (telefone vs presencial vs online) | Gelman et al. (2014) |
House Effects (Viés Sistemático)
Cada instituto pode ter uma inclinação sistemática. O E²D calcula e corrige esse viés automaticamente:
- Para cada instituto com ≥ 3 pesquisas:
house_effect = média(p_instituto − p_agregado) - A correção é modulada pela confiança (número de observações e variância).
- Os percentuais são renormalizados para 100% após a correção.
Shrinkage: Com menos de 3 pesquisas, a correção é zerada — equivalente a um prior bayesiano centrado em zero, análogo ao James-Stein shrinkage usado pelo FiveThirtyEight.
Inovações do Modelo
- Zero-Noise Shield: Candidatos com 0% não recebem ruído artificial na simulação Monte Carlo, eliminando "ghost probabilities".
- Normalização Monte Carlo: Em cada simulação, os percentuais são renormalizados para soma exata de 100%.
- Padronização Semântica: Variações de "Branco/Nulo", "NS/NR", "Indecisos" são mapeadas para rótulos canônicos.
- Cap progressivo HHI: Quando um único instituto concentra peso excessivo (Índice Herfindahl-Hirschman > 0,35), a participação máxima é progressivamente limitada. Fórmula:
max_share = max(0,25; 0,5 − 0,25 × (HHI − 0,35) / 0,65). Isso evita que institutos com alta frequência de publicação dominem o agregado mesmo sendo reponderados pelo score de qualidade. - N efetivo de Kish no σ amostral: O erro padrão usa
n_effem vez do n médio simples, tornando a incerteza Monte Carlo proporcional à real concentração de dados no pool.
Validação Científica (5 Camadas)
| Teste | O que verifica | Critério |
|---|---|---|
| Leave-One-Out (LOO-CV) | Se uma pesquisa pode "sequestrar" o resultado | Deslocamento < 2pp |
| Análise de Sensibilidade | Se o resultado muda com hiperparâmetros diferentes | Range < 3pp por candidato |
| Testes de Choque | Se uma pesquisa falsa/extrema distorce o modelo | Absorção > 80% para choque de 30pp |
| Decomposição de Variância | De onde vem a incerteza (5 componentes) | Nenhum componente > 60% |
| Colinearidade | Se institutos são redundantes entre si | Correlação < 0.85, VIF < 5.0 |
Comparação Internacional
| Dimensão | E²D | FiveThirtyEight | The Economist |
|---|---|---|---|
| Ponderação por qualidade | ✅ Score composto (4 métricas) | ✅ Pollster Ratings | ✅ Via priors bayesianos |
| House Effects | ✅ Shrinkage adaptativo | ✅ Regressão hierárquica | ✅ Bayesian |
| Incerteza multicomponente | ✅ 5 componentes | ✅ 3+ componentes | ✅ Full Bayesian posterior |
| LOO Cross-Validation | ✅ Automatizado | ✅ Interno | ✅ PSIS-LOO |
| Metodologia aberta | ✅ Código + specs | ✅ Documentado | ✅ Documentado |
| Separação estado/previsão | ✅ Apenas agregação | ❌ Forecast | ❌ Forecast |
Como ler os números
- Margem de erro: O agregado exibe um intervalo de confiança (banda de incerteza) em torno da média.
- Amostra (n): Pesquisas com n maior pesam mais (√n).
- Recência: Pesquisas antigas ficam fora da janela do modelo.
- Empate técnico: Quando a diferença entre candidatos está dentro do intervalo de confiança.
Fonte oficial
A fonte primária oficial para dados eleitorais no Brasil é o Tribunal Superior Eleitoral (TSE) (abre em nova janela).
Imparcialidade e Rigor
O E²D é independente e sem vínculo partidário ou ideológico. O modelo não possui "preferências" e trata todos os institutos e candidatos exclusivamente sob critérios matemáticos e estatísticos.
Referências Bibliográficas
- Gelman, A. et al. (2014). Bayesian Data Analysis (3rd ed.). CRC Press.
- Linzer, D. A. (2013). Dynamic Bayesian Forecasting of Presidential Elections. JASA, 108(501).
- Shirani-Mehr, H. et al. (2018). Disentangling Bias and Variance in Election Polls. JASA, 113(522).
- Silver, N. (2022). FiveThirtyEight Pollster Ratings Methodology.
- Kish, L. (1965). Survey Sampling. John Wiley & Sons.
- Cochran, W. G. (1977). Sampling Techniques (3rd ed.). John Wiley & Sons.
API e Contato
O portal consome apenas endpoints públicos da API. Os principais são:
/api/v1/polls— lista e detalhes de pesquisas/api/v1/aggregates— agregado atual por cenário/api/v1/aggregates/series— série temporal de agregados/api/v1/aggregates/quality-scores— scores de qualidade por instituto (transparência dos multiplicadores de peso: acurácia LOO, amostra, frequência, consistência)/api/v1/models— histórico de rodadas do modelo
Nenhum endpoint administrativo é exposto na interface.
Dúvidas ou inconsistências: suporte@eleicaoemdados.com.br
Integridade e auditoria
Referência da base
29/05/2026, 14:45
Pesquisas no recorte
21
Rastreabilidade
Cada pesquisa pode ser conferida na origem: fonte, data de coleta, escopo e, quando disponível, registro no TSE. Os agregados indicam quantas pesquisas entraram no cálculo e em qual recorte geográfico.
Validação antes do agregado
O sistema aplica checagens automáticas de consistência de percentuais e coerência de escopo. Quando algo não fecha, o trecho é sinalizado para revisão ou excluído do cálculo.
Linguagem neutra
O produto evita prognóstico e leitura política: mostramos estimativas, intervalos e probabilidades no sentido estatístico, alinhados à metodologia publicada.
Evolução contínua
A base e as regras de qualidade são revisadas continuamente. Indicadores operacionais ficam na área interna da equipe para não confundir o visitante com ruído operacional.
Para jornalistas e analistas
Como citar
Informe sempre: fonte (E²D), data de corte, escopo geográfico e número de pesquisas no recorte. Exemplo: "Segundo o E²D (corte 15/05/2026, 12 pesquisas nacionais), o candidato X marca 32% na estimulada."
Sala de imprensa
Acesse briefing em JSON, pesquisas recentes e atalhos para uso editorial na página de imprensa.
Abrir sala de imprensa