Como funciona o agregador de pesquisas eleitorais?

O E²D usa média ponderada por recência e tamanho amostral, simulação Monte Carlo para intervalos de confiança, correção de viés por instituto (house effects) e score de qualidade. Cada pesquisa tem peso que combina meia-vida exponencial e raiz quadrada do tamanho da amostra.

O agregador é imparcial?

Sim. O modelo trata todos os candidatos e institutos de forma uniforme, sob critérios exclusivamente estatísticos. Não fazemos previsões de vitória nem interpretações políticas — apenas agregamos dados com pesos explícitos e auditáveis.

A API de pesquisas eleitorais é gratuita?

Sim. A API pública do E²D é 100% gratuita e permite acesso a todas as pesquisas, agregados e séries temporais em formato JSON. Ideal para jornalistas, pesquisadores e desenvolvedores.

Metodologia

Como o E²D agrega pesquisas: critérios de inclusão, modelo estatístico, validação e transparência.

Como funciona o E²D

Posicionamento

O E²D utiliza apenas agregação de pesquisas publicadas; não fazemos previsão de probabilidade de vitória nem modelo estrutural. Os números são médias e intervalos de confiança com base nas pesquisas que entraram no recorte — sem interpretação de tendência.

Fontes e Coleta de Dados

Incluímos pesquisas de intenção de voto divulgadas por institutos com atuação nacional ou regional, desde que a data de coleta, amostra e resultados por candidato estejam disponíveis. Priorizamos fontes primárias (sites dos institutos, TSE quando aplicável).

Ingestão Assistida por IA: Agentes inteligentes monitoram portais de notícias para encontrar e extrair publicações de novas pesquisas. O agente extrai exclusivamente faturários numéricos e fatos concretos. Todas as pesquisas são supervisionadas e cruzadas com bases oficiais do TSE quando disponíveis.

Registro de pesquisas (PesqEle)

No ano eleitoral, as pesquisas eleitorais devem ser registradas no PesqEle até cinco dias antes da divulgação. O registro é obrigatório; porém, não há obrigação de divulgar os resultados. Por isso, o E²D pode exibir pesquisas até 7 dias após a data prevista de divulgação.

Ao clicar na data de publicação de uma pesquisa na lista, você pode acessar o registro oficial no PesqEle (TSE) (abre em nova janela).

Modelo de Agregação (weighted_avg_v1)

O agregador usa um modelo de média ponderada. Os componentes abaixo são aplicados por padrão em todo agregado publicado — incluindo a correção de house effects e a ponderação por qualidade do instituto. Cada pesquisa entra com um peso que combina:

Recência (meia-vida exponencial): Pesquisas mais recentes têm peso maior — o peso decai pela metade a cada 30 dias. Fórmula: w = e^(-ln2 × Δt / t½).
Raiz do n (tamanho da amostra): Peso proporcional a √(amostra). Pesquisas com 4.000 entrevistados pesam o dobro de pesquisas com 1.000 (Cochran, 1977).
Score de qualidade do instituto (aplicado por padrão): Score composto (0–1) baseado em acurácia histórica (40%), tamanho médio de amostra (25%), consistência metodológica (20%) e frequência de divulgação (15%), calculado sobre os últimos 365 dias para institutos com pelo menos 2 pesquisas. O score vira multiplicador de peso linear: 0,0 → 0,5×, 0,5 → 1,0× (neutro), 1,0 → 1,5×; institutos sem score ficam neutros (1,0×). A acurácia usa baseline Leave-One-Out (LOO) — cada instituto é comparado ao consenso dos demais, eliminando viés circular.
Penalidade por amostra imputada: Pesquisas sem tamanho de amostra informado recebem peso 75% menor (fator 0,75), evitando que dados incompletos inflem artificialmente a precisão do agregado.
Fator geográfico: Em agregados por estado ou cidade, o peso é ajustado pela população de referência.
Monte Carlo (10.000 simulações): Gera distribuições completas e intervalos de confiança (percentis 2,5% a 97,5%) e probabilidades de Top 2 ou 1º colocado. Usa semente fixa para reprodutibilidade; séries temporais usam 500 simulações por ponto por questão de custo computacional.
Rastreabilidade: A API aceita include_polls=true, retornando as pesquisas que entraram no cálculo.

Modelo de Incerteza Multicomponente

A incerteza total é decomposta em 5 componentes independentes. O sigma amostral usa o N efetivo de Kish (n_eff = (Σwᵢ)² / Σwᵢ²) para corrigir o efeito de concentração de peso — quando poucas pesquisas dominam, a incerteza é maior do que a média simples sugeriria (Kish, 1965):

Componente	O que captura	Referência
σ² amostral	Incerteza do tamanho da amostra de cada pesquisa	Kish (1965)
σ² instituto	Variação entre as médias de diferentes institutos	Shirani-Mehr et al. (2018)
σ² sistêmico	Erros correlacionados entre todos os institutos	Silver (2022)
σ² drift	Mudança real de opinião pública ao longo do tempo	Linzer (2013)
σ² heterogeneidade	Diferenças entre metodologias (telefone vs presencial vs online)	Gelman et al. (2014)

House Effects (Viés Sistemático)

Cada instituto pode ter uma inclinação sistemática. O E²D calcula e corrige esse viés por padrão, com intensidade strength = 0,7 (70% da correção estimada), sobre a janela dos últimos 365 dias:

Para cada instituto com ≥ 3 pesquisas: house_effect = média(p_instituto − baseline). O baseline é Leave-One-Out (média dos outros institutos numa janela de ±21 dias ao redor de cada pesquisa), evitando comparar o instituto contra si mesmo. Só na ausência de outros dados recorre-se ao agregado mais próximo.
O viés é encolhido por n/(n+k) (k=10 para n<30; k=5 para n≥30) e modulado pela confiança (número de observações e variância).
Correção aplicada: p_corrigido = p − viés × 0,7 × confiança; os percentuais são renormalizados para 100% após a correção.

Shrinkage: Com poucas pesquisas, a correção é puxada para zero — equivalente a um prior bayesiano centrado em zero, análogo ao James-Stein shrinkage. Se o cálculo do perfil falhar, o agregado segue sem a correção (registrada como não-aplicada), nunca fingindo uma correção que não ocorreu.

Inovações do Modelo

Zero-Noise Shield: Candidatos com 0% não recebem ruído artificial na simulação Monte Carlo, eliminando "ghost probabilities".
Normalização Monte Carlo (share-of-valid): Em cada simulação, candidatos e categorias especiais são renormalizados para soma exata de 100%, e as médias das categorias especiais (Branco/Nulo, NS/NR) são recalculadas a partir dessa mesma base renormalizada — evitando que o número publicado para os candidatos e o das especiais deixem de fechar 100% (deflação silenciosa).
Padronização Semântica: Variações de "Branco/Nulo", "NS/NR", "Indecisos" são mapeadas para rótulos canônicos.
Cap progressivo HHI: Quando um único instituto concentra peso excessivo (Índice Herfindahl-Hirschman > 0,35), a participação máxima é progressivamente limitada. Fórmula: max_share = max(0,25; 0,5 − 0,25 × (HHI − 0,35) / 0,65). Isso evita que institutos com alta frequência de publicação dominem o agregado mesmo sendo reponderados pelo score de qualidade.
N efetivo de Kish no σ amostral: O erro padrão usa n_eff em vez do n médio simples, tornando a incerteza Monte Carlo proporcional à real concentração de dados no pool.

Validação Científica (5 Camadas)

Teste	O que verifica	Critério
Leave-One-Out (LOO-CV)	Se uma pesquisa pode "sequestrar" o resultado	Deslocamento < 2pp
Análise de Sensibilidade	Se o resultado muda com hiperparâmetros diferentes	Range < 3pp por candidato
Testes de Choque	Se uma pesquisa falsa/extrema distorce o modelo	Absorção > 80% para choque de 30pp
Decomposição de Variância	De onde vem a incerteza (5 componentes)	Nenhum componente > 60%
Colinearidade	Se institutos são redundantes entre si	Correlação < 0.85, VIF < 5.0

Validação empírica — backtest da eleição de 2022

Rodamos o agregador como se fosse a véspera de cada turno de 2022, usando apenas as pesquisas disponíveis até aquela data (sem olhar o futuro), e comparamos com o resultado oficial do TSE em votos válidos. É a régua honesta do modelo contra uma eleição real — não um número de marketing.

Turno (véspera)	Líder previsto	Erro do líder	MAE	IC95% cobre o oficial	Veredito
1º (01/10/2022)	Lula ✓	+0,5 pp	2,5 pp	75%	PASSOU
2º (29/10/2022)	Lula ✓	+1,25 pp	1,25 pp	100%	PASSOU

Nos dois turnos o modelo acertou o vencedor com erro do líder ≤ 1,25 pp. O único desvio relevante — pesquisas dando a Lula uma margem maior do que a real — é o erro sistêmico de toda a indústria de pesquisas em 2022, não do agregador: um agregador não corrige um viés presente em 100% das entradas. Ainda assim, no 2º turno o intervalo de confiança ia até Bolsonaro 50,7%, sinalizando corretamente uma eleição em aberto. Detalhes e reprodução em docs/BACKTEST_2022_RESULTADO.md (abre em nova janela).

Comparação Internacional

Dimensão	E²D	FiveThirtyEight	The Economist
Ponderação por qualidade	✅ Score composto (4 métricas)	✅ Pollster Ratings	✅ Via priors bayesianos
House Effects	✅ Shrinkage adaptativo	✅ Regressão hierárquica	✅ Bayesian
Incerteza multicomponente	✅ 5 componentes	✅ 3+ componentes	✅ Full Bayesian posterior
LOO Cross-Validation	✅ Automatizado	✅ Interno	✅ PSIS-LOO
Metodologia aberta	✅ Código + specs	✅ Documentado	✅ Documentado
Separação estado/previsão	✅ Apenas agregação	❌ Forecast	❌ Forecast

Como ler os números

Margem de erro: O agregado exibe um intervalo de confiança (banda de incerteza) em torno da média.
Amostra (n): Pesquisas com n maior pesam mais (√n).
Recência: Pesquisas antigas ficam fora da janela do modelo.
Empate técnico: Quando a diferença entre candidatos está dentro do intervalo de confiança.

Fonte oficial

A fonte primária oficial para dados eleitorais no Brasil é o Tribunal Superior Eleitoral (TSE) (abre em nova janela).

Imparcialidade e Rigor

O E²D é independente e sem vínculo partidário ou ideológico. O modelo não possui "preferências" e trata todos os institutos e candidatos exclusivamente sob critérios matemáticos e estatísticos.

Referências Bibliográficas

Gelman, A. et al. (2014). Bayesian Data Analysis (3rd ed.). CRC Press.
Linzer, D. A. (2013). Dynamic Bayesian Forecasting of Presidential Elections. JASA, 108(501).
Shirani-Mehr, H. et al. (2018). Disentangling Bias and Variance in Election Polls. JASA, 113(522).
Silver, N. (2022). FiveThirtyEight Pollster Ratings Methodology.
Kish, L. (1965). Survey Sampling. John Wiley & Sons.
Cochran, W. G. (1977). Sampling Techniques (3rd ed.). John Wiley & Sons.

API e Contato

O portal consome apenas endpoints públicos da API. Os principais são:

/api/v1/polls — lista e detalhes de pesquisas
/api/v1/aggregates — agregado atual por cenário
/api/v1/aggregates/series — série temporal de agregados
/api/v1/aggregates/quality-scores — scores de qualidade por instituto (transparência dos multiplicadores de peso: acurácia LOO, amostra, frequência, consistência)
/api/v1/models — histórico de rodadas do modelo

Nenhum endpoint administrativo é exposto na interface.

Dúvidas ou inconsistências: suporte@eleicaoemdados.com.br

Integridade e auditoria

O portal trabalha com pesquisas públicas e regras explícitas de validação.

Referência da base

13/07/2026, 17:15

Pesquisas no recorte

666

Rastreabilidade

Cada pesquisa pode ser conferida na origem: fonte, data de coleta, escopo e, quando disponível, registro no TSE. Os agregados indicam quantas pesquisas entraram no cálculo e em qual recorte geográfico.

Validação antes do agregado

O sistema aplica checagens automáticas de consistência de percentuais e coerência de escopo. Quando algo não fecha, o trecho é sinalizado para revisão ou excluído do cálculo.

Linguagem neutra

O produto evita prognóstico e leitura política: mostramos estimativas, intervalos e probabilidades no sentido estatístico, alinhados à metodologia publicada.

Evolução contínua

A base e as regras de qualidade são revisadas continuamente. Indicadores operacionais ficam na área interna da equipe para não confundir o visitante com ruído operacional.

Explorar pesquisas Abrir agregador Contato

Para jornalistas e analistas

Uso editorial, atribuição e recursos para equipes de imprensa.

Como citar

Informe sempre: fonte (E²D), data de corte, escopo geográfico e número de pesquisas no recorte. Exemplo: "Segundo o E²D (corte 15/05/2026, 12 pesquisas nacionais), o candidato X marca 32% na estimulada."

Sala de imprensa

Acesse briefing em JSON, pesquisas recentes e atalhos para uso editorial na página de imprensa.

Abrir sala de imprensa