Resultados das eleições nos EUA em 2016: o que deu errado nos modelos de previsão?


108

Primeiro foi o Brexit , agora a eleição dos EUA. Muitas previsões de modelos tiveram uma margem ampla e existem lições a serem aprendidas aqui? Ainda às 16:00 PST de ontem, os mercados de apostas ainda favoreciam Hillary por 4 a 1.

Entendo que os mercados de apostas, com dinheiro real em jogo, devem agir como um conjunto de todos os modelos de previsão disponíveis no mercado. Portanto, não é exagero dizer que esses modelos não fizeram um bom trabalho.

Vi uma explicação: os eleitores não estavam dispostos a se identificar como apoiadores de Trump. Como um modelo poderia incorporar efeitos como esse?

Uma explicação macro que li é a ascensão do populismo . A questão então é como um modelo estatístico poderia capturar uma tendência macro como essa?

Esses modelos de previsão estão colocando muito peso nos dados de pesquisas e sentimentos, não o suficiente de onde o país está em uma visão de 100 anos? Estou citando os comentários de um amigo.


9
Como estimar o "não disposto a se identificar como apoiador de Trump". efeito: talvez grupos focais? Isso é mais uma questão de ciências sociais do que estatísticas em si.
Kjetil b halvorsen

100
Por que os modelos precisam estar errados apenas porque previram um resultado que não aconteceu? Eu tenho um modelo que diz que um dado provavelmente não mostrará seis, mas às vezes mostra seis.
dsaxton

4
Não tenho certeza se os modelos realmente se inclinaram muito para o lado errado. Estávamos lendo a saída dos modelos corretamente? Também concordo com o comentário de dsaxton.
Richard Hardy

7
Algumas boas idéias no blog de Andrew Gelman aqui .
Richard Hardy

22
Se as chances eram de 4: 1, o resultado menos comum ainda deve ocorrer com frequência. Esse é o mercado de apostas poderia muito bem estar certo.
gung

Respostas:


57

Em suma, a pesquisa nem sempre é fácil. Esta eleição pode ter sido a mais difícil.

Sempre que estamos tentando fazer inferência estatística, uma questão fundamental é se nossa amostra é uma boa representação da população de interesse. Uma suposição típica que é necessária para muitos tipos de inferência estatística é a de que nossa amostra seja uma amostra completamente aleatória da população de interesse (e, muitas vezes, também precisamos que as amostras sejam independentes). Se essas premissas forem verdadeiras, normalmente temos boas medidas de nossa incerteza com base na teoria estatística.

Mas definitivamente não temos essas suposições verdadeiras nas pesquisas! Temos exatamente 0 amostras da nossa população de interesse: votos reais expressos no dia da eleição. Nesse caso, não podemos fazer nenhum tipo de inferência válida sem suposições adicionais e não testáveis ​​sobre os dados. Ou pelo menos, não testável até depois do dia da eleição.

Desistimos completamente e dizemos "50% -50%!"? Normalmente não. Podemos tentar fazer o que acreditamos serem suposições razoáveis ​​sobre como os votos serão expressos. Por exemplo, talvez desejemos acreditar que as pesquisas são estimativas imparciais para os votos no dia das eleições, além de algum ruído temporal imparcial (isto é, evolução da opinião pública com o passar do tempo). Eu não sou especialista em métodos de pesquisa, mas acredito que esse é o tipo de modelo 538. E em 2012, funcionou muito bem. Portanto, essas suposições eram provavelmente bastante razoáveis. Infelizmente, não há maneira real de avaliar essas suposições, fora do raciocínio estritamente qualitativo. Para obter mais discussões sobre um tópico semelhante, consulte o tópico sobre falta não ignorável.

Minha teoria de por que as pesquisas foram tão ruins em 2016: as pesquisas não eram estimativas imparciais do comportamento do dia dos eleitores. Ou seja, eu acho que os apoiadores de Trump (e provavelmente também apoiadores do Brexit) estavam muito mais desconfiados dos pesquisadores. Lembre-se de que Trump denunciou ativamente as pesquisas. Como tal, acho que os apoiadores de Trump eram menos propensos a relatar suas intenções de voto aos pesquisadores do que os de seus oponentes. Eu especularia que isso causou um forte viés imprevisto nas pesquisas.

Como os analistas poderiam explicar isso ao usar os dados da pesquisa? Com base apenas nos dados da pesquisa, não há maneira real de fazer isso de maneira quantitativa. Os dados da pesquisa não informam nada sobre aqueles que não participaram. No entanto, pode-se melhorar as pesquisas de maneira qualitativa, escolhendo suposições mais razoáveis ​​(mas não testáveis) sobre a relação entre os dados da pesquisa e o comportamento do dia da eleição. Isso não é trivial e a parte realmente difícil de ser um bom pesquisador (nota: eu não sou um pesquisador). Observe também que os resultados também foram muito surpreendentes para os especialistas, por isso não é como se houvesse sinais óbvios de que as suposições estavam fora dessa época.

A pesquisa pode ser difícil.


1
@horaceT: como eles saberiam que existiam vieses até terem amostras da população de interesse? Uma das rugas aqui é que, historicamente, eu acho que esse problema é de ruído, e não de preconceito . Se ambas as partes tiverem níveis iguais de não resposta, suas estimativas serão imparciais, apenas um pouco mais barulhentas. Mas desde que Trump realizou uma campanha com opiniões fortemente negativas sobre cobertura da mídia e pesquisas, muito mais do que qualquer eleição anterior, a não resposta poderia ter sido facilmente muito desigual para representar os votos de Trump. Este seria um efeito pesquisadores teria ...
Cliff AB

38
Pelo que vale, ainda não acho que 538 realmente falhou. Isso deu uma chance de ~ 30% (?) Para a vitória de Trump, o que é muito bom - isso significa que a cada 2-3 vezes que esperava estar certo, esperava estar errado 1 vez. É uma enorme quantidade de incerteza, muito mais do que outras pesquisas pareciam dispostas a admitir.
Mehrdad 10/11

3
Esse efeito é bem conhecido: é chamado de efeito Bradley nos EUA e o efeito Shy Tory no Reino Unido.
Emilio Pisanty

15
538 (e outras coisas como o PEC de Sam Wang) não são pesquisas. São modelos construídos a partir de resultados de pesquisas. Todos esses modelos começaram basicamente com os mesmos dados, mas 538 previram muito mais incerteza nos resultados por razões pelas quais Nate Silver discutiu extensivamente a pré-eleição. Isso significava que a chance de 538 de uma vitória de Hillary era muito menor, embora usasse as mesmas pesquisas. Concordo que 538 não falhou - dada a sua contribuição, uma vitória de Hillary com muita incerteza parece ser a melhor previsão, mesmo em retrospectiva.
KAI

6
Li pela primeira vez a previsão final do 538 na manhã seguinte à eleição, e Nate Silver afirma claramente que uma margem de erro de 3% estaria bem na faixa usual - e se você olhar para o gráfico de uma margem de erro de 3% a favor de Trump, alinha-se muito bem com o que realmente aconteceu.
Xiong Chiamiov

35

Existem várias fontes de erro de pesquisa:

  • Você encontra algumas pessoas difíceis de alcançar

    Isso é corrigido através da análise demográfica e correção do seu viés de amostragem. Se sua análise demográfica não refletir as coisas que dificultam o acesso das pessoas, essa correção não reparará os danos.

  • As pessoas mentem

    Você pode usar taxas históricas nas quais as pessoas mentem para os pesquisadores para influenciar seu modelo. Como exemplo, historicamente as pessoas afirmam que vão votar em terceiros muito mais do que realmente fazem no dia das eleições. Suas correções podem estar erradas aqui.

    Essas mentiras também podem atrapalhar suas outras correções; se mentirem sobre votar na última eleição, podem ser contados como provável eleitor, mesmo que não sejam, por exemplo.

  • Somente as pessoas que votam acabam contando

    Alguém pode ter muito apoio, mas se seus apoiadores não aparecerem no dia das eleições, isso não conta. É por isso que registramos modelos de eleitor, provável eleitor, etc. Se esses modelos estão errados, as coisas não funcionam.

  • Votação custa dinheiro

    Fazer pesquisas é caro, e se você não espera (digamos) o Michigan virar, talvez não faça pesquisas com muita frequência. Isso pode causar surpresa quando um estado que você pesquisou três semanas antes da eleição não se parece nada com isso no dia da eleição.

  • As pessoas mudam de idéia

    Durante minutos, horas, dias, semanas ou meses, as pessoas mudam de idéia. A pesquisa sobre "o que você faria agora" não ajuda muito se eles mudarem de idéia antes que isso conte. Existem modelos que adivinham aproximadamente a taxa com que as pessoas mudam de idéia com base em pesquisas históricas.

  • Pastoreio

    Se todos os outros afirmarem que Hillary é +3 ​​e você receber uma pesquisa mostrando Hillary +11 ou Donald +1, você pode questioná-lo. Você pode fazer outra passagem e ver se há uma falha na análise. Você pode até jogar fora e fazer outra enquete. Quando você recebe uma pesquisa Hillary +2 ou +4, talvez não o faça. Discrepâncias maciças, mesmo que o modelo estatístico diga que isso acontece às vezes, pode fazer você "parecer mal".

    Uma forma particularmente péssima disso aconteceu no dia das eleições, onde todos os que divulgaram uma pesquisa magicamente convergiram para o mesmo valor; eles provavelmente foram onde pesquisas outlier, mas ninguém quer ser o único que disse (digamos) Hillary +11 no dia antes desta eleição. Estar errado em um rebanho te machuca menos.

  • Erro de amostragem esperado

    Se você tem 1 milhão de pessoas e pergunta a 100 pessoas perfeitamente aleatórias e metade diz "Apple" e metade diz "Orange", o erro esperado que você obteria da amostragem é de +/- 10 ou mais, mesmo que nenhum dos problemas acima ocorrer. Esta última parte é o que as pesquisas descrever como a sua margem de erro. Pesquisas raramente descrevem o que os fatores de correção acima podem apresentar como erro.


Nate Silver, 538, foi um dos poucos agregadores de pesquisas que usaram meios conservadores (cautelosos) para lidar com a possibilidade dos tipos de erros acima. Ele considerou a possibilidade de erros correlatos sistêmicos nos modelos de pesquisa.

Enquanto outros agregadores previam 90% de chance de o HC ser eleito, Nate Silver declarava 70%, porque as pesquisas estavam dentro do "erro de votação normal" da vitória de Donald.

Essa foi uma medida histórica do erro do modelo , em oposição ao erro de amostragem estatística bruto; e se o modelo e as correções no modelo estivessem erradas?


As pessoas ainda estão analisando os números. Porém, resultados preliminares indicam que grande parte eram modelos de participação. Os apoiadores de Donald apareceram nas pesquisas em maior número e os da Hillary em menor número do que os modelos de pesquisa (e as pesquisas de saída!) Indicaram.

O latino votou mais em Donald do que o esperado. Os negros votaram mais em Donald do que o esperado. (A maioria dos dois votou em Hillary). As mulheres brancas votaram mais em Donald do que o esperado (mais delas votaram em Donald do que Hillary, o que não era esperado).

A participação dos eleitores foi baixa em geral. Os democratas tendem a vencer quando há alta participação de eleitores e os republicanos quando há baixa.


1
Um problema interessante de participação é que a própria pesquisa influencia a participação. Existe um modelo de participação para isso? Deve ser possível ter uma função que atenda à participação prevista na pesquisa e modificá-la para os dois lados, de acordo com a perspectiva do candidato. Um candidato muito atrasado pode não atrair eleitores extras que estão mais preocupados depois de ver a enquete descrever as perspectivas de seu candidato como terríveis, mas se seu candidato estiver bem à frente, você poderá não se esforçar tanto para sair para votar ... Obviamente, não é um função linear, mas deve ser mensurável.
BenPen

2
+1 de mim apenas por mencionar as pastagens e explicar bem. Como analisei minha resposta, fiquei muito desconfiado de que o pastoreio estivesse acontecendo a partir do quinto dia (três dias após a eleição), com base no gráfico 538. Suponho que descobriremos mais sobre quais foram realmente os erros nos próximos dias. (Você sabe que é um nerd quando atualiza obsessivamente uma página da web para contemplar a segunda derivada de uma curva de gráfico).
TED

Não sei como você explica isso, mas acho que há um estigma associado a Trump que tornaria difícil quantificar adequadamente seu apoio real e só apareceria nos resultados das eleições. Gosto de pensar nisso como o corolário do adesivo: George W. Bush e Obama eram dois presidentes de mandato, mas enquanto um adesivo de Obama é difundido e adornado em carros com orgulho, um adesivo de Bush era como um trevo de quatro folhas. Existem certos candidatos em que o suporte aberto gera muito calor e vitríolo da oposição e o apoio é muito discreto.
coburne

3
@coburne Não havia evidências disso nas primárias; Os apoiadores de Trump não têm vergonha disso. Autocolantes no vidro traseiro de Bush onde populares em áreas diferentes do que autocolantes no vidro traseiro de Obama.
Yakk

@oburne - O que você está falando se chama Efeito Bradley . Há um grande debate sobre se ele existe. No entanto, houve um estudo que supostamente encontrou seu poder aproximadamente proporcional à quantidade de retórica racialmente usada na campanha. Eu não acho que haja muito debate que muito disso foi usado neste.
TED

31

Isso foi mencionado nos comentários sobre a resposta aceita (gorjeta para Mehrdad ), mas acho que deve ser enfatizada. 538 realmente fez isso muito bem neste ciclo * .

538 é um agregador de pesquisa que executa modelos em cada estado para tentar prever o vencedor. Sua corrida final deu a Trump cerca de 30% de chance de ganhar. Isso significa que, se você realizou três eleições com dados como esse, esperaria que a equipe Red vencesse uma delas. Isso não é realmente tão pequeno de uma chance. É certamente suficientemente grande que tomei precauções (por exemplo: na sexta-feira antes de pedir quarta-feira 9 de folga no trabalho, considerando a probabilidade de estar perto o suficiente para ser tarde da noite).

Uma coisa que o 538 dirá se você sair de casa é que, se as pesquisas forem desativadas, há uma boa chance de que todas elas sigam na mesma direção. Isto é por algumas razões.

  • Prováveis ​​modelos de eleitores. As pesquisas precisam se ajustar aos tipos de eleitores que realmente aparecerão no dia das eleições. Temos modelos históricos, mas obviamente esse não era o seu par típico de candidatos; portanto, prever com base em dados passados ​​sempre seria um pouco de crapshoot.
  • Pastoreio tardio nas eleições . Ninguém quer ser a enquete que mais estragou a eleição. Portanto, embora eles não se importem em ser extraviados no meio de uma campanha, no final todas as pesquisas tendem a se ajustar para que digam a mesma coisa. Essa é uma das coisas atribuídas às pesquisas terem sido tão flagrantemente causadas pela perda surpresa de Eric Cantor em 2014 e pelos resultados surpreendentemente próximos da corrida do Senado da Virgínia em 2014 .

* - 538 publicou sua própria análise . Principalmente, concorda com o que foi dito acima, mas vale a pena ler se você quiser muito mais detalhes.


Agora um pouco de especulação pessoal. Eu estava realmente cético em relação às% de chances finais de 538 nos últimos 3 dias. O motivo remonta à segunda bala acima. Vamos dar uma olhada na história do modelo deles para esta eleição (no site)

insira a descrição da imagem aqui

(Infelizmente, os rótulos o ocultam, mas depois disso as curvas divergiram novamente nos últimos três dias, com mais de 70% de chance para Clinton)

O padrão que vemos aqui é a repetida divergência seguida pela decadência em direção à liderança de Trump. As bolhas de Clinton foram todas causadas por eventos. A primeira foram as convenções (normalmente faltam alguns dias para que um evento comece a aparecer nas pesquisas). O segundo parece ter sido iniciado pelo primeiro debate, provavelmente ajudado pela fita da TMZ. Depois, há o terceiro ponto de inflexão que marquei na imagem.

Aconteceu em 5 de novembro, 3 dias antes da eleição. Que evento causou isso? Alguns dias antes, houve outro surto de e-mail, mas isso não deveria ter funcionado a favor de Clinton.

A melhor explicação que eu poderia ter na época era a pesquisa de opinião. Faltavam apenas três dias para a eleição, dois dias para as pesquisas finais, e os pesquisadores começaram a se preocupar com seus resultados finais. A "sabedoria convencional" de toda essa eleição (como evidenciado pelos modelos de apostas) foi uma vitória fácil de Clinton. Portanto, parecia uma possibilidade distinta de que isso não fosse uma inflexão verdadeira. Se fosse esse o caso, a verdadeira curva a partir de 5 de novembro provavelmente era uma continuação dessa em direção à convergência.

Seria preciso um matemático melhor do que eu para estimar a curva adiante aqui sem esse ponto de inflexão final suspeito, mas, de olho no olho, acho que o dia 8 de novembro estaria próximo do ponto de cruzamento . Na frente ou atrás, depende de quanto dessa curva era realmente real.

Agora não posso dizer com certeza que foi isso que aconteceu. Existem outras explicações muito plausíveis (por exemplo: Trump conseguiu seus eleitores muito melhores do que qualquer pesquisador esperava). Mas era minha teoria do que estava acontecendo na época, e certamente se mostrou preditivo.


1
Eu acho que essa inflexão estranha da pesquisa nos últimos dias teria sido melhor analisada, mas os apoiadores de Clinton viram o que eles queriam ver, e os apoiadores de Trump há muito deixaram de atender às pesquisas. Espero que alguém faça isso agora.
TED

Achei que os últimos dias se normalizaram um pouco devido à declaração de Comey de que os novos e-mails não constituíam motivo para nova investigação criminal.
Konrad Rudolph

@KonradRudolph - Essa foi a explicação que ouvi sobre essa inflexão na época. O problema é que a declaração em questão não saiu até 6 de novembro e o ponto de inflexão suspeito ocorreu um dia antes (veja o marcador na figura acima). Além disso, o momento está errado para a queda ser explicada inteiramente por Comey, portanto não há razão lógica para que sua declaração de "deixa pra lá" a tenha interrompido (muito menos a reviravolta).
TED

2
O problema com o 538 não é tanto o modelo deles, mas a qualidade dos dados de pesquisa inseridos nele. Os dados deixam claro que este não foi um caso de erro de amostragem (que é bastante pequeno quando você calcula a média de pesquisas com tamanhos de amostra decentes). washparkprophet.blogspot.com/2016/11/what-polls-got-wrong.html Em vez disso, o problema é uma amostragem tendenciosa na maior parte das pesquisas, ou a falta de sinceridade sistêmica dos entrevistados (devido à desaprovação social de Trump) ou ambos. Porém, 538 recebe elogios por reconhecer em seu modelo que pesquisas em diferentes estados não são independentes.
ohwilleke

@ohwilleke - Certo. Como uma das outras respostas disse, GIGO. Isso é o que eu imaginei que provavelmente estava acontecendo com aquele ponto de inflexão inexplicável estranho. A questão é a fonte do "lixo" nas pesquisas de entrada.
TED

17

Primeiro foi o Brexit, agora a eleição dos EUA

Não é realmente a primeira vez, por exemplo, a eleição presidencial francesa de 2002 "levou a sérias discussões sobre técnicas de votação".

Portanto, não é exagero dizer que esses modelos não fizeram um bom trabalho.

Lixo dentro, lixo fora.

Vi uma explicação: os eleitores não estavam dispostos a se identificar como apoiadores de Trump. Como um modelo poderia incorporar efeitos como esse?

Veja o viés de resposta e, em particular, o viés de desejabilidade social . Outras leituras interessantes: maioria silenciosa e efeito Bradley .


2
Claro, lixo no lixo. Mas como se reconhece que os preditores eram lixo e se faz "seleção de variáveis" para se dar bem com eles?
precisa saber é

6
@horaceT como você pode ver, isso é muito difícil e às vezes pode ser impossível. O FiveThirtyEight.com tinha uma metodologia bastante decente e um modelo de alta qualidade, usando dados diversos e corrigindo vários vieses. O dia antes das eleições deu 71,4% de probabilidade de que Hilary Clinton ganhasse ...
Tim

1
@horaceT Eu me concentraria na coleta de dados, pois esse parece ser o problema. A página de viés de desejabilidade social contém algumas idéias para melhorá-la.
Franck Dernoncourt

1
@horaceT, além disso, se quase todos os grupos dissessem que Clinton lidera apenas um louco, argumentariam que todos estão errados ... Seria muito difícil justificar esse modelo.
Tim

1
Eu ficaria curioso para saber quão precisas eram as previsões das pesquisas para a participação dos eleitores (por exemplo, com base na demografia). Eu poderia imaginar que, se muitas pesquisas prevendo uma "vantagem significativa", a participação poderia ser suprimida (por exemplo, semelhante a um efeito de observador )?
GeoMatt22

12

A pesquisa do USC / LA Times tem alguns números precisos. Eles previram que Trump estaria na liderança. Veja A pesquisa do USC / LA Times viu o que outras pesquisas perderam: uma onda de apoio a Trump

http://www.latimes.com/politics/la-na-pol-usc-latimes-poll-20161108-story.html

insira a descrição da imagem aqui

Eles tinham números precisos para 2012 também.

Você pode revisar: http://graphics.latimes.com/usc-presidential-poll-dashboard/

E o NY Times queixou-se de sua ponderação: http://www.nytimes.com/2016/10/13/upshot/how-one-19-year-old-illinois-man-is-distorting-national-polling-averages. html

Resposta do LA Times: http://www.latimes.com/politics/la-na-pol-daybreak-poll-questions-20161013-snap-story.html


26
Essa pesquisa fez Trump ganhar o voto popular em 3,2%, mas Clinton parece ter vencido em 0,1%. Portanto, não vejo como você pode dizer que eles tinham números precisos.
Winston Ewert

3
Apenas uma pequena observação - você realmente esperaria que alguma estatística estivesse dentro de menos de 3,2% de uma janela de erro?
AnoE

9
Problemas com esta enquete como exemplo são 1) Sua pesquisa está errada. O voto popular está correlacionado com a conquista da Presidência, mas não é assim que é decidido. 2) Entendeu errado a linha superior . Clinton ganhou o que está medindo, não Trump. 3) Ele saiu pelos mesmos três pontos que a maioria das outras pesquisas, apenas em uma direção diferente.
TED

5
... na verdade, parece que Clinton pode terminar cerca de um ponto à frente de Trump na votação popular, o que significa que essa pesquisa foi encerrada por 4, e não por 3. Então, em teoria, uma pesquisa semelhante que a fez vencer por 3 pontos teria foi duas vezes mais preciso que este (apenas 2 pontos em vez de 4).
TED

8
A pesquisa do LA Times estava correta por acidente : o jovem de 19 anos com excesso de peso contrabalançou o voto rural branco com pouco peso.
Mark

11

Nenhum terreno alto reivindicado aqui. Eu trabalho em um campo (Monitoramento e Avaliação) tão repleto de pseudo-ciências quanto qualquer outra ciência social que você possa nomear.

Mas aqui está o acordo: a indústria de votação está supostamente em 'crise' hoje porque errou as previsões das eleições nos Estados Unidos, as ciências sociais em geral têm uma 'crise' de replicabilidade e, no final dos anos 2000, tivemos uma 'crise' financeira mundial porque alguns profissionais acreditavam que os derivativos hipotecários subprime eram uma forma válida de dados financeiros (se lhes dermos o benefício da dúvida ...).

E todos nós apenas cometemos erros independentemente. Todos os dias, vejo as construções de questionadores mais questionáveis ​​usadas como abordagens de coleta de dados e, portanto, eventualmente usadas como dados (tudo, desde escalas quase ordinais até categorias de respostas fixas totalmente líderes). Pouquíssimos pesquisadores parecem perceber que precisam ter uma estrutura conceitual para tais construções antes que possam esperar entender seus resultados. É como se tivéssemos analisado as abordagens de "pesquisa" de mercado e decidido adotar apenas o pior de seus erros, com a adição de um pouco de numerologia ao lado.

Queremos ser considerados 'cientistas', mas o rigor é um pouco difícil de ser incomodado, por isso, coletamos dados de lixo e oramos ao deus da estatística do tipo Loki para superar magicamente o axioma do GIGO.

Mas como o Sr. Feynman, fortemente citado, aponta:

“Não importa o quão bonita seja sua teoria, não importa o quão inteligente você seja. Se não concorda com o experimento, está errado ”.

Existem maneiras melhores de lidar com os dados qualitativos com os quais estamos frequentemente presos, mas eles exigem um pouco mais de trabalho e essas construções agradáveis ​​de pesquisador costumam ser muito mais fáceis de serem inseridas no SPSS. A conveniência parece superar a ciência todas as vezes (sem trocadilhos).

Em resumo, se não começarmos a levar a sério a qualidade dos dados brutos, acho que estamos desperdiçando tempo e dinheiro de todos, inclusive o nosso. Então, alguém quer colaborar em uma 'iniciativa de qualidade de dados' em relação aos métodos das ciências sociais (sim, há muitos livros sobre essas coisas, mas ninguém parece prestar atenção a essa fonte após os exames).

Quem tiver a maior gravidade acadêmica será o líder! (Não serei eu.)

Só para esclarecer minha resposta aqui: vejo problemas sérios e fundamentais com tipos de dados brutos 'inventados' com tanta frequência que gostaria de sugerir a necessidade de começar do início. Portanto, mesmo antes de nos preocuparmos com a amostragem ou com os testes a serem executados nos dados, precisamos examinar a validade / limitações dos tipos de dados que coletamos em relação aos modelos que estamos propondo. Caso contrário, o modelo preditivo geral é definido de maneira incompleta.


2
Levado para longe, tenho certeza, você pode dar exemplos das construções questionáveis ​​do pesquisador.
horaceT

4
Não discordo necessariamente de muitos dos seus pontos. Mas só quero ressaltar que, no caso de pesquisas, acho que todo pesquisador está extremamente ciente das limitações devido à qualidade dos dados, mas realmente não tem opções para melhorá-las (veja minha resposta). Sua resposta parece sugerir que os pesquisadores desejam enviar qualquer resposta, sem se importar com a qualidade dos dados. Acho que o pesquisador se preocupa muito com a qualidade dos dados, mas também percebe que o melhor que podem obter tem sérias falhas em potencial. Desiste ("50% -50%!") Ou tenta construir algo que possa ser razoável?
Cliff AB

a minha resposta aos comentários era necessariamente um pouco longo, então adicionou-a como uma nova resposta
Colin

9

As pesquisas tendem a ter uma margem de erro de 5% da qual você não consegue se livrar, porque não é um erro aleatório, mas um viés. Mesmo se você tiver uma média de muitas pesquisas, isso não ficará muito melhor. Isso tem a ver com grupos de eleitores deturpados, falta de mobilização, incapacidade de ir à votação em um dia de trabalho, falta de vontade de responder, falta de vontade de responder decisões corretas e espontâneas de última hora, ... porque esse viés tende a ser "correlacionado" nas pesquisas, você não pode se livrar dele com mais pesquisas; você também não pode se livrar dele com amostras maiores; e você também não parece capaz de prever esse viés, porque muda muito rápido (e elegemos presidentes muito raramente).

Devido ao estúpido princípio de vencedor leva tudo, ainda presente em quase todos os estados, um erro de 5% pode causar resultados muito diferentes: suponha que as pesquisas sempre previssem 49-51, mas o resultado real foi 51-49 (portanto, um erro de apenas 2%), o resultado é 100% de desconto; por causa do vencedor leva tudo.

Se você observar estados individuais, a maioria dos resultados estará dentro das margens de erro previstas!

Provavelmente o melhor que você pode fazer é provar esse viés (+ -5%), aplicar os extremos do vencedor leva tudo e agregar os resultados. Provavelmente é semelhante ao que 538 fez; e em 30% das amostras, Donald Trump ganhou ...


9
Eu chamo isso de "princípio marginal lunático" da pesquisa: em qualquer pergunta da pesquisa, 5% de todos os entrevistados darão uma resposta louca. Como qualquer princípio empírico, ele tem exceções, mas tem se destacado por décadas ao ajudar a entender os resultados das pesquisas.
whuber

1
Se fosse apenas uma resposta "louca". O problema é que não é sistemático "louco aleatório". Você poderia considerar a eleição uma pesquisa binária, e que "respostas malucas" você poderia esperar em binário? (?) Mas, aparentemente, um monte de pessoas deliberadamente dar uma resposta errada, ou decidir de forma diferente quando, na verdade, na cabine, ou então não vá para as eleições, ...
anony-Mousse

3
@ Anony-Mousse, não importa quão preciso seja ou não, não vejo como o apelido juvenil é relevante para a análise estatística.
Jared Smith

Oh, é uma história inestimável. Em alguns dias, você precisa rir, em vez de se preocupar por que os resultados das previsões são imprecisos.
Anony-Mousse

Comentários não são para discussão prolongada; esta conversa foi movida para o bate-papo .
gung

7

400,000

No final, expôs uma falha colossal da análise numérica para compensar a falta de conhecimento do assunto. As pessoas tinham vergonha de abraçar explicitamente o candidato vencedor por razões óbvias.

O pior modelo de computador poderia ter chegado mais perto do resultado se alguém se desse ao trabalho de realizar uma pesquisa preliminar cara a cara, batendo nas portas. Aqui está um exemplo: o Trafalgar Group (nenhuma afiliação ou conhecimento além do que se segue) tinha Trump liderando em PA, FL, MI, GA, UT e NV (este último estado ficou finalmente azul) um dia antes da eleição. Qual foi a magia?

uma combinação de respondentes da pesquisa a um teste de cédula padrão e a um teste de cédula [sic] onde os vizinhos do respondente estão. Isso aborda o viés subjacente das pesquisas tradicionais, em que os entrevistados não são totalmente verdadeiros sobre sua posição em relação a candidatos altamente controversos.

Bastante de baixa tecnologia, incluindo a falta de verificação ortográfica, mostrando muito sobre a natureza humana. Aqui está a discrepância no PA :

insira a descrição da imagem aqui

Pensilvânia histórica - longe de ser percebida como a gota d'água na derrota democrata poucas horas antes dessa realização final às 1:40 da manhã de 9 de novembro de 2016:

insira a descrição da imagem aqui


2
Perguntar sobre a intenção de voto dos vizinhos é brilhante - me parece um daqueles truques inteligentes às vezes usados ​​em Estatística, que permitem corrigir (até certo ponto, pelo menos) um viés aparentemente sem esperança. Obrigado por escrever sobre isso, muito interessante!
DeltaIV 11/11/16

5

Uma das razões para a inexatidão das pesquisas nas eleições nos EUA, além de algumas pessoas, por qualquer motivo que não dizem a verdade, é que o efeito "vencedor leva tudo" torna as previsões ainda menos fáceis. Uma diferença de 1% em um estado pode levar a uma mudança completa de um estado e influenciar fortemente todo o resultado. Hillary teve mais eleitores como Al Gore vs Bush.

O referendo do Brexit não foi uma eleição normal e, portanto, também mais difícil de prever (não existem bons dados históricos e todos foram como eleitores pela primeira vez sobre esse assunto). Pessoas que por décadas votam no mesmo partido estabilizam as previsões.


2
Muito boa observação. Havia estados claros para cada lado e estados de oscilação. Embora seu número seja baixo, o efeito sobre uma pequena mudança é grande no número de votos. É um esquema de votação muito complicado e historicamente cultivado nos EUA.
Trilarion

4

(Apenas responda a esse bit, pois as outras respostas parecem ter coberto todo o resto.)

Ainda às 16:00 PST de ontem, os mercados de apostas ainda favoreciam Hillary 4 a 1. Presumo que os mercados de apostas, com dinheiro real em jogo, devem atuar como um conjunto de todos os modelos de previsão disponíveis no mercado.

Não ... mas indiretamente sim.

Os mercados de apostas são projetados para que os apostadores obtenham lucro, aconteça o que acontecer. Por exemplo, digamos que as probabilidades atuais citadas foram 1-4 em Hilary e 3-1 em Trump. Se todas as próximas dez pessoas apostarem US $ 10 no Hilary, os US $ 100 recebidos custarão US $ 25 se Hilary vencer. Então, eles encurtam Hilary para 1-5 e aumentam Trump para 4-1. Agora, mais pessoas apostam em Trump e o equilíbrio é restaurado. Ou seja, é puramente baseado em como as pessoas apostam, não nos especialistas ou nos modelos de previsão.

Mas, é claro, os clientes das casas de apostas estão olhando para essas pesquisas e ouvindo esses especialistas. Eles ouvem que Hilary está 3% à frente, um certificado morto para ganhar, e decidem que uma maneira rápida de ganhar US $ 10 é apostar US $ 40 nela.

Indiretamente, os especialistas e pesquisas estão mudando as chances.

(Algumas pessoas também percebem que todos os seus amigos no trabalho vão votar em Trump, então faça uma aposta nele; outros notam que todas as postagens de seus amigos do Facebook são pró-Hilary, então faça uma aposta nela, para que haja um pouco de realidade influenciando eles, dessa maneira.)


2

Não é de surpreender que esses esforços tenham falhado, quando você considera a disparidade entre quais informações os modelos têm acesso e quais informações direcionam o comportamento na cabine de votação. Estou especulando, mas os modelos provavelmente levam em conta:

  • uma variedade de resultados de pesquisas pré-eleitorais
  • inclinações históricas do estado (azul / vermelho)
  • resultados históricos de eleições anteriores com tendências / projeções atuais do estado

Mas, as pesquisas pré-eleitorais não são confiáveis ​​(vimos falhas constantes no passado), os estados podem mudar e não houve ciclos eleitorais suficientes em nossa história para explicar a multiplicidade de situações que podem surgir e surgir .

Outra complicação é a confluência do voto popular com o colégio eleitoral. Como vimos nesta eleição, o voto popular pode ser extremamente próximo dentro de um estado, mas uma vez que o estado é ganho, todos os votos vão para um candidato, e é por isso que o mapa tem tanto vermelho.


1

Os modelos de votação não consideraram quantos libertários poderiam mudar de Johnson para Trump quando se tratava de votação real. Os estados que foram conquistados por uma margem fina foram vencidos com base na porcentagem de votos que Johnson obteve. O PA (que empurrou Trump além de 270 na noite da eleição) deu apenas 2% a Johnson. NH (que foi para Clinton) deu 4% + para Johnson. Johnson estava pesquisando entre 4% e 5% no dia anterior à eleição e ele obteve aproximadamente 3% no dia da eleição.

Então, por que os libertarianos, de repente, mudaram no dia da eleição? Ninguém considerou qual era o problema central dos eleitores libertários. Eles tendem a ver a interpretação literal da Constituição como cânone. A maioria das pessoas que votou em Clinton não achou que sua falta de lei fosse uma prioridade suficientemente alta para ser considerada. Certamente, não superior a tudo o que eles não gostaram em Trump.

Independentemente de seus problemas legais serem importantes ou não para os outros, eles seriam importantes para os libertários. Eles colocariam uma prioridade muito alta em manter o cargo de alguém que considerasse opcional a conformidade legal, na melhor das hipóteses. Portanto, para um grande número deles, manter Clinton fora do cargo se tornaria uma prioridade mais alta do que afirmar que a filosofia libertária é uma filosofia política viável.

Muitos deles podem nem gostar de Trump, mas se pensassem que ele seria mais respeitoso com o Estado de direito do que Clinton, o pragmatismo teria conquistado princípios para muitos deles e os levaria a mudar de voto quando chegou a hora de realmente votar.


NH tem todas as pessoas do projeto de estado livre vivendo lá. Partido libertário próspero e apoiadores ativos.
John John

@ John, NH Libertarians preso com Johnson (4%). Trump perdeu o estado em 1%.
Dmitry Rubanovich 11/11

Eu entendi aquilo. Eu estava tentando explicar que o partido libertário é forte no NH.
John

@ John, mas não é apenas NH. Minnesota: Johnson 4%, Trump perdeu 2%; NV (um argumento mais difícil de argumentar, mas ainda assim a tendência se mantém): Johnson 3,5%, Trump perdeu 2%; Maine: Johnson 5%, Trump perdeu 3%; Colorado Johnson 5%, Trump perdeu 3%.
Dmitry Rubanovich 11/11/2016

Afaik, as pesquisas perguntam sobre possíveis trocas de votos e as previsões levam isso em consideração. Você tem alguma informação que sugira que antes da eleição havia alguma informação que não foi levada em consideração por nenhuma previsão ou isso é pura especulação?
Tim

1

Pesquisas não são tendências históricas. Um bayesiano indagaria sobre as tendências históricas. Desde Abraham Lincoln, houve um partido republicano e um partido democrata ocupando o cargo presidencial. A tendência de mudança de partido 16 vezes desde então da Wikipedia tem a seguinte função de massa cumulativa

insira a descrição da imagem aqui

x

O que levou os jornalistas, o Partido Democrata e os pesquisadores a pensar que as chances eram favoráveis ​​à vitória dos liberais foi talvez uma ilusão. O comportamento pode ser previsível, dentro de limites, mas, neste caso, os democratas desejavam que as pessoas não votassem em uma mudança e, de uma perspectiva histórica, parece mais provável que exista uma.


0

Penso que os resultados das pesquisas foram extrapolados na medida em que o público suponha que os dados demográficos dos eleitores serão semelhantes aos dados demográficos dos entrevistados e constituam uma boa representação de toda a população. Por exemplo, se 7 das 10 minorias apóiam Hillary nas pesquisas e se essa minoria representa 30% da população dos EUA, a maioria das pesquisas presumiu que 30% dos eleitores serão representados por essa minoria e traduzidos para esse ganho de 21% para Hillary. Na realidade, homens brancos da classe média e alta estavam melhor representados entre os eleitores. Menos de 50% das pessoas elegíveis votaram e isso não se traduziu em 50% de desconto em todos os sexos, raças etc.

Ou, as pesquisas assumiram uma randomização perfeita e basearam seus modelos nisso, mas, na realidade, os dados do eleitor foram direcionados para homens mais velhos da classe média-alta.

Ou, as pesquisas não assumiram exatamente a aleatorização perfeita, mas seus parâmetros de extrapolação subestimaram a heterogeneidade da demografia dos eleitores.

ETA: As pesquisas das duas eleições anteriores tiveram melhor desempenho devido ao aumento da atenção à votação por grupos que geralmente não são bem representados.


Até onde eu sei, todas as pesquisas baseiam suas previsões em 'prováveis ​​eleitores'. Não consigo imaginar pesquisas que suponham que uma pessoa de 20 anos tenha a mesma chance de votar que uma pessoa de 70 anos. Mais central parece o problema: qual a probabilidade de alguém votar?
dimpol

Contabilizar a demografia é a parte mais fácil. Você apenas repondera sua população de amostra para a população real. Contabilizar a participação dos eleitores e os vieses mencionados nas outras respostas é muito mais difícil.
Graipher

Há uma variedade razoável de como os pesquisadores de pesquisa abordam essas questões. Alguns reequilibram demograficamente ou reequilibram com base na afiliação de terceiros, outros não. Porém, como há variação nos modelos de uso de médias de pesquisa, o resultado final deve ser robusto para problemas específicos de um método de fazer isso que não seja compartilhado por outras pesquisas, principalmente após o controle de vieses partidários históricos (isto é, efeitos de casa) de determinados operações de votação. Os problemas nos resultados médios das pesquisas têm que vir de métodos ou efeitos compartilhados, não métodos específicos para cada pesquisa.
ohwilleke

0

HoraceT e CliffAB (desculpe demais pelos comentários) Receio ter uma vida inteira de exemplos, que também me ensinaram que preciso ter muito cuidado com a explicação deles, se quiser evitar ofender as pessoas. Portanto, embora eu não queira sua indulgência, peço sua paciência. Aqui vai:

Para começar com um exemplo extremo, vi uma vez uma pergunta de pesquisa proposta que pedia a agricultores analfabetos das aldeias (sudeste da Ásia) que estimassem sua 'taxa de retorno econômico'. Deixando de lado as opções de resposta por agora, esperamos que todos vejam que isso é uma coisa estúpida, mas explicar consistentemente por que é estúpido não é tão fácil. Sim, podemos simplesmente dizer que é estúpido porque o entrevistado não entenderá a questão e apenas a descartará como uma questão semântica. Mas isso realmente não é bom o suficiente em um contexto de pesquisa. O fato de essa pergunta ter sido sugerida implica que os pesquisadores têm variabilidade inerente ao que consideram "estúpido". Para abordar isso de maneira mais objetiva, precisamos recuar e declarar de forma transparente uma estrutura relevante para a tomada de decisões sobre tais coisas. Existem muitas opções,

Portanto, vamos assumir de forma transparente que temos dois tipos de informações básicas que podemos usar nas análises: qualitativa e quantitativa. E que os dois estão relacionados por um processo transformador, de modo que todas as informações quantitativas começaram como informações qualitativas, mas passaram pelas seguintes etapas (simplificadas):

  1. Configuração da convenção (por exemplo, todos decidimos que [independentemente de como a percebemos individualmente], todos chamaremos a cor de um céu aberto diurno de “azul”.)
  2. Classificação (por exemplo, avaliamos tudo em uma sala por esta convenção e separamos todos os itens em categorias 'azul' ou 'não azul')
  3. Contagem (contamos / detectamos a 'quantidade' de coisas azuis na sala)

Observe que (nesse modelo) sem a etapa 1, não existe qualidade e, se você não começar com a etapa 1, nunca poderá gerar uma quantidade significativa.

Uma vez declarado, tudo isso parece muito óbvio, mas são esses conjuntos de primeiros princípios que (eu acho) são geralmente ignorados e, portanto, resultam em 'Garbage-In'.

Portanto, a 'estupidez' no exemplo acima se torna muito claramente definível como uma falha em estabelecer uma convenção comum entre o pesquisador e os entrevistados. É claro que este é um exemplo extremo, mas erros muito mais sutis podem gerar igualmente lixo. Outro exemplo que eu vi é uma pesquisa com agricultores na Somália rural, que perguntou: “Como as mudanças climáticas afetaram seu modo de vida?”. Mais uma vez deixando de lado as opções de resposta no momento, eu sugeriria que, mesmo perguntando isso aos agricultores no Centro-Oeste de os Estados Unidos constituiriam uma falha grave no uso de uma convenção comum entre pesquisador e entrevistado (isto é, o que está sendo medido como 'mudança climática').

Agora vamos às opções de resposta. Ao permitir que os respondentes codifiquem respostas de código próprio a partir de um conjunto de opções de múltipla escolha ou construção semelhante, você também está empurrando esse problema de "convenção" para esse aspecto do questionamento. Isso pode ser bom se todos mantivermos convenções efetivamente 'universais' nas categorias de resposta (por exemplo, pergunta: em que cidade você mora? Categorias de resposta: lista de todas as cidades na área de pesquisa [mais 'não nesta área']). No entanto, muitos pesquisadores realmente parecem se orgulhar das nuances sutis de suas perguntas e categorias de respostas para atender às suas necessidades. Na mesma pesquisa em que a pergunta 'taxa de retorno econômico' apareceu, o pesquisador também pediu aos entrevistados (moradores pobres) que fornecessem em qual setor econômico eles contribuíram: com categorias de resposta de 'produção', 'serviço', 'fabricação' e 'marketing'. Novamente, uma questão de convenção qualitativa obviamente surge aqui. No entanto, porque ele tornou as respostas mutuamente exclusivas, de modo que os entrevistados pudessem escolher apenas uma opção (porque “é mais fácil alimentar o SPSS dessa maneira”), e os agricultores da aldeia costumam produzir colheitas, vender seu trabalho, fabricar artesanato e levar tudo para mercados locais, esse pesquisador em particular não tinha apenas um problema de convenção com seus entrevistados, ele tinha um com a própria realidade.

É por isso que entediantes antigos como eu sempre recomendam a abordagem mais trabalhosa de aplicar a codificação à pós-coleta de dados - pois pelo menos você pode treinar adequadamente codificadores em convenções realizadas por pesquisadores (e observe que tentar transmitir essas convenções aos entrevistados em ' instruções de pesquisa 'é um jogo de caneca - apenas confie em mim por enquanto). Observe também que, se você aceitar o 'modelo de informação' acima (que, novamente, não estou afirmando que seja necessário), também mostrará por que as escalas de resposta quase ordinais têm uma má reputação. Não são apenas os problemas básicos de matemática da convenção de Steven (ou seja, você precisa definir uma origem significativa mesmo para ordinais, não é possível adicionar e calcular a média, etc. etc.), também é comum que eles nunca tenham passado por nenhum processo transformador declarado de forma transparente e logicamente consistente que equivaleria a 'quantificação' (ou seja, uma versão estendida do modelo usado acima que também engloba a geração de 'quantidades ordinais' [isso não é difícil]. façam]). De qualquer forma, se ele não atender aos requisitos de informações qualitativas ou quantitativas, o pesquisador está realmente afirmando ter descoberto um novo tipo de informação fora da estrutura e, portanto, o ônus está neles para explicar completamente sua base conceitual fundamental ( ou seja, definir de forma transparente uma nova estrutura).

Finalmente, vamos analisar os problemas de amostragem (e acho que isso está alinhado com algumas das outras respostas já aqui). Por exemplo, se um pesquisador deseja aplicar uma convenção sobre o que constitui um eleitor "liberal", ele precisa ter certeza de que as informações demográficas usadas para escolher seu regime de amostragem são consistentes com esta convenção. Esse nível geralmente é o mais fácil de identificar e lidar, pois está amplamente sob o controle do pesquisador e é geralmente o tipo de convenção qualitativa assumida que é declarada de forma transparente na pesquisa. É também por isso que é o nível geralmente discutido ou criticado, enquanto as questões mais fundamentais não são abordadas.

Assim, enquanto os pesquisadores de opinião se apegam a perguntas como 'em quem você planeja votar neste momento?', Provavelmente ainda estamos bem, mas muitos deles querem ficar muito mais extravagantes do que isso ...

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.