Pesquisadores anteriores falharam em detectar a mão quente simplesmente por causa de uma falácia estatística?

11

Muitos fãs / jogadores de basquete acreditam que, após várias tacadas seguidas, é provável que a próxima tacada seja jogada. Isso às vezes é chamado de mão quente.

Começando (eu acho) com Gilovich, Mallone e Tversky (1985) , foi "mostrado" que isso era de fato uma falácia. Mesmo que várias fotos tenham sido executadas em sequência, a próxima foto não terá mais chances do que sua porcentagem média de fotos ditaria.

Miller e Sanjurjo (2015) argumentam que a mão quente realmente existe e pesquisadores anteriores simplesmente foram vítimas de uma falácia estatística bastante básica. O argumento deles é mais ou menos assim:

Jogue uma moeda quatro vezes. Calcule a probabilidade de H seguir H. Para dar alguns exemplos: HHTT teria probabilidade 1/2, HTHT teria probabilidade 0/2, TTHH teria probabilidade ~~0/1~~ 1/1 e TTTT e TTTH seriam NA

O argumento final de Miller e Sanjurjo é que o valor esperado dessa probabilidade não é 0,5, mas ± 0,4. E o erro cometido por pesquisadores anteriores foi assumir incorretamente que o valor esperado dessa probabilidade é 0,5. Portanto, se, por exemplo, esses pesquisadores anteriores realizaram o experimento de troca de moedas acima e descobriram que a probabilidade média é de 0,497, eles concluíram incorretamente que não havia evidências de uma mão quente (não significativamente diferente de 0,5), quando na verdade havia muito forte evidência de mão quente (significativamente diferente de 0,4).

Minha pergunta é a seguinte: Miller e Sanjurjo estão corretos quando pesquisadores anteriores não conseguiram detectar a mão quente simplesmente por causa desse erro? Eu examinei apenas um ou dois trabalhos sobre o assunto, então queria obter alguma confirmação de alguém aqui que possa conhecer melhor essa literatura. Parece um erro surpreendentemente tolo persistir por três décadas ou mais.

academic-graduate statistics

— Kenny LJ
fonte

3

Essa é uma pergunta perigosa para este site, no sentido de que é bastante difícil de avaliar, especialmente para pessoas de fora. E é assim que "determinamos" as melhores respostas, por maioria de votos. Certifique-se de ler todas as respostas e votar apenas naquelas que parecem corretas depois de ler todas elas e votar negativamente nas que deixarem você insatisfeito / desconfiado.

— FooBar

1

Isso ocorre porque a resposta correta pode ser contra-intuitiva. Se um site como esse existisse há 60 anos, não acho que a resposta correta para o problema de Monty Hall - que tem propriedades semelhantes - seria a principal por votação majoritária.

— FooBar

@FooBar, para acrescentar ao seu argumento, há duas perguntas complicadas acontecendo ao mesmo tempo aqui: (1) "Qual é o efeito matemático discutido por Miller e Sanjuro" --- essa não é a pergunta que Kenny LJ fez, mas é uma pergunta boa pergunta, porque é preciso muita leitura para entender e é relativamente objetivo. Então (2) é "Será que esta pesquisa invalidar antes", o que parece subjetiva e baseada na opinião ....

— usul

@usul: Em alguns casos na economia, a segunda pergunta ("Isso invalida pesquisas anteriores?") é realmente mais controversa e baseada em opiniões - por exemplo, a controvérsia sobre o artigo de Reinhart e Rogoff (2010). Mas acho que nesse caso temos um problema matemático claramente definido. E, como tentei mostrar na minha resposta abaixo (que acabei de reescrever para maior clareza e concisão), Miller e Sanjurjo (2015) de fato conseguem invalidar as conclusões de Gilovich, Mallone e Tversky (1985).

— 21715 Kenny LJ

@KennyLJ, eles mostraram que uma das evidências no jornal de 1985 é inválida. Esta é uma pergunta muito diferente de mostrar que a conclusão é inválida, por exemplo, mostrar que definitivamente existe um efeito de mão quente.

— usul

6

(Esta resposta foi completamente reescrita para maior clareza e legibilidade em julho de 2017.)

Jogue uma moeda 100 vezes seguidas.

$\hat{p}(H|3T)$ $\hat{p}(H|3H)$

$x:=\hat{p}(H|3H)-\hat{p}(H|3T)$

Se os lançamentos de moedas são iid, então "obviamente", em várias seqüências de 100 lançamentos de moedas,

$x>0$ $x<0$

$E(X)=0$

Geramos um milhão de seqüências de 100 lançamentos de moedas e obtemos os dois resultados a seguir:

$x>0$ $x<0$

$\bar{x} \approx 0$ $\bar{x}$ $x$

E assim concluímos que os lançamentos de moedas são de fato iid e não há evidência de mão quente. Foi o que GVT (1985) fez (mas com jogadas de basquete no lugar de lançamentos de moedas). E foi assim que eles concluíram que a mão quente não existe.

Punchline: Surpreendentemente, (1) e (2) estão incorretos. Se os lançamentos de moedas são iid, então deve ser aquele

$x>0$ $x<0$ $x=0$ $x$

$E(X) \approx -0.08$

A intuição (ou contra-intuição) envolvida é semelhante à de vários outros quebra-cabeças de probabilidade famosos: o problema de Monty Hall, o problema de dois meninos e o princípio da escolha restrita (na ponte do jogo de cartas). Essa resposta já é longa o suficiente e, portanto, vou pular a explicação dessa intuição.

E assim, os próprios resultados (I) e (II) obtidos por GVT (1985) são na verdade fortes evidências a favor da mão quente. Foi isso que Miller e Sanjurjo (2015) mostraram.

Análise adicional da Tabela 4 da GVT.

Muitos (por exemplo, @scerwin abaixo) expressaram - sem se preocupar em ler GVT (1985) - descrença de que qualquer "estatístico treinado jamais" fizesse uma média de médias nesse contexto.

Mas foi exatamente isso que a GVT (1985) fez na Tabela 4. Veja a Tabela 4, colunas 2-4 e 5-6, linha inferior. Eles acham que a média entre os 26 jogadores,

$\hat{p}(H|1M) \approx 0.47$ $\hat{p}(H|1H) \approx 0.48$

$\hat{p}(H|2M) \approx 0.47$ $\hat{p}(H|2H) \approx 0.49$

$\hat{p}(H|3M) \approx 0.45$ $\hat{p}(H|3H) \approx 0.49$

$k=1,2,3$ $\hat{p}(H|kH)>\hat{p}(H|kM)$

Mas se, em vez de tomar a média das médias (uma jogada considerada inacreditavelmente estúpida por alguns), refizermos a análise e agregamos os 26 jogadores (100 tiros para cada um, com algumas exceções), obtemos a seguinte tabela de médias ponderadas.

Any                     1175/2515 = 0.4672

3 misses in a row       161/400 = 0.4025
3 hits in a row         179/313 = 0.5719

2 misses in a row       315/719 = 0.4381
2 hits in a row         316/581 = 0.5439        

1 miss in a row         592/1317 = 0.4495
1 hit in a row          581/1150 = 0.5052

A tabela diz, por exemplo, que um total de 2.515 chutes foram feitos pelos 26 jogadores, dos quais 1.175 ou 46,72% foram feitos.

E das 400 ocorrências em que um jogador errou 3 seguidas, 161 ou 40,25% foram imediatamente seguidas por um acerto. E das 313 ocorrências em que um jogador acertou 3 em sequência, 179 ou 57,19% foram imediatamente seguidos por um acerto.

As médias ponderadas acima parecem ser fortes evidências a favor da mão quente.

Lembre-se de que o experimento de arremesso foi criado para que cada jogador estivesse arremessando de onde havia sido determinado que ele / ela poderia fazer aproximadamente 50% de seus arremessos.

(Nota: "Estranhamente", na Tabela 1, para uma análise muito semelhante à do jogo de Sixers, a GVT apresenta as médias ponderadas. Então, por que eles não fizeram o mesmo na Tabela 4? Meu palpite é que eles certamente calculou as médias ponderadas da Tabela 4 - os números que apresento acima, não gostaram do que viram e optaram por suprimi-los. Infelizmente, esse tipo de comportamento é par para o curso na academia.)

$HHHTTTHHHHH…H$ $\hat{p}(H|3T)=1/1=1$

$\hat{p}(H|3H)=91/92 \approx 0.989$

PS GVT (1985) A Tabela 4 contém vários erros. Vi pelo menos dois erros de arredondamento. E também para o jogador 10, os valores entre parênteses nas colunas 4 e 6 não somam um a menos que os da coluna 5 (ao contrário da nota na parte inferior). Entrei em contato com Gilovich (Tversky está morto e Vallone não tenho certeza), mas infelizmente ele não tem mais as seqüências originais de acertos e acertos. A tabela 4 é tudo o que temos.

— Kenny LJ
fonte

Observando a tabela 4 da GMT de 1985, eles testaram 26 estudantes individualmente e encontraram apenas um exemplo de uma "mão quente" estatisticamente significativa (eles compararam cada caso com p <0,05). Este é o efeito do feijão verde de geléia . Como um aparte, se cada aluno tivesse sido posicionado com precisão, de modo que pudesse realizar cerca de 50% de suas jogadas, muito menos de 7 deles deveriam ter taxas de acerto fora de um intervalo de 40 a 60 em 100 (a menos que há um efeito mão quente maciça)

— Henry

4

(Aviso: não conheço esta literatura.) Parece-me que Miller e Sanjurjo têm uma crítica válida de uma medida estatística específica. Não sei se isso deve invalidar todo o trabalho anterior sobre o efeito da mão quente, pois eles se concentram apenas nessa medida em particular.

A medida é

M := P (make shot | made previous shot) - P (make shot | miss previous shot)

$M := P(\text{make shot }|\text{ made previous shot}) - P(\text{make shot }|\text{ miss previous shot})$

P (X)

$P(X)$

X

$X$

$M$ $\mathbb{E} M > 0$ $\mathbb{E} M = 0$

$\mathbb{E} M < 0$ $M$

$M$

— usul
fonte

3

Nenhum dos dois trabalhos é suficientemente claro no que diz respeito às suas aplicações de Estatística, portanto, nesta resposta, tentarei um esclarecimento.

Gilovich, Mallone e Tversky (1985) em seu Resumo definem o "efeito Mão Quente" da seguinte maneira:

" Tanto jogadores de basquete quanto fãs tendem a acreditar que a chance de um jogador acertar um arremesso é maior após um acerto do que após uma falta no arremesso anterior " .

$k$ $H_k$ $k$ $M_k$

\begin{matrix} (1) & P (H ∣ H_{k}) > P (H ∣ M_{k}), k \geq 1 \end{matrix}

$P(H \mid H_k) > P(H\mid M_k),\;\;\; k\geq 1 \tag{1}$

onde, para compacidade, entende-se que o tiro em questão é aquele imediatamente após os acertos ou erros sequenciais. Essas são probabilidades condicionais teóricas (ou seja, constantes), não freqüências empíricas relativas condicionais.

$\hat P(H \mid H_k) ,\; \hat P(H\mid M_k)$

H_{o} : P (H ∣ H_{k}) - P (H ∣ M_{k}) = 0

${\rm H_o:} P(H \mid H_k) - P(H\mid M_k) =0$

$P(H)$

$T\equiv \hat P(H \mid H_k) - \hat P(H\mid M_k)$

$T$

$T$

Portanto, se houver um problema com Gilovich et al. artigo, não é a definição de Mão Quente, não é a formulação da hipótese nula, não é a seleção da estatística a ser usada: é a validade dos valores críticos usados para executar os testes ( e, portanto, da suposição distributiva implícita), se é que a distribuição finita de pequenas amostras (sob a hipótese nula) é visivelmente não centrada em zero e também assimétrica.

Nesses casos, o que geralmente se faz é obter por simulação valores críticos especiais para realizar o teste (lembre-se, por exemplo, dos valores críticos especiais para o teste Dickey-Fuller para uma raiz unitária). Não vi essa abordagem no artigo de Miller-Sanjurjo, em vez disso, eles realizam "ajuste de tendência média" e descobrem que, após esse ajuste, a conclusão do teste é revertida. Não tenho certeza se este é o caminho a percorrer.

$200$ $n=100$ $p=0.5$
$T_3 = \hat P(H \mid H_3) - \hat P(H\mid M_3)$ $-0.0807$ $-0.072$ $62.5\%$ dos valores sendo negativos. O histograma empírico é

insira a descrição da imagem aqui

— Alecos Papadopoulos
fonte

1

Na minha opinião, Miller e Sanjurjo simplesmente calcularam incorretamente as frequências relativas na Tabela 1. Sua tabela é mostrada abaixo com duas novas colunas adicionadas, que contam o número de subsequências HH e HT que ocorrem dentro de cada sequência de 4 lançamentos de moedas. Para obter a probabilidade condicional desejada p (H | H), é necessário somar essas contagens N (HH) e N (HT) e depois dividir como mostrado abaixo. Isso resulta em p (H | H) = 0,5, conforme o esperado. Por alguma razão, Miller e Sanjurjo primeiro calcularam a frequência relativa de cada sequência e depois calcularam a média das seqüências. Isso está errado.

Sequence     Subsequences       N(HH) N(HT)    p(H|H)
TTTT  ->  TT.. , .TT. , ..TT      0     0        -  
TTTH  ->  TT.. , .TT. , ..TH      0     0        -  
TTHT  ->  TT.. , .TH. , ..HT      0     1       0.0 
THTT  ->  TH.. , .HT. , ..TT      0     1       0.0 
HTTT  ->  HT.. , .TT. , ..TT      0     1       0.0 
TTHH  ->  TT.. , .TH. , ..HH      1     0       1.0 
THTH  ->  TH.. , .HT. , ..TH      0     1       0.0 
THHT  ->  TH.. , .HH. , ..HT      1     1       0.5 
HTTH  ->  HT.. , .TT. , ..TH      0     1       0.0 
HTHT  ->  HT.. , .TH. , ..HT      0     2       0.0 
HHTT  ->  HH.. , .HT. , ..TT      1     1       0.5 
THHH  ->  TH.. , .HH. , ..HH      2     0       1.0 
HTHH  ->  HT.. , .TH. , ..HH      1     1       0.5 
HHTH  ->  HH.. , .HT. , ..TH      1     1       0.5 
HHHT  ->  HH.. , .HH. , ..HT      2     1       0.66
HHHH  ->  HH.. , .HH. , ..HH      3     0       1.0 
                                 --    --       ----
                                 12    12       0.40
                            p(H|H)=N(HH)/N(H*)
                                  =12/(12+12)
                                  =0.5

— scerwin
fonte

O argumento deles é que, em vez de calcular as ocorrências individuais de TT e TH (como você fez), as probabilidades p (H | H) devem ser calculadas como médias (porque todas as seqüências são igualmente prováveis).

— Giskard

1

Talvez uma tabela mais simples torne seu erro mais óbvio. Vamos permitir apenas duas seqüências específicas de 4 flip: TTHT e HHHH. Eles fornecem as seguintes subsequências de 2 flip: TT, TH, HT, HH, HH, HH. A partir desta lista, é bastante óbvio que, quando a primeira moeda lançada mostra H, é muito provável que seja seguida por outro H (isso acontece 3 em 4 vezes). Bastante uma "moeda quente" de fato! Mas o método de Miller e Sanjurjo não preveria nenhum calor, porque a média das frequências para TTHT e HHHH (0,0 e 1,0) é 0,5. Por outro lado, o método usual fornece a resposta correta: p (H | H) = 3 / (3 + 1) = 0,75.

— scerwin

Acho que o argumento deles é que esse "erro" que você aponta foi precisamente o que os pesquisadores anteriores fizeram.

— 21715 Kenny LJ

1

Talvez. Mas essa afirmação sobre pesquisadores anteriores está correta? Nenhum estatístico treinado jamais calcularia uma probabilidade da mesma maneira que Miller e Sanjurjo na Tabela 1. É análogo a calcular a média de rebatidas de um jogador de beisebol, calculando primeiro sua média para cada jogo e calculando a média dos jogos. É simplesmente errado.

— scerwin

"Mas essa afirmação sobre pesquisadores anteriores está correta? Nenhum estatístico treinado jamais calcularia uma probabilidade da mesma maneira que Miller e Sanjurjo fizeram na Tabela 1." Talvez você deva reservar um tempo para ler os papéis em questão. Especialmente GVT (1985).

— Kenny LJ

0

Em qualquer sequência observada, a última condicional é "ausente" no sentido de que não há valor posteriormente. Os autores lidam com isso simplesmente desconsiderando os casos em que isso acontece, dizendo que eles são indefinidos. Se a série for curta, essa escolha terá um impacto óbvio nos cálculos. A Figura 1 é uma boa ilustração dessa idéia.

-1

Vou alterar um comentário que fiz acima para uma resposta e reivindicar a resposta para a pergunta original é que os documentos originais estão corretos. Os autores do artigo de 2015 descartam seqüências que devem ser logicamente incluídas em suas análises, como descrevo no comentário, e, portanto, introduzem um viés que apóia suas reivindicações. O mundo funciona como deveria.

Adendo em resposta ao comentário: Examinamos a tabela 1 no documento. Vemos que estamos lançando 4 valores da última coluna; portanto, para obter a diferença esperada, calculamos a média de apenas 12 das 16 seqüências. Se olharmos para essas probabilidades como frequências e dissermos, para a primeira linha TTTT, qual é a frequência na qual uma cabeça segue uma cabeça, então logicamente isso sempre acontece, e devemos colocar um 1 no p (H, H ), não um traço. Fazemos isso nas outras três seqüências que jogamos fora e concluímos que o valor esperado da diferença é 0, e não-33. Não podemos simplesmente jogar dados assim, quando há uma interpretação lógica clara dos dados.

Observe que, para fazer desaparecer a deriva, precisamos calcular as probabilidades corretamente, o que não é feito no artigo. As probabilidades na tabela são reivindicadas como sendo a "probabilidade de uma cabeça seguir uma cauda, nesta dada sequência de quatro arremessos". E vemos que, para a linha TTTH, devemos acreditar que a probabilidade é de 1/3. Não é. Há quatro lançamentos na linha e um dos quatro lançamentos nessa linha é o evento "uma cabeça segue uma cauda". A probabilidade é de 1/4. Portanto, calcule as probabilidades corretamente e use todas as linhas para obter a resposta que é aceita há 30 anos.

— user164740
fonte

A questão é se Miller e Sanjurjo (2015) estão corretos ao apontar que pesquisadores anteriores cometeram um erro (e não conseguiram detectar a mão quente). Se sim, por favor explique. Caso contrário, explique também. A questão não é se podemos ou não "simplesmente jogar dados assim" ou se "o mundo funciona como deveria".

— Kenny LJ

Miller e Sanjuro não estão corretos, porque lançam dados que pertencem logicamente à análise e, portanto, introduzem um viés que não existe no mundo.

— user164740