Teste de hipótese de distribuição - qual é o sentido de fazê-lo se você não pode "aceitar" sua hipótese nula?

26

Vários testes de hipóteses, como o GOF, Kolmogorov-Smirnov, Anderson-Darling etc., seguem este formato básico: $\chi^{2}$

$H_0$ : Os dados seguem a distribuição fornecida.

$H_1$ : Os dados não seguem a distribuição fornecida.

Normalmente, avalia-se a afirmação de que alguns dados dados seguem alguma distribuição dada e, se alguém rejeita , os dados não são adequados para a distribuição especificada em algum nível . $H_0$ $\alpha$

Mas e se não rejeitarmos ? Sempre fui ensinado que não se pode "aceitar" , portanto, basicamente, não temos provas de rejeitar . Ou seja, não há evidências de que rejeitamos que os dados sigam a distribuição fornecida. $H_0$ $H_0$ $H_0$

Portanto, minha pergunta é: qual é o sentido de realizar esses testes se não pudermos concluir se os dados seguem ou não uma determinada distribuição?

— Clarinetist
fonte

11

É muito tentador responder apenas "qual é o sentido de testar [em geral] se não se pode aceitar a hipótese nula?". Em todos os casos, os testes estatísticos não são a única base da tomada de decisão. Em vez disso, tomamos uma decisão e usamos dados para quantificar o risco / custo dos erros do tipo I / II. Se apenas resumíssemos a qualidade ou o grau de adequação com gráficos úteis, gráficos de QQ e estatísticas preditivas, seríamos devidamente aconselhados quanto ao risco de "aceitar o nulo".

— Adamo

@AdamO Quando perguntei isso há três anos, havia acabado de concluir um curso de graduação em matemática (ênfase em estatísticas). Agora que estou no meio de um programa de estatísticas da MS e tendo feito algum trabalho profissional, entendo isso agora. É realmente lamentável como as estatísticas são ensinadas em muitos programas de graduação, mas discordo.

— Clarinetist

37

Em termos gerais (não apenas no teste de ajuste de qualidade, mas em muitas outras situações), você simplesmente não pode concluir que o nulo é verdadeiro, porque existem alternativas efetivamente indistinguíveis do nulo em um determinado tamanho de amostra.

Aqui estão duas distribuições, uma normal normal (linha sólida verde) e outra semelhante (90% normal normal e 10% beta padronizada (2,2), marcadas com uma linha tracejada vermelha):

insira a descrição da imagem aqui

O vermelho não é normal. Por exemplo, , temos poucas chances de detectar a diferença, portanto, não podemos afirmar que os dados são extraídos de uma distribuição normal - e se fossem de uma distribuição não normal como a vermelha? $n=100$

Frações menores de betas padronizados com parâmetros iguais mas maiores seriam muito mais difíceis de ver como diferentes de um normal.

Mas, dado que os dados reais quase nunca são de uma distribuição simples, se tivéssemos um oráculo perfeito (ou tamanhos de amostra efetivamente infinitos), essencialmente sempre rejeitaríamos a hipótese de que os dados fossem de alguma forma distributiva simples.

Como George Box disse : " Todos os modelos estão errados, mas alguns são úteis " .

Considere, por exemplo, testar a normalidade. Pode ser que os dados realmente venham de algo próximo do normal, mas eles serão exatamente normais? Eles provavelmente nunca são.

Em vez disso, o melhor que você pode esperar com essa forma de teste é a situação que você descreve. (Veja, por exemplo, a postagem O teste de normalidade é essencialmente inútil?, Mas há várias outras postagens aqui que apontam pontos relacionados)

Isso é parte do motivo pelo qual geralmente sugiro às pessoas que a pergunta na qual elas realmente estão interessadas (que geralmente é algo mais próximo de 'meus dados estão próximos o suficiente da distribuição que eu possa fazer inferências adequadas com base nisso?') É geralmente não é bem respondido pelo teste de qualidade do ajuste. No caso da normalidade, geralmente os procedimentos inferenciais que eles desejam aplicar (testes t, regressão etc.) tendem a funcionar muito bem em amostras grandes - geralmente mesmo quando a distribuição original é claramente claramente não normal - apenas quando uma boa Provavelmente, o teste de adaptação rejeitará a normalidade . É pouco útil ter um procedimento com maior probabilidade de informar que seus dados não são normais apenas quando a pergunta não importa. $F$

Considere a imagem acima novamente. A distribuição vermelha não é normal e, com uma amostra muito grande, poderíamos rejeitar um teste de normalidade com base em uma amostra dela ... mas em um tamanho de amostra muito menor, regressões e dois testes t de amostra (e muitos outros testes além disso) se comportará tão bem que tornará inútil se preocupar com a não normalidade, mesmo que um pouco.

$\mu=\mu_0$

Você pode especificar algumas formas específicas de desvio e observar algo como teste de equivalência, mas é meio complicado com a qualidade do ajuste, porque existem muitas maneiras de uma distribuição estar próxima, mas diferente da hipótese, e diferente formas de diferença podem ter diferentes impactos na análise. Se a alternativa for uma família mais ampla que inclua o nulo como um caso especial, o teste de equivalência fará mais sentido (teste exponencial em relação à gama, por exemplo) - e, de fato, a abordagem do "teste unilateral" continua, e isso pode ser uma maneira de formalizar "próximo o suficiente" (ou seria se o modelo gama fosse verdadeiro, mas, na verdade, seria praticamente certo que ele seria rejeitado por um teste de qualidade de ajuste comum,

O teste de qualidade do ajuste (e geralmente o teste de hipóteses) é realmente adequado apenas para uma gama bastante limitada de situações. A pergunta que as pessoas geralmente querem responder não é tão precisa, mas um pouco mais vaga e mais difícil de responder - mas como John Tukey disse: " Muito melhor uma resposta aproximada à pergunta certa, que geralmente é vaga do que uma resposta exata à pergunta. pergunta errada, que sempre pode ser precisa. "

Abordagens razoáveis para responder a perguntas mais vagas podem incluir investigações de simulação e reamostragem para avaliar a sensibilidade da análise desejada à suposição que você está considerando, em comparação com outras situações que também são razoavelmente consistentes com os dados disponíveis.

$\varepsilon$

— Glen_b -Reinstate Monica
fonte

Glen, esta é uma ótima resposta. Existem mais recursos em "abordagens razoáveis para responder a perguntas mais vagas"? Seria ótimo ver exemplos trabalhados em que as pessoas estão respondendo "meus dados estão próximos o suficiente da distribuição X para meus propósitos?" no contexto.

— Stumpy Joe Pete

2

@StumpyJoePete Há um exemplo de resposta para uma pergunta mais vaga (mas um pouco diferente) aqui , onde a simulação é usada para julgar aproximadamente que tipo de tamanho de amostra pode ser razoável aplicar um teste t com inclinação (por exemplo, exponencial) dados. Então, em uma questão de acompanhamento do OP surgiu com mais informações sobre a amostra (era discreta, e, como se viu, muito mais inclinação do que "exponencial" sugeriria), ... (CTD)

— Glen_b -Reinstate Monica

2

(ctd) ... o problema foi explorado em mais detalhes , novamente usando simulação. É claro que, na prática, é preciso haver mais 'para frente e para trás' para garantir que ele seja adequadamente adaptado às necessidades reais da pessoa, em vez do palpite da explicação inicial.

— Glen_b -Reinstala Monica

Obrigado! Esse é exatamente o tipo de coisa que eu estava procurando.

— Stumpy Joe Pete

17

$P$ -valores menos úteis do que parecem. A estimativa costuma ser uma abordagem melhor, mesmo na avaliação da qualidade do ajuste. Pode-se usar a distância Kolmogorov-Smirnov como medida. É apenas difícil usá-lo sem margem de erro. Uma abordagem conservadora usaria o limite superior de confiança da distância KS para orientar a modelagem. Isso (adequadamente) levaria a muita incerteza, o que pode levar a concluir que a escolha de um método robusto é preferida. Com isso em mente, e voltando ao objetivo original, quando se compara a distribuição empírica a mais do que, digamos, 2 formas paramétricas possíveis, a verdadeira variação da distribuição final ajustada não tem melhor precisão do que a função de distribuição cumulativa empírica. Portanto, se não houver uma teoria do assunto para orientar a seleção da distribuição,

— Frank Harrell
fonte

3

Não consigo entender a razão pela qual isso foi rebaixado; existem alguns ótimos pontos aqui. Ajudaria se a pessoa que votasse abaixo explicasse o que considera ser o problema. Talvez nós aprendêssemos alguma coisa.

— Glen_b -Reinstala Monica

9

Uma visão que eu acho compartilhada pela maioria das pessoas é que o teste de hipóteses é uma adaptação probabilística do princípio da falsificação .

Se uma hipótese sobrevive a tentativas contínuas e sérias de falsificá-la, então "provou seu valor" e pode ser provisoriamente aceita, mas nunca pode ser estabelecida conclusivamente.

$H_0$ $H_0$ $H_0$

— Khashaa
fonte

2

Penso que este é um exemplo perfeito para ilustrar a diferença entre trabalho acadêmico e tomada de decisão prática. Em ambientes acadêmicos (onde estou), você pode argumentar da maneira que quiser, desde que isso seja considerado razoável por outras pessoas. Portanto, basicamente acabamos tendo barreiras intermináveis, às vezes circulares, um com o outro. Nesse sentido, isso fornece às pessoas algo para trabalhar.

No entanto, se você está realmente em posição de realmente tomar decisões, a resposta é um sim ou não definitivo. A indecisão prejudicará sua reputação como tomador de decisão. Obviamente, fazer uma escolha envolve não apenas estatísticas, mas também algumas vezes um elemento de jogo e salto de fé. Em resumo, esse tipo de exercício é até certo ponto útil para a tomada de decisão. No entanto, contar com sua decisão apenas nesse teste de hipótese é uma história completamente diferente.

— LaTeXFan
fonte

2

Isso não está correto IMHO. O melhor livro que li que explica por que alguém toma melhores decisões sempre incorporando incertezas em todas as fases da decisão é The Signal and the Noise, de Nate Silver . Por exemplo, os jogadores winningest de poker são aqueles que nunca acreditam que a probabilidade de uma determinada mão é 0 ou 1.

— Frank Harrell

11

@FrankHarrell: Gostaria de saber como você responderia a perguntas como construir uma estrada ou comprar uma ação. É uma pergunta de sim ou não. Esses são os tipos de perguntas que os tomadores de decisão reais precisam responder.

— LaTeXFan

11

@FrankHarrell Certamente as estatísticas desempenham um papel em ajudar a tomar a decisão. No entanto, do ponto de vista da robustez, tudo o que estamos fazendo é aproximação da realidade. Há toneladas de coisas que a matemática simplesmente não poderia explicar. E é aqui que outros meios entram em ação como instinto.

— LaTeXFan

11

P

$P$

11

@FrankHarrell Obrigado por seus comentários. Penso que a sua distinção entre decisões irrevogáveis e outras é um bom argumento. Em essência, trata-se da dimensão temporal do problema. Dentro de um curto período de tempo, a maioria das decisões é irrevogável. Foi o que aconteceu quando as pessoas são colocadas no local para fazer a ligação. Por outro lado, se pudermos oferecer uma visão de longo prazo, você está certo - é melhor ter um sistema que possa responder a mudanças nas circunstâncias. Mesmo assim, alguns danos, financeiros ou físicos, são inevitáveis.

— LaTeXFan

2

O ponto é que, do ponto de vista estatístico puro, você não pode aceitar , mas na prática aceita . Por exemplo, se você estiver estimando o risco de um portfólio usando medidas de valor em risco ou similares, a distribuição de retorno do portfólio é bastante importante. Isso ocorre porque o risco é definido pela cauda da sua distribuição.

Nos casos de livros didáticos, a distribuição normal é frequentemente usada como exemplo. No entanto, se os retornos do seu portfólio tiverem detalhes (o que geralmente acontecem), a aproximação da distribuição normal subestima os riscos. Portanto, é importante examinar os retornos e decidir se você usará a aproximação normal ou não. Observe que isso não significa necessariamente executar testes estatísticos, pode ser gráficos QQ ou outros meios. No entanto, você precisa tomar uma decisão em algum momento com base na análise de retornos e seus modelos de retorno e usar o normal ou não.

Portanto, para todos os propósitos práticos, não rejeitar significa realmente aceitar, embora não no sentido estatístico estrito. Você vai aceitar o normal e usá-lo em seus cálculos, que serão apresentados à alta gerência diária, a seus reguladores, auditores etc. A não rejeita , neste caso, agora tem profundas consequências em todos os sentidos, por isso é tão ou mais poderoso que o resultado estatístico bobo.

— Aksakal
fonte

0

Nenhum réu em tribunal é inocente. Eles são culpados (rejeitam a hipótese nula de inocente) ou não são culpados (não rejeitam a presunção de inocência).

Ausência de evidência não é evidência de ausência.

— BCLC
fonte

-1

Portanto, minha pergunta é: qual é o sentido de realizar esses testes se não pudermos concluir se os dados seguem ou não uma determinada distribuição?

Se você tem uma distribuição alternativa (ou conjunto de distribuições) em mente para comparar, pode ser uma ferramenta útil.

Eu diria: tenho em mãos um conjunto de observações que acho que podem ser normalmente distribuídas. (Acho que sim, porque vi observações de caráter semelhante que me satisfizeram seguindo sensatamente a curva normal.) Também acho que elas podem não seguir a curva normal, mas sim alguma curva regular e não normal. (Acho que pode ser porque vi corpos de dados como este que não seguem a curva normal, mas que eram, por exemplo, inclinados, etc.) 3 Em seguida, faço uma investigação ao longo das seguintes linhas: Se as observações provém de uma distribuição normal, com que frequência ocorreria um qui-quadrado como eu? A conclusão é: "Muito raramente, apenas duas vezes em cem". Em seguida, faço uma consulta, não declarada e não calculada, mas acredito absolutamente necessária para a conclusão de um argumento válido, da seguinte maneira: Se a distribuição não for normal, essa experiência, julgada por uma diferença de qui-quadrado, ocorreria com bastante frequência. (Tudo o que tenho a fazer é imaginar que a curva não normal tenha o caráter de distorção observado da distribuição.) Portanto, rejeito a hipótese normal com base no princípio de que aceito uma das hipóteses consideradas alternativas nas quais o evento experimentado seria mais freqüente. Eu digo que a rejeição da hipótese nula é válida apenas na disposição de aceitar uma alternativa (essa alternativa não é necessariamente definida com precisão em todos os aspectos). ) Por conseguinte, rejeito a hipótese normal com base no princípio de que aceito uma das hipóteses alternativas consideradas nas quais o evento experimentado seria mais frequente. Eu digo que a rejeição da hipótese nula é válida apenas na disposição de aceitar uma alternativa (essa alternativa não é necessariamente definida com precisão em todos os aspectos). ) Por conseguinte, rejeito a hipótese normal com base no princípio de que aceito uma das hipóteses alternativas consideradas nas quais o evento experimentado seria mais frequente. Eu digo que a rejeição da hipótese nula é válida apenas na disposição de aceitar uma alternativa (essa alternativa não é necessariamente definida com precisão em todos os aspectos).

Agora, a linha de raciocínio que descrevi, em contraste com o que descrevi como o mais usual, explicaria por que minha decisão difere da rotina no terceiro e quarto casos.

Com relação ao terceiro caso, depois de tentar o teste do qui-quadrado, cheguei à conclusão de que, na hipótese de nenhuma diferença em relação à normalidade, raramente ocorreria uma distribuição com um qui-quadrado tão grande. Até agora, estamos exatamente na mesma posição em que estávamos neste ponto no segundo caso. Agora, porém, deixe-me examinar a probabilidade de que essa experiência ocorra se o suprimento original não for normal. Essa experiência ocorreria com mais frequência? Não há razão para dizer isso. A distribuição é perfeitamente simétrica, ou seja, a assimetria é zero (havia exatamente 50% dos casos em cada lado da média), e um exame superficial das diferenças de frequências esperadas nas diferentes classes mostra que elas não são sistêmicas. temática, ou seja, os desvios mais e menos se alternam em ordem aleatória. Essa distribuição não é esperada com freqüência a partir de qualquer curva não normal plausível. Portanto, não temos motivos para rejeitar a curva normal.

Minha opinião é que nunca há uma razão válida para rejeitar a hipótese nula, exceto a disposição de abraçar uma alternativa.

Algumas Dificuldades de Interpretação Encontradas na Aplicação do Teste do Qui-Quadrado. Joseph Berkson. Jornal da Associação Estatística Americana. Vol. 33, nº 203 (setembro de 1938), pp. 526-536

— Lívido
fonte

11

A citação / artigo de Berkson parece relevante e razoável para mim. É do conhecimento popular que, com tamanho de amostra suficientemente grande, qualquer distribuição assumida será rejeitada, mesmo que seja apenas devido a erro de medição. Se acharmos que os dados são improváveis sob alguma distribuição assumida, não deveríamos tentar descobrir qual seria uma melhor escolha? E se não podemos justificar essas outras opções, devemos assumir, se necessário, a distribuição mais simples possível? Alguém pode explicar por que isso foi rebaixado?

— Lívido