Qual é a hipótese nula? Conflito entre teoria científica, lógica e estatística?


20

Estou tendo dificuldades para entender a lógica subjacente ao definir a hipótese nula . Nesta resposta, a proposição obviamente aceita geralmente é declarada que a hipótese nula é a hipótese de que não haverá efeito, tudo permanece o mesmo, ou seja, nada de novo sob o sol, por assim dizer.

A hipótese alternativa é, então, o que você tenta provar, que, por exemplo, um novo medicamento cumpre suas promessas.

Agora, vindo da teoria da ciência e da lógica geral, sabemos que só podemos falsificar proposições, não podemos provar algo (nenhum número de cisnes brancos pode provar que todos os cisnes são brancos, mas um cisne preto pode refutá-lo). É por isso que tentamos refutar a hipótese nula, que não é equivalente a provar a hipótese alternativa - e é aqui que meu ceticismo começa - vou dar um exemplo fácil:

Digamos que eu queira descobrir que tipo de animal está atrás de uma cortina. Infelizmente, não posso observar diretamente o animal, mas tenho um teste que me fornece o número de pernas desse animal. Agora eu tenho o seguinte raciocínio lógico:

Se o animal for um cachorro, ele terá 4 patas.

Se eu realizar o teste e descobrir que ele tem quatro pernas, isso não prova que é um cachorro (pode ser um cavalo, um rinoceronte ou qualquer outro animal de quatro patas). Mas se eu descobrir que ele tem não 4 pernas esta é uma prova definitiva de que ele pode não ser um cão (assumindo um animal saudável).

Traduzido para a eficácia do medicamento, quero descobrir se o medicamento atrás da cortina é eficaz. A única coisa que receberei é um número que me dê o efeito. Se o efeito for positivo, nada será provado (4 pernas). Se não houver efeito, eu refuto a eficácia do medicamento.

Dizendo tudo isso, acho - ao contrário do que é comum - a única hipótese nula válida deve ser

O medicamento é eficaz (ou seja: se o medicamento for eficaz, você verá um efeito).

porque é a única coisa que eu posso refutar - até a próxima rodada em que tento ser mais específico e assim por diante. Portanto, é a hipótese nula que afirma o efeito e a hipótese alternativa é o padrão ( sem efeito ).

Por que os testes estatísticos parecem retroceder?

PS : Você não pode nem negar a hipótese acima para obter uma hipótese equivalente válido, para que você não pode dizer "A droga é não eficaz" como uma hipótese nula porque o formulário apenas logicamente equivalente seria "se você vê nenhum efeito da droga não ser eficaz ", que não leva a lugar algum, porque agora a conclusão é o que você deseja descobrir!

PPS : Apenas para esclarecimento depois de ler as respostas até agora: se você aceita a teoria científica, que só pode falsificar declarações, mas não prová-las, a única coisa que é logicamente consistente é escolher a hipótese nula como a nova teoria - que pode ser então falsificado. Porque se você falsifica o status quo, fica de mãos vazias (o status quo é refutado, mas a nova teoria está longe de ser provada!). E se você falhar em falsificá-lo, também não estará em melhor posição.


3
Dica: "O medicamento é eficaz" não foi quantificado o suficiente para ser uma afirmação científica ou estatística. Como você vai torná-lo quantitativo?
whuber

1
@ whuber: Este é o menor dos meus problemas: diga apenas que, por exemplo, o valor do sangue é reduzido em 10%. Argumento que essa deve ser a hipótese nula - a hipótese alternativa é "Nada acontece".
vonjd

9
Pelo contrário, este é o cerne da questão. É perfeitamente bom nas estatísticas postar um nulo que diz que o efeito é -10%. Seu experimento poderá rejeitá-lo se produzir evidências suficientemente fortes para o contrário. Observe, porém, que (exceto maquinações computacionais e conceituais extraordinárias), você pode testar apenas uma única hipótese por experimento. Observe também que é o raro pesquisador que sabe com tanta precisão qual será o tamanho do efeito (mas ainda sente necessidade de testá-lo!).
whuber

3
Bem, na prática com testes de drogas, o nulo geralmente é interpretado como "a droga não é mais eficaz que o tratamento atual" e a alternativa é "a droga é mais eficaz que o tratamento atual". Aliás, isso tem um tamanho de efeito interno. Com esta formulação, a evidência para a eficácia do fármaco pode rejeitar o nulo. Ao trocar as hipóteses, as evidências da eficácia simplesmente desencorajam a pessoa de rejeitar a alegação de que a droga é boa. No primeiro caso, o ônus da prova é muito mais rigoroso.
whuber

1
@vonjd: Você diz: "se você falsificar o status quo, ficará de mãos vazias". Errado. Se estivéssemos fazendo julgamentos qualitativos "cachorro" / "não cachorro", é verdade que fornecer evidências "não cachorro" não é uma evidência particularmente forte para "cachorro". No entanto, esse é o valor de quantificar as coisas. Se eu fornecer evidência de "não 0", ela fornecerá boas evidências para o valor ser diferente de 0. Se você estiver preocupado em fornecer evidências iguais para um bom efeito e um efeito ruim, use um teste unilateral.
russellpierce

Respostas:


12

Nas estatísticas, existem testes de equivalência, bem como o teste mais comum, o Null, e decidem se há evidências suficientes contra ele. O teste de equivalência inverte isso e postula que os efeitos são diferentes do Nulo e determinamos se há evidência suficiente contra esse Nulo.

Não sou claro sobre o seu exemplo de drogas. Se a resposta for um valor / indicador do efeito, um efeito de 0 indicaria não efetivo. Alguém poderia definir isso como o Nulo e avaliar as evidências contra isso. Se o efeito for suficientemente diferente de zero, concluiríamos que a hipótese de não eficácia é inconsistente com os dados. Um teste bicaudal contaria valores de efeito suficientemente negativos como evidência contra o Nulo. Um teste de uma cauda, ​​o efeito é positivo e suficientemente diferente de zero, pode ser um teste mais interessante.

Se você quiser testar se o efeito é 0, precisaríamos mudar isso e usar um teste de equivalência em que H0 é o efeito não é igual a zero, e a alternativa é que H1 = o efeito = 0. Isso avaliaria a evidência contra a ideia de que o efeito era diferente de 0.


9
Parte da questão aqui é que, IIRC, a razão pela qual selecionamos o não-efeito como Nulo é porque o parâmetro para esse efeito é conhecido, é 0. Se você quiser mudar isso e ter um efeito diferente de zero como o Nulo, precisaremos saber com antecedência qual é o valor desse parâmetro para toda a população e se conhecemos o valor do parâmetro para o valor Nulo. população, não faria sentido testar.
Reinstate Monica - G. Simpson

Bem, parece que teremos o mesmo problema com a hipótese alternativa (também não conhecemos o parâmetro). Então, minha pergunta é: por que não trocar os dois? Isso parece logicamente mais consistente.
vonjd

Vou deixar que outros comentem sobre testes de equivalência. Eles não são o mesmo que apenas trocar as hipóteses em testes padrão, mas eu não estou tão familiarizado com essas idéias. Eu não acho que você esteja certo de que os testes de equivalência sofrem com o problema mencionado nos comentários. Eles são formulados a partir de um ponto de vista teórico muito diferente.
Reintegrar Monica - G. Simpson

5

Acho que esse é outro caso em que as estatísticas freqüentistas não podem dar uma resposta direta à pergunta que você realmente deseja fazer e, portanto, responde a uma pergunta (não tão) sutilmente diferente, e é fácil interpretá-lo como uma resposta direta à pergunta. pergunta que você realmente queria fazer.

O que realmente gostaríamos de perguntar é normalmente qual é a probabilidade de a hipótese alternativa ser verdadeira (ou talvez a probabilidade de ser mais verdadeira do que a hipótese nula). No entanto, uma análise frequentista fundamentalmente não pode responder a essa pergunta, já que uma probabilidade freqüentista é uma frequência de longo prazo e, neste caso, estamos interessados ​​na verdade de uma hipótese específica, que não tem uma frequência de longo prazo - é verdadeiro ou não é. Um bayesiano, por outro lado, pode responder diretamente a essa pergunta, já que uma probabilidade bayesiana é uma medida da plausibilidade de alguma proposição; portanto, é perfeitamente razoável em uma análise bayesiana atribuir uma probabilidade à verdade de uma hipótese específica.

A maneira como os freqüentadores lidam com eventos particulares é tratá-los como uma amostra de alguma população (possivelmente fictícia) e fazer uma declaração sobre essa população no lugar de uma declaração sobre a amostra em particular. Por exemplo, se você deseja saber a probabilidade de uma moeda em particular ser tendenciosa, depois de observar N flips e de h heads and tails, uma análise freqüentista não pode responder a essa pergunta, mas eles podem indicar a proporção de moedas de uma distribuição de moedas imparciais que dariam h ou mais cabeças quando viradas N vezes. Como a definição natural de uma probabilidade que usamos na vida cotidiana geralmente é bayesiana, e não freqüentista, é muito fácil tratar isso como a probabilidade de que a hipótese nula (a moeda seja imparcial) seja verdadeira.

Testes de hipótese essencialmente freqüentistas têm um componente bayesiano subjetivista implícito à espreita. O teste frequentista pode dizer a probabilidade de observar uma estatística pelo menos tão extremada sob a hipótese nula; no entanto, a decisão de rejeitar a hipótese nula por esses motivos é inteiramente subjetiva, não há um requisito racional para você fazer isso. A experiência essencial mostrou que geralmente estamos em terreno razoavelmente sólido para rejeitar o nulo se o valor-p for suficientemente pequeno (novamente o limiar é subjetivo), de modo que é a tradição. AFAICS não se encaixa bem na filosofia ou teoria da ciência, é essencialmente uma heurística.

Isso não significa que é uma coisa ruim, apesar de suas imperfeições, o teste de hipóteses freqüentes fornecer um obstáculo que nossa pesquisa deve superar, o que nos ajuda como cientistas a manter nosso auto-ceticismo e a não se deixar levar pelo entusiasmo por nossas teorias. Portanto, embora eu seja bayesiano de coração, ainda uso regularmente os testes de hipóteses dos freqüentadores (pelo menos até que os revisores de revistas estejam confortáveis ​​com as alternativas de Bayesain).


3

Para adicionar à resposta de Gavin, algumas coisas:

Primeiro, ouvi essa ideia de que proposições só podem ser falsificadas, mas nunca comprovadas. Você poderia postar um link para uma discussão sobre isso, porque, com nossa redação aqui, isso não parece se sustentar muito bem - se X é uma proposição, então não (X) também é uma proposição. Se desaprovar proposições é possível, desaprovar X é o mesmo que provar não (X), e nós provamos uma proposição.

test+

O medicamento é eficaz (ou seja, se o medicamento for eficaz, você verá um efeito).

test+test+H0 0

test+H0 0test+H0 0

Portanto, a diferença entre o caso do cão e o caso da eficácia está na adequação da inferência da evidência à conclusão. No caso do cão, você observou algumas evidências que não implicam fortemente um cão. Mas no caso do estudo clínico, você observou algumas evidências que implicam fortemente eficácia.


1
Obrigado. Se você aceita que pode apenas falsificar declarações, mas não prová-las (vincular em um segundo), a única coisa que é logicamente consistente é escolher a hipótese nula como a nova teoria - que pode ser falsificada. Se você falsificar o status quo, ficará de mãos vazias (o status quo é refutado, mas a nova teoria está longe de ser provada!). Agora para o link, eu acho que um bom ponto de partida seria: en.wikipedia.org/wiki/Falsifiability
vonjd

2
Acho que um ponto a mencionar aqui é que você não está provando ou refutando a hipótese nula. A decisão que você está tomando (classicamente) é reter ou rejeitar a hipótese nula. Quando você rejeita a hipótese nula, não a está refutando. Tudo o que você está fazendo é dizer que, dados os dados observados, a hipótese nula é improvável.
russellpierce

@drknexus: Bem, você não concorda que este é o equivalente probabilístico de falsificação na lógica?
vonjd

4
@drknexus Não seria mais preciso não dizer "dados os dados observados, a hipótese nula é improvável", mas "se a hipótese nula for verdadeira, então esses dados são improváveis"? Confundir esses dois não é o erro clássico nos testes estatísticos de hipóteses?
Michael McGowan

1
MM: Você está correto. Fiquei desleixado na minha redação.
russellpierce

3

Você está certo que, em certo sentido, o teste de hipóteses freqüentista o retrocede. Não estou dizendo que essa abordagem esteja errada, mas que os resultados geralmente não são projetados para responder às perguntas pelas quais o pesquisador está mais interessado. Se você deseja uma técnica mais semelhante ao método científico, tente a inferência bayesiana .

Em vez de falar sobre uma "hipótese nula" que você pode rejeitar ou deixar de rejeitar, com a inferência bayesiana, você começa com uma distribuição de probabilidade anterior com base no seu entendimento da situação em questão. Quando você adquire novas evidências, a inferência bayesiana fornece uma estrutura para você atualizar sua crença com as evidências levadas em consideração. Eu acho que isso é mais parecido com o funcionamento da ciência.


3

Acho que você tem um erro fundamental aqui (não que toda a área de teste de hipóteses seja clara!), Mas você diz que a alternativa é o que tentamos provar. Mas isso não está certo. Tentamos rejeitar (falsificar) o nulo. Se os resultados obtidos forem muito improváveis ​​se o nulo for verdadeiro, rejeitamos o nulo.

Agora, como outros disseram, essa não é geralmente a pergunta que queremos fazer: Normalmente, não nos importamos com a probabilidade dos resultados se o nulo for verdadeiro, mas com a probabilidade do nulo, considerando os resultados.



2

Vou expandir a menção de Paul Meehl por @Doc:

1) Testar o oposto de sua hipótese de pesquisa como a hipótese nula torna possível apenas afirmar o consequente que é um argumento "formalmente inválido". As conclusões não seguem necessariamente a premissa.

If Bill Gates owns Fort Knox, then he is rich.
Bill Gates is rich.
Therefore, Bill Gates owns Fort Knox.

http://rationalwiki.org/wiki/Affirming_the_consequent

Se a teoria for "Este medicamento melhorará a recuperação" e você observar uma recuperação melhorada, isso não significa que você pode dizer que sua teoria é verdadeira. A aparência de recuperação aprimorada pode ter ocorrido por algum outro motivo. Dois grupos de pacientes ou animais não serão exatamente iguais na linha de base e sofrerão alterações adicionais ao longo do tempo durante o estudo. Esse é um problema maior para pesquisa observacional do que experimental porque a randomização "defende" contra desequilíbrios graves de fatores de confusão desconhecidos na linha de base. No entanto, a randomização não resolve realmente o problema. Se os conflitos são desconhecidos, não temos como saber até que ponto a "defesa de randomização" foi bem-sucedida.

Veja também a tabela 14.1 e a discussão sobre por que nenhuma teoria pode ser testada por si mesma (sempre há fatores auxiliares que acompanham) em:

Paul Meehl. "O problema é epistemologia, não estatística: substitua testes de significância por intervalos de confiança e quantifique a precisão de previsões numéricas arriscadas" Em LL Harlow, SA Mulaik, e JH Steiger (Eds.), E se não houvesse testes de significância? (pp. 393-425) Mahwah, NJ: Erlbaum, 1997.

2) Se algum tipo de viés é introduzido (por exemplo, desequilíbrio em alguns fatores de confusão), não sabemos em que direção esse viés se encontrará ou quão forte é. O melhor palpite que podemos dar é que há 50% de chance de influenciar o grupo de tratamento na direção de uma recuperação mais alta. À medida que os tamanhos das amostras aumentam, também há 50% de chance de o seu teste de significância detectar essa diferença e você interpretar os dados como corroborando sua teoria.

Esta situação é totalmente diferente do caso de uma hipótese nula de que "Este medicamento melhorará a recuperação em x%". Nesse caso, a presença de qualquer viés (que eu diria que sempre existe na comparação de grupos de animais e humanos) aumenta a probabilidade de você rejeitar sua teoria.

Pense no "espaço" (Meehl chama de "Spielraum") de possíveis resultados limitados pelas medidas mais extremas possíveis. Talvez possa haver uma recuperação de 0 a 100% e você pode medir com resolução de 1%. No caso de teste de significância comum, o espaço consistente com sua teoria será de 99% dos resultados possíveis que você poderá observar. No caso em que você prevê uma diferença específica, o espaço consistente com sua teoria será de 1% dos resultados possíveis.

Outra maneira de dizer isso é que encontrar evidências contra uma hipótese nula de mean1 = mean2 não é um teste severo da hipótese de pesquisa de que uma droga faz alguma coisa. Um nulo de média1 <média2 é melhor, mas ainda não é muito bom.

Veja as figuras 3 e 4 aqui: (1990). Avaliação e alteração de teorias: A estratégia de defesa lakatosiana e dois princípios que justificam seu uso . Inquérito Psicológico, 1, 108-141, 173-180


0

Nem todas as estatísticas têm como premissa que nada é certo no mundo natural (distinto do mundo dos jogos criado pelo homem etc.). Em outras palavras, a única maneira de chegarmos perto de entendê-la é medindo a probabilidade de que uma coisa se correlacione com outra e isso varia entre 0 e 1, mas só pode ser 1 se pudermos testar a hipótese um número infinito de vezes em um número infinito de circunstâncias diferentes, o que obviamente é impossível. E nunca podemos saber que foi zero pelo mesmo motivo. É uma abordagem mais confiável para entender a realidade da natureza do que a matemática, que lida com absolutos e depende principalmente de equações, que sabemos serem idealistas porque se, literalmente, o lado LH de uma equação realmente = o lado direito, os dois lados poderia ser revertido e não aprenderíamos nada. A rigor, aplica-se apenas a um mundo estático, não a um mundo "natural" que é intrinsecamente turbulento. Portanto, a hipótese nula deve até subscrever a matemática - sempre que usada para entender a própria natureza.


0

Eu acho que o problema está na palavra 'verdadeiro'. A realidade do mundo natural é inatamente desconhecida, pois é infinitamente complexa e infinitamente variável ao longo do tempo; portanto, a 'verdade' aplicada à natureza é sempre condicional. Tudo o que podemos fazer é tentar encontrar níveis de correspondência provável entre variáveis ​​por experimentos repetidos. Em nossa tentativa de dar sentido à realidade, procuramos o que parece ordem nele e construímos modelos conceitualmente conscientes disso em nossa mente para nos ajudar a tomar decisões sensatas, mas é um caso de acerto e falha, porque sempre há o inesperado. A hipótese nula é o único ponto de partida confiável em nossa tentativa de dar sentido à realidade.


1
Eu acho que você deve mesclar suas duas respostas.
vonjd 16/08/16

-1

Devemos selecionar a hipótese nula aquela que queremos rejeitar.

Como em nosso cenário de teste de hipóteses, há uma região crítica. Se a região sob hipótese vier em região crítica, rejeitamos a hipótese, caso contrário aceitamos a hipótese.

Então, suponha que selecionemos a hipótese nula, a que queremos aceitar. E a região sob hipótese nula não se encontra sob região crítica. Portanto, aceitaremos a hipótese nula. Mas o problema aqui é que se a região sob hipótese nula estiver sob região aceitável, isso não significa que a região sob hipótese alternativa não estará sob região aceitável. E se esse for o caso, nossa interpretação sobre o resultado estará errada. Portanto, devemos apenas tomar essa hipótese como hipótese nula que queremos rejeitar. Se somos capazes de rejeitar a hipótese nula, significa que a hipótese alternativa é verdadeira. Mas se não formos capazes de rejeitar a hipótese nula, isso significa que qualquer uma das duas hipóteses pode estar correta. Pode ser que possamos fazer outro teste, no qual podemos tomar nossa hipótese alternativa como hipótese nula, e então podemos tentar rejeitá-lo. Se formos capazes de rejeitar a hipótese alternativa (que agora é hipótese nula), podemos dizer que nossa hipótese nula inicial era verdadeira.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.