Qual é o significado dos valores de p nos valores estatísticos?

246

Depois de fazer um curso de estatística e depois tentar ajudar os colegas, notei que um assunto que inspira muita batida na mesa é a interpretação dos resultados dos testes estatísticos de hipóteses. Parece que os alunos aprendem facilmente como executar os cálculos exigidos por um determinado teste, mas ficam confusos na interpretação dos resultados. Muitas ferramentas computadorizadas relatam os resultados dos testes em termos de "valores p" ou "valores t".

Como você explicaria os seguintes pontos aos estudantes universitários que fazem o primeiro curso de estatística:

O que significa um "valor-p" em relação à hipótese que está sendo testada? Existem casos em que se deve procurar um valor p alto ou baixo?
Qual é a relação entre um valor p e um valor t?

— Sharpie
fonte

11

Uma boa parte disso é basicamente coberta pela primeira frase do artigo da Wikipedia sobre valores de p , que define corretamente um valor de p. Se isso for entendido, muito será esclarecido.

— Glen_b

1

É só pegar o livro: Statistics without Tears. Pode salvar sua sanidade !!

7

@ user48700 Você poderia resumir como o Statistics Without Tears explica isso?

— Matt Krause

5

Alguém deveria desenhar um gráfico de perguntas p-valor relacionados com o tempo e eu aposto que vamos ver a sazonalidade e correlação com calendários acadêmicos em faculdades ou aulas de ciência de dados Coursera

— Aksakal

Além de outras recomendações de livros relevantes e agradáveis nas respostas e comentários, eu gostaria de sugerir outro livro, apropriadamente chamado "O que é um valor-p?" .

— Aleksandr Blekh

150

Entendendo o valor- $p$

Suponha, que pretende testar a hipótese de que a altura média dos estudantes do sexo masculino na sua Universidade é pés polegadas. Você coleciona alturas de alunos selecionados aleatoriamente e calcula a média da amostra (digamos que ela tenha pés polegadas). Usando uma fórmula apropriada / rotina estatística, você calcula o valor de para sua hipótese e diz que é . $5$ $7$ $100$ $5$ $9$ $p$ $0.06$

Para interpretar adequadamente, devemos ter em mente várias coisas: $p=0.06$

O primeiro passo no teste clássico de hipóteses é a suposição de que a hipótese em consideração é verdadeira. (Em nosso contexto, assumimos que a verdadeira altura média é de pés polegadas.) $5$ $7$
Imagine fazer o seguinte cálculo: Calcule a probabilidade de que a média da amostra seja superior a pés polegadas, assumindo que nossa hipótese seja de fato correta (consulte o ponto 1). $5$ $9$

Em outras palavras, queremos saber

P (S uma m p eu e m e uma n \geq 5 f t 9 Eu n c h e s | T r você e v uma eu você e = 5 f t 7 Eu n c h e s) .

$\mathrm{P}(\mathrm{Sample\: mean} \ge 5 \:\mathrm{ft} \:9 \:\mathrm{inches} \:|\: \mathrm{True\: value} = 5 \:\mathrm{ft}\: 7\: \mathrm{inches}).$

O cálculo na etapa 2 é chamado de valor- . Portanto, um valor- de significaria que, se repetirmos nosso experimento muitas e muitas vezes (sempre que selecionarmos alunos aleatoriamente e calcularmos a média da amostra), então vezes em , podemos esperar ver uma amostra média maior ou igual a pés polegadas. $p$ $p$ $0.06$ $100$ $6$ $100$ $5$ $9$

Dado o entendimento acima, ainda devemos manter nossa suposição de que nossa hipótese é verdadeira (consulte a etapa 1)? Bem, um indica que uma das duas coisas aconteceu: $p=0.06$

(A) Ou nossa hipótese está correta e ocorreu um evento extremamente improvável (por exemplo, todos os estudantes são atletas) $100$

ou

(B) Nossa suposição é incorreta e a amostra que obtivemos não é tão incomum.

A maneira tradicional de escolher entre (A) e (B) é escolher um ponto de corte arbitrário para . Escolhemos (A) se e (B) se . $p$ $p > 0.05$ $p < 0.05$

— direitos
fonte

3

Não tenha pressa! Não estarei pensando em selecionar uma "Melhor resposta" por mais ou menos uma semana.

— Sharpie

1

Agora que tive a chance de voltar e ler toda a resposta - um grande +1 para o exemplo de altura do aluno. Muito claro e bem definido.

— Sharpie

3

Bom trabalho ... mas precisamos adicionar (C) nosso modelo (incorporado na fórmula / rotina estatística) está errado.

— Andrew Robinson

6

Um valor t (ou qualquer outra estatística de teste) é principalmente uma etapa intermediária. Basicamente, algumas estatísticas provaram, sob algumas suposições, ter uma distribuição bem conhecida. Como sabemos a distribuição da estatística de teste sob o valor nulo, podemos usar tabelas padrão (hoje principalmente software) para derivar um valor-p.

— Gala

1

O valor de p não é derivado como resultado da realização do teste do qui-quadrado e depois da tabela do qui-quadrado? Estou me perguntando como é que a probabilidade calculada acima indicou o próprio valor p ?!

— London guy

123

Um diálogo entre um professor e um aluno atencioso

Humildemente submetido na crença de que não foram usados lápis de cera suficientes até agora neste tópico. Uma breve sinopse ilustrada aparece no final.

Aluno : O que significa um valor-p? Muitas pessoas parecem concordar que é a chance de "vermos uma média da amostra maior ou igual a" uma estatística ou "a probabilidade de observar esse resultado ... dada a hipótese nula é verdadeira" ou onde "a estatística da minha amostra caiu sobre uma distribuição [simulada] " e até " a probabilidade de observar uma estatística de teste pelo menos tão grande quanto a calculada assumindo que a hipótese nula é verdadeira " .

Mestre : Entendidas corretamente, todas essas afirmações estão corretas em muitas circunstâncias.

Aluno : Não vejo como a maioria deles é relevante. Você não nos ensinou que precisamos declarar uma hipótese nula e uma hipótese alternativa ? Como eles estão envolvidos nessas idéias de "maior que ou igual a" ou "pelo menos tão grande" ou o muito popular "mais extremo"? $H_0$ $H_A$

Professor : Como pode parecer complicado em geral, ajudaria a explorar um exemplo concreto?

Aluno : Claro. Mas faça com que seja realista, mas simples, se puder.

Professor : Essa teoria do teste de hipóteses começou historicamente com a necessidade dos astrônomos de analisar erros observacionais, então que tal começar por aí. Eu estava examinando alguns documentos antigos um dia em que um cientista descreveu seus esforços para reduzir o erro de medição em seu aparelho. Ele havia feito muitas medições de uma estrela em uma posição conhecida e registrado seus deslocamentos à frente ou atrás dessa posição. Para visualizar esses deslocamentos, ele desenhou um histograma que - quando suavizado um pouco - se parecia com este.

Figura 1: Histograma de deslocamentos

Aluno : Lembro como os histogramas funcionam: o eixo vertical é rotulado como "Densidade" para me lembrar que as frequências relativas das medidas são representadas por área e não por altura.

Professor : Isso mesmo. Um valor "incomum" ou "extremo" seria localizado em uma região com uma área muito pequena. Aqui está um giz de cera. Você acha que poderia colorir em uma região cuja área é apenas um décimo do total?

Aluno : Claro; isso é fácil. [Cores na figura.]

Figura 2: A primeira coloração do aluno.

Professor : Muito bom! Isso parece cerca de 10% da área para mim. Lembre-se, porém, que as únicas áreas no histograma que importam são aquelas entre linhas verticais: elas representam a chance ou probabilidade de que o deslocamento esteja localizado entre essas linhas no eixo horizontal. Isso significa que você precisava colorir todo o caminho até o fundo e isso seria mais da metade da área, não é?

Aluno : Entendo. Deixe-me tentar de novo. Vou querer colorir onde a curva é realmente baixa, não é? É mais baixo nas duas extremidades. Preciso colorir em apenas uma área ou seria bom dividi-lo em várias partes?

Professor : Usar várias partes é uma ideia inteligente. Onde eles estariam?

Aluno (apontando): Aqui e aqui. Como esse lápis não é muito afiado, usei uma caneta para mostrar as linhas que estou usando.

Figura 3: A segunda coloração do aluno

Professor : Muito bom! Deixe-me contar o resto da história. O cientista fez algumas melhorias em seu dispositivo e, em seguida, ele tomou medidas adicionais. Ele escreveu que o deslocamento do primeiro era de apenas , o que ele considerava um bom sinal, mas, sendo um cientista cuidadoso, passou a fazer mais medições como verificação. Infelizmente, essas outras medidas são perdidas - o manuscrito é interrompido neste momento - e tudo o que temos é esse número único, . $0.1$ $0.1$

Aluno : Isso é muito ruim. Mas isso não é muito melhor do que a grande variedade de deslocamentos em sua figura?

Professor : Essa é a pergunta que eu gostaria que você respondesse. Para começar, o que devemos colocar como ? $H_0$

Aluno : Bem, um cético se pergunta se as melhorias feitas no dispositivo têm algum efeito. O ônus da prova está no cientista: ele gostaria de mostrar que o cético está errado. Isso me faz pensar que a hipótese nula é meio ruim para o cientista: diz que todas as novas medidas - incluindo o valor de que conhecemos - devem se comportar conforme descrito no primeiro histograma. Ou talvez ainda pior do que isso: eles podem estar ainda mais espalhados. $0.1$

Professor : Continue, você está indo bem.

Aluno : E então a alternativa é que as novas medidas sejam menos difundidas, certo?

Professor : Muito bom! Você poderia me desenhar uma imagem de como seria um histograma com menos propagação? Aqui está outra cópia do primeiro histograma; você pode desenhar sobre ela como uma referência.

Aluno (desenho): estou usando uma caneta para delinear o novo histograma e estou colorindo a área abaixo dele. Eu fiz isso para que a maior parte da curva esteja próxima de zero no eixo horizontal e a maior parte de sua área esteja próxima de um valor (horizontal) de zero: é isso que significa ser menos disperso ou mais preciso.

Figura 4: O novo histograma do aluno

Professor : Esse é um bom começo. Mas lembre-se de que um histograma mostrando chances deve ter uma área total de . A área total do primeiro histograma é, portanto, . Quanta área está dentro do seu novo histograma? $1$ $1$

Aluno : Acho que menos da metade. Vejo que é um problema, mas não sei como corrigi-lo. O que devo fazer?

Professor : O truque é tornar o novo histograma mais alto que o antigo para que sua área total seja . Aqui, mostrarei uma versão gerada por computador para ilustrar. $1$

Figura 5: O novo histograma do professor

Aluno : Entendi: você esticou verticalmente para que seu formato não mudasse realmente, mas agora a área vermelha e a área cinza (incluindo a parte sob o vermelho) são as mesmas quantidades.

Professor : Certo. Você está vendo uma imagem da hipótese nula (em azul, espalhada) e parte da hipótese alternativa (em vermelho, com menos propagação).

Aluno : O que você quer dizer com "parte" da alternativa? Não é apenas a hipótese alternativa?

Professor : Estatísticos e gramática parecem não se misturar. :-) Sério, o que eles querem dizer com "hipótese" geralmente é um grande conjunto de possibilidades. Aqui, a alternativa (como você disse antes) é que as medidas são "menos difundidas" do que antes. Mas quanto menos ? Existem muitas possibilidades. Aqui, deixe-me mostrar outra. Eu desenhei com traços amarelos. Está entre os dois anteriores.

Figura 6: O nulo junto com dois elementos da alternativa

Aluno : Entendo: você pode ter quantidades diferentes de spread, mas não sabe de antemão quanto será realmente o spread. Mas por que você fez o sombreamento engraçado nessa foto?

Professor : Eu queria destacar onde e como os histogramas diferem. Eu os sombrei em cinza, onde os histogramas alternativos são menores que o nulo e em vermelho, onde as alternativas são maiores .

Aluno : Por que isso importa?

Professor : Você se lembra de como pintou o primeiro histograma nas duas caudas? [Examinando os papéis.] Ah, aqui está. Vamos colorir esta imagem da mesma maneira.

Figura 7: O nulo e alternativo, colorido.

Aluno : Lembro-me: esses são os valores extremos. Encontrei os locais onde a densidade nula era a menor possível e colori 10% da área.

Professor : Conte-me sobre as alternativas nessas áreas extremas.

Aluno : É difícil ver, porque o giz de cera o encobriu, mas parece que quase não há chance de haver alternativa nas áreas que eu pintei. Seus histogramas estão diretamente no eixo do valor e não há espaço para nenhuma área abaixo deles.

Professor : Vamos continuar com esse pensamento. Se eu lhe dissesse, hipoteticamente, que uma medida teve um deslocamento de , e lhe pedisse para escolher qual desses três histogramas era o mais provável, de qual seria? $-2$

Aluno : O primeiro - o azul. É o mais difundido e é o único onde parece ter alguma chance de ocorrer. $-2$

Professor : E o valor de no manuscrito? $0.1$

Aluno : Hmmm ... essa é uma história diferente. Todos os três histogramas estão bem acima do solo em . $0.1$

Professor : OK, é justo. Mas suponha que eu tenha lhe dito que o valor estava próximo de , como entre e . Isso ajuda você a ler algumas probabilidades desses gráficos? $0.1$ $0$ $0.2$

Aluno : Claro, porque eu posso usar áreas. Eu só tenho que estimar as áreas abaixo de cada curva entre e . Mas isso parece muito difícil. $0$ $0.2$

Professor : Você não precisa ir tão longe. Você pode apenas dizer qual área é a maior?

Aluno : Aquele abaixo da curva mais alta, é claro. Todas as três áreas têm a mesma base; portanto, quanto maior a curva, maior a área abaixo dela e da base. Isso significa que o histograma mais alto - o que eu desenhei, com os traços vermelhos - é o mais provável para um deslocamento de . Acho que vejo aonde você está indo com isso, mas estou um pouco preocupado: não preciso procurar todos os histogramas para todas as alternativas, não apenas a uma ou duas mostradas aqui? Como eu poderia fazer isso? $0.1$

Professor : Você é bom em captar padrões, então me diga: como o aparelho de medição é cada vez mais preciso, o que acontece com o histograma?

Aluno : Ele fica mais estreito - ah, e também tem que ficar mais alto, para que sua área total permaneça a mesma. Isso torna muito difícil comparar os histogramas. As alternativas são todas mais altas do que o nulo à direita em , isso é óbvio. Mas, em outros valores, às vezes as alternativas são mais altas e às vezes são menores! Por exemplo, [apontando para um valor próximo de ], aqui a minha histograma vermelho é o mais baixo, o histograma amarelo é o mais alto, e o histograma nula original está entre eles. Mas, à direita, o nulo é o mais alto. $0$ $3/4$

Professor : Em geral, comparar histogramas é um negócio complicado. Para nos ajudar, pedi ao computador que fizesse outro gráfico: dividiu cada uma das alturas alternativas do histograma (ou "densidades") pela altura nula do histograma, criando valores conhecidos como "razões de verossimilhança". Como resultado, um valor maior que significa que a alternativa é mais provável, enquanto um valor menor que significa que a alternativa é menos provável. Ele desenhou mais uma alternativa: é mais espalhada que as outras duas, mas ainda menos espalhada que o aparelho original. $1$ $1$

Figura 8: Razões de verossimilhança

Professor (continuação): Você poderia me mostrar onde as alternativas tendem a ser mais prováveis que as nulas?

Aluno (colorindo): Aqui no meio, obviamente. E como esses não são mais histogramas, acho que devemos olhar para as alturas, e não para as áreas, então estou apenas marcando uma faixa de valores no eixo horizontal. Mas como sei quanto do meio deve ser colorido? Onde eu paro de colorir?

Figura 9: Gráficos de razão de verossimilhança marcada

Professor : Não existe uma regra firme. Tudo depende de como planejamos usar nossas conclusões e de quão ferozes são os céticos. Mas sentar e pensar sobre o que você tem feito: agora você percebe que os resultados obtidos com razões de probabilidade grandes são evidência para a alternativa e os resultados com razões de probabilidade pequenas são evidência contra a alternativa. O que vou pedir para você fazer é colorir em uma área que, na medida do possível, tenha uma pequena chance de ocorrer sob a hipótese nula e uma chance relativamente grande de ocorrer sob as alternativas. Voltando ao primeiro diagrama que você pintou, bem no começo de nossa conversa, você pintou as duas caudas do nulo porque eram "extremas". Eles ainda fariam um bom trabalho?

Aluno : Acho que não. Mesmo sendo bastante extremos e raros sob a hipótese nula, são praticamente impossíveis para qualquer uma das alternativas. Se minha nova medida fosse, digamos , acho que ficaria do lado do cético e negaria que alguma melhoria tivesse ocorrido, mesmo que tenha sido um resultado incomum em qualquer caso. Eu quero mudar essa coloração. Aqui - deixe-me tomar outro giz de cera. $3.0$ $3.0$

Figura 10: Marcação aprimorada

Professor : O que isso representa?

Aluno : Começamos com você me pedindo para desenhar apenas 10% da área sob o histograma original - o que descreve o nulo. Então agora eu atraí 10% da área onde as alternativas parecem mais prováveis de ocorrer. Eu acho que quando uma nova medida é nessa área, está nos dizendo que devemos acreditar na alternativa.

Mestre : E como o cético deve reagir a isso?

Aluno : Um cético nunca tem que admitir que está errado, não é? Mas acho que a fé dele deve estar um pouco abalada. Afinal, organizamos para que, embora uma medida possa estar dentro da área que acabei de desenhar, ela só tem 10% de chance de estar lá quando o nulo for verdadeiro. E tem uma chance maior de estar lá quando a alternativa é verdadeira. Eu simplesmente não posso te dizer o quanto essa chance é maior, porque dependeria de quanto o cientista melhorasse o aparato. Eu apenas sei que é maior. Portanto, a evidência seria contra o cético.

Professor : Tudo bem. Você se importaria de resumir sua compreensão para que fiquemos perfeitamente claros sobre o que aprendeu?

Aluno : Aprendi que, para comparar hipóteses alternativas a nulas, devemos comparar seus histogramas. Dividimos as densidades das alternativas pela densidade do nulo: foi o que você chamou de "razão de verossimilhança". Para fazer um bom teste, devo escolher um número pequeno, como 10% ou o que for suficiente para abalar um cético. Então, devo encontrar valores em que a taxa de verossimilhança seja a mais alta possível e colori-los até que 10% (ou o que seja) tenha sido colorido.

Professor : E como você usaria essa coloração?

Aluno : Como você me lembrou anteriormente, a coloração deve estar entre as linhas verticais. Valores (no eixo horizontal) que ficam embaixo da coloração são evidências contra a hipótese nula. Outros valores - bem, é difícil dizer o que eles significam sem dar uma olhada mais detalhada em todos os histogramas envolvidos.

$0.1$

Aluno : Isso está na área que eu colori pela última vez, então acho que o cientista provavelmente estava certo e o aparato realmente foi melhorado.

Professor : Uma última coisa. Sua conclusão foi baseada em escolher 10% como critério ou "tamanho" do teste. Muitas pessoas gostam de usar 5%. Alguns preferem 1%. O que você poderia dizer a eles?

$0$ $0.1$ $0.05$ $0.1$ $0.08$ $0.1$ . Eles não chegariam à mesma conclusão que eu: diriam que não há provas suficientes de que uma mudança realmente ocorreu.

$0.08$

Aluno : Obrigado. Ainda não estou confiante de que compreendi tudo isso, mas você me deu muito em que pensar.

Professor : Se você quiser ir além, dê uma olhada no lema Neyman-Pearson . Você provavelmente está pronto para entender isso agora.

Sinopse

$z$ $t$ $t=0.1$

Figura 11: valor-p como uma área.

$0$ $t=0.1$ é atingido. O valor p é a área da região sombreada sob o histograma nulo: é a chance, assumindo que o nulo é verdadeiro, de observar um resultado cujas razões de probabilidade tendem a ser grandes, independentemente de qual alternativa seja verdadeira. Em particular, essa construção depende intimamente da hipótese alternativa. Não pode ser realizado sem especificar as alternativas possíveis.

— whuber
fonte

4

Isso lidou excelentemente com o meu comentário sobre outra resposta, que nenhuma das respostas anteriores a essa pergunta abordou, em geral, o aspecto "ou mais extremo" comumente ouvido de um valor- p . (Embora a resposta "teste do chá" tenha incluído um bom exemplo específico.) Admiro particularmente a maneira como esse exemplo foi deliberadamente construído para destacar que "mais extremo" pode significar o contrário de "maior" ou "mais longe do zero".

— Silverfish

4

H_{1}

$H_1$ " ou "mais persuasivas de

H_{1}

$H_1$

3

Exclusivamente perspicaz como sempre, obrigado por reservar um tempo para escrever essas respostas incrivelmente úteis. Eu realmente me pergunto por que os livros didáticos nunca são escritos de uma maneira que ofereça algo próximo a esses níveis de clareza e intuição.

— jeremy radcliff

Eu acho que um link para uma definição de wrt probabilidade este exemplo poderia ser benéfico

— Baxx

1

É perigoso usar sarcasmo em um comentário, @baxx, porque não há espaço suficiente para fazê-lo de forma educada e elegante. Portanto, geralmente não é uma boa idéia supor que um comentário seja sarcástico, a menos que seja explicitamente indicado. Suponha que os comentários se destinem a ajudá-lo. Se você simplesmente seguisse o primeiro hit da pesquisa que forneci, acho que suas perguntas seriam respondidas.

— whuber

44

Antes de abordar este tópico, sempre me certifico de que os alunos estejam felizes em mudar entre porcentagens, decimais, probabilidades e frações. Se eles não estiverem completamente satisfeitos com isso, poderão se confundir rapidamente.

Gosto de explicar o teste de hipóteses pela primeira vez (e, portanto, valores de p e estatísticas de teste) através do clássico experimento de chá de Fisher. Eu tenho várias razões para isso:

(i) Acho que trabalhar com um experimento e definir os termos à medida que avançamos faz mais sentido do que apenas definir todos esses termos para começar. (ii) Você não precisa confiar explicitamente nas distribuições de probabilidade, nas áreas abaixo da curva etc. para superar os pontos principais do teste de hipóteses. (iii) Explica essa noção ridícula de "tão ou mais extremada do que as observadas" de uma maneira bastante sensata. (iv) Acho que os alunos gostam de entender a história, as origens e a história do que estão estudando, pois isso torna mais real. do que algumas teorias abstratas. (v) Não importa de que disciplina ou disciplina os alunos venham, eles podem se relacionar com o exemplo do chá (Nota: alguns estudantes internacionais têm dificuldade com essa instituição britânica peculiar de chá com leite).

[Nota: originalmente, peguei essa ideia no maravilhoso artigo de Dennis Lindley "A análise de dados experimentais: a apreciação do chá e do vinho", no qual ele demonstra por que os métodos bayesianos são superiores aos métodos clássicos.]

A história por trás é que Muriel Bristol visita Fisher uma tarde na década de 1920 na Estação Experimental de Rothamsted para uma xícara de chá. Quando Fisher colocou o leite por último, ela reclamou dizendo que também podia dizer se o leite foi derramado primeiro (ou por último) e que ela preferia o primeiro. Para colocar isso à prova, ele projetou seu clássico experimento de chá, onde Muriel recebe um par de xícaras de chá e ela deve identificar qual teve o leite adicionado primeiro. Isso é repetido com seis pares de xícaras de chá. Suas escolhas são Certo (R) ou Errado (W) e seus resultados são: RRRRRW.

Suponha que Muriel esteja realmente adivinhando e não tenha capacidade de discriminar. Isso é chamado de hipótese nula . Segundo Fisher, o objetivo do experimento é desacreditar essa hipótese nula. Se Muriel está adivinhando, ela identificará a xícara de chá corretamente com probabilidade 0,5 em cada turno e, como são independentes, o resultado observado terá 0,5 $^6$

(a) a hipótese nula (Muriel está supondo) é verdadeira e ocorreu um evento de pequena probabilidade ou,

(b) a hipótese nula é falsa e Muriel possui poderes discriminatórios.

O valor p (ou valor de probabilidade) é a probabilidade de observar esse resultado (RRRRRW), dada a hipótese nula ser verdadeira - é a pequena probabilidade mencionada em (a) acima. Nesse caso, é 0,016. Como eventos com pequenas probabilidades ocorrem apenas raramente (por definição) a situação (b) pode ser uma explicação mais preferível do que ocorreu do que a situação (a). Quando rejeitamos a hipótese nula, estamos de fato aceitando a hipótese oposta, que chamamos de hipótese alternativa. Neste exemplo, Muriel tem poderes discriminatórios é a hipótese alternativa.

Uma consideração importante é o que classificamos como uma probabilidade "pequena"? Qual é o ponto de corte em que estamos dispostos a dizer que um evento é improvável? A referência padrão é de 5% (0,05) e isso é chamado de nível de significância. Quando o valor-p é menor que o nível de significância, rejeitamos a hipótese nula como falsa e aceitamos nossa hipótese alternativa. É comum dizer que um resultado é "significativo" quando o valor-p é menor que o nível de significância, ou seja, quando a probabilidade do que observamos ocorrendo, dada a hipótese nula é verdadeira, é menor que o nosso ponto de corte. É importante deixar claro que o uso de 5% é completamente subjetivo (assim como os outros níveis de significância comuns de 1% e 10%).

Fisher percebeu que isso não funciona; todo resultado possível com um par errado era igualmente sugestivo de poderes discriminatórios. A probabilidade relevante para a situação (a) acima é, portanto, 6 (0,5) ^ 6 = 0,094 (ou 6/64), que agora é não significativa no nível de significância de 5%. Para superar isso, Fisher argumentou que se 1 erro em 6 é considerado evidência de poderes discriminatórios, também não há erros, isto é, resultados que indicam mais fortemente poderes discriminatórios do que o observado devem ser incluídos no cálculo do valor-p. Isso resultou na seguinte emenda ao raciocínio:

(a) a hipótese nula (Muriel está supondo) é verdadeira e a probabilidade de eventos como, ou mais, extremos do que a observada é pequena, ou

(b) a hipótese nula é falsa e Muriel possui poderes discriminatórios.

De volta à nossa experiência com o chá, descobrimos que o valor de p nessa configuração é 7 (0,5) ^ 6 = 0,109, o que ainda não é significativo no limite de 5%.

Em seguida, levo os alunos a trabalhar com alguns outros exemplos, como o lançamento de moedas, para descobrir se uma moeda é ou não justa. Isso detalha os conceitos da hipótese nula / alternativa, valores de p e níveis de significância. Passamos então para o caso de uma variável contínua e introduzimos a noção de estatística de teste. Como já abordamos a distribuição normal, a distribuição normal padrão e a transformação z em profundidade, é apenas uma questão de juntar vários conceitos.

Além de calcular as estatísticas dos testes, os valores de p e tomar uma decisão (significativa / não significativa), faço com que os alunos trabalhem com artigos publicados em um preenchimento do jogo de espaços em branco ausentes.

— Graham Cookson
fonte

2

Sei que estou revivendo um tópico muito antigo, mas aqui está ... Eu realmente estava gostando da sua resposta, mas sinto falta da parte do valor t :( Você poderia usar os exemplos dados para falar sobre isso? Ninguém respondeu sobre a parte do teste t

— Sosi

@sosi Provavelmente porque os valores de p são muito mais gerais que os valores de t. É como fazer uma pergunta sobre carros e depois sobre os freios em um Ford Fiesta.

— conjectures

2

p

$p$

p

$p$

p

$p$

27

Nenhuma quantidade de explicações ou cálculos verbais realmente me ajudou a entender em nível interno quais eram os valores-p, mas ele realmente se focou em mim quando fiz um curso que envolvia simulação. Isso me deu a capacidade de realmente ver dados gerados pela hipótese nula e plotar os meios / etc. de amostras simuladas, observe onde a estatística da minha amostra caiu nessa distribuição.

Eu acho que a principal vantagem disso é que ele permite que os alunos esqueçam a distribuição matemática e estatística dos testes por um minuto e se concentrem nos conceitos em questão. Concedido, é necessário que eu aprender como simular essas coisas, o que vai causar problemas para um conjunto completamente diferente de estudantes. Mas funcionou para mim e usei inúmeras vezes a simulação para ajudar a explicar estatísticas para outras pessoas com grande sucesso (por exemplo, "É assim que seus dados se parecem; é assim que uma distribuição Poisson se parece sobreposta. Tem certeza de que deseja fazer uma regressão de Poisson? ").

Isso não responde exatamente às perguntas que você fez, mas para mim, pelo menos, as tornou triviais.

— Matt Parker
fonte

10

Eu concordo plenamente com o uso da simulação para explicar isso. Mas apenas uma pequena nota sobre o exemplo no final: acho que as pessoas (e não apenas os alunos) acham difícil distinguir para qualquer suposição distributiva específica, por exemplo, o poisson, entre ser marginalmente distribuído e ser condicionalmente distribuído. Como apenas o último importa para um modelo de regressão, vários valores de variáveis dependentes que não são perigosos não precisam necessariamente ser motivo de preocupação.

— conjugateprior

1

Eu tenho que confessar que não sabia disso. Eu realmente apreciei seus comentários neste site nos últimos dias de sua associação - espero que você permaneça por aqui.

— Matt Parker

@MattParker você conhece algum recurso de aprendizado focado no uso de simulação para desenvolver o entendimento? Ou é apenas um caso de colocar alguns scripts python / R juntos e executar vários testes?

— precisa saber é

1

@baxx O site [Seeing Theory, de Daniel Kunin] (students.brown.edu/seeing-theory/) tem algumas ferramentas interessantes para isso, mas ainda está em construção. Caso contrário, sim, eu experimentei as ferramentas internas de R para simulação - usando-as para provar a mim mesmo como algum método funciona ou para ver o que aconteceria se um preditor fosse substituído por uma variável aleatória etc. Desculpe. Eu gostaria de conhecer melhores recursos para isso!

— Matt Parker

@MattParker cool thanks. Sim - um pouco de galinha e ovo nisso, para construir os experimentos que você (presumo?) Precisa pelo menos ter o suficiente para escrevê-los. Não se preocupe ..... Apenas verifiquei o site que você vinculou, é bom, obrigado

— Baxx

16

Uma boa definição de valor-p é "a probabilidade de observar uma estatística de teste pelo menos tão grande quanto a calculada assumindo que a hipótese nula é verdadeira".

O problema disso é que ele requer um entendimento de "estatística de teste" e "hipótese nula". Mas isso é fácil de entender. Se a hipótese nula for verdadeira, geralmente algo como "parâmetro da população A é igual ao parâmetro da população B" e você calcula estatísticas para estimar esses parâmetros, qual é a probabilidade de ver uma estatística de teste que diz "são elas" diferente"?

Por exemplo, se a moeda é justa, qual é a probabilidade de eu ver 60 cabeças de 100 lançamentos? Isso está testando a hipótese nula: "a moeda é justa" ou "p = 0,5", em que p é a probabilidade das cabeças.

A estatística de teste nesse caso seria o número de cabeças.

Agora, suponho que o que você está chamando de "valor t" seja uma "estatística de teste" genérica, não um valor de uma "distribuição t". Eles não são a mesma coisa, e o termo "valor t" não é (necessariamente) amplamente utilizado e pode ser confuso.

O que você está chamando de "valor t" é provavelmente o que estou chamando de "estatística de teste". Para calcular um valor p (lembre-se, é apenas uma probabilidade), você precisa de uma distribuição e um valor para conectar-se a essa distribuição que retornará uma probabilidade. Depois de fazer isso, a probabilidade de retornar é o seu valor-p. Você pode ver que eles estão relacionados porque, sob a mesma distribuição, diferentes estatísticas de teste retornam valores p diferentes. Estatísticas de teste mais extremas retornarão valores p mais baixos, dando uma indicação maior de que a hipótese nula é falsa.

Eu ignorei a questão dos valores p unilaterais e bilaterais aqui.

— Baltimark
fonte

11

Imagine que você tenha uma bolsa contendo 900 bolinhas pretas e 100 brancas, ou seja, 10% das bolinhas são brancas. Agora imagine que você tira 1 mármore, olha para ele e grava sua cor, tira outro, grava sua cor etc. e faz isso 100 vezes. No final deste processo, você terá um número de bolinhas brancas que, idealmente, esperamos ser 10, ou seja, 10% de 100, mas, na verdade, pode ser 8 ou 13 ou o que seja simplesmente devido à aleatoriedade. Se você repetir esse experimento de retirada de mármore 100, muitas e muitas vezes e depois traçar um histograma do número de bolinhas brancas desenhadas por experimento, verá que terá uma Curva de Bell centrada em 10.

Isso representa sua hipótese de 10%: com qualquer bolsa contendo 1000 bolinhas, das quais 10% são brancas, se você retirar aleatoriamente 100 bolinhas, encontrará 10 bolinhas brancas na seleção, mais ou menos 4. O valor-p tem tudo a ver com esse "mais ou menos 4". Digamos que, referindo-se à Curva de Bell criada anteriormente, você pode determinar que em menos de 5% das vezes você obteria 5 ou menos bolinhas brancas e outro <5% do tempo é responsável por 15 ou mais bolinhas brancas, ou seja,> 90% da Quando sua seleção de 100 mármores contiver entre 6 e 14 bolinhas brancas, inclusive.

Agora, supondo que alguém jogue uma sacola de 1000 bolinhas de gude com um número desconhecido de bolinhas brancas, temos as ferramentas para responder a essas perguntas

i) Existem menos de 100 bolinhas brancas?

ii) Existem mais de 100 bolinhas brancas?

iii) A bolsa contém 100 bolinhas brancas?

Simplesmente retire 100 bolinhas de gude da bolsa e conte quantas amostras são brancas.

a) Se houver 6 a 14 brancos na amostra, você não poderá rejeitar a hipótese de que haja 100 bolinhas brancas na sacola e os valores de p correspondentes de 6 a 14 serão> 0,05.

b) Se houver 5 ou menos brancos na amostra, você pode rejeitar a hipótese de que haja 100 bolinhas brancas na sacola e os valores de p correspondentes para 5 ou menos serão <0,05. Você esperaria que a bolsa contenha <10% de bolinhas brancas.

c) Se houver 15 ou mais brancos na amostra, você pode rejeitar a hipótese de que existem 100 bolinhas brancas na sacola e os valores de p correspondentes para 15 ou mais serão <0,05. Você esperaria que a bolsa contivesse> 10% de bolinhas brancas.

Em resposta ao comentário de Baltimark

Dado o exemplo acima, há aproximadamente: -

4.8% de chance de obter 5 bolas brancas ou menos

1,85% de chance de 4 ou menos

Chance de 0,55% de 3 ou menos

Chance de 0,1% de 2 ou menos

6,25% de chance de 15 ou mais

3.25% de chance de 16 ou mais

Chance de 1,5% de 17 ou mais

0,65% de chance de 18 ou mais

Chance de 0,25% de 19 ou mais

Chance de 0,1% de 20 ou mais

0,05% de chance de 21 ou mais

Esses números foram estimados a partir de uma distribuição empírica gerada por uma rotina simples de Monte Carlo executada em R e os quantis resultantes da distribuição amostral.

Para responder à pergunta original, suponha que você desenhe 5 bolas brancas, há apenas uma chance aproximada de 4,8% de que, se a bolsa de mármore 1000 realmente contiver 10% de bolas brancas, você retiraria apenas 5 brancas em uma amostra de 100. Isso equivale ao valor de p <0,05. Agora você tem que escolher entre

i) Na verdade, existem 10% de bolas brancas na sacola e eu tenho tido "azar" de desenhar tão poucas

ou

ii) Eu desenhei tão poucas bolas brancas que realmente não pode haver 10% de bolas brancas (rejeite a hipótese de 10% de bolas brancas)

— babelproofreader
fonte

Primeiro de tudo, este é apenas um grande exemplo e não explica realmente o conceito de valor-p e estatística-teste. Segundo, você está apenas afirmando que, se tiver menos de 5 ou mais de 15 bolinhas brancas, rejeitará a hipótese nula. De qual distribuição você calcula essas probabilidades? Isso pode ser aproximado com um dist normal. centrado em 10, com um desvio padrão de 3. Seus critérios de rejeição não são suficientemente rigorosos.

— Baltimark

Concordo que este é apenas um exemplo, e é verdade que escolhi os números 5 e 15 do ar para fins ilustrativos. Quando tiver tempo, postarei uma segunda resposta, que espero seja mais completa.

— Babelproofreader

10

O que o valor-p não diz é a probabilidade de a hipótese nula ser verdadeira. Sob a estrutura convencional de teste de significância (Fisher), primeiro calculamos a probabilidade de observar os dados assumindo que a hipótese nula é verdadeira, esse é o valor p. Parece intuitivamente razoável, então, supor que a hipótese nula é provavelmente falsa se os dados forem suficientemente improváveis de serem observados sob a hipótese nula. Isso é inteiramente razoável. Os estatísticos usam tradicionalmente um limiar e "rejeitam a hipótese nula no nível de significância de 95%" se (1 - p)> 0,95; no entanto, essa é apenas uma convenção que se mostrou razoável na prática - não significa que haja menos de 5% de probabilidade de que a hipótese nula seja falsa (e, portanto, 95% de probabilidade de que a hipótese alternativa seja verdadeira).

Imagem de uma função f () que mapeia o valor-p para a probabilidade de que a hipótese alternativa seja verdadeira. Seria razoável afirmar que essa função está estritamente diminuindo (de modo que quanto mais prováveis as observações sob a hipótese nula, menor a probabilidade da hipótese alternativa) e que ela fornece valores entre 0 e 1 (como uma estimativa de probabilidade). No entanto, isso é tudo o que sabemos sobre f (), portanto, embora exista uma relação entre p e a probabilidade de que a hipótese alternativa seja verdadeira, ela não é calibrada. Isso significa que não podemos usar o valor-p para fazer afirmações quantitativas sobre a plausibilidade das hipóteses nula e alternativa.

Advertência: Não está realmente dentro da estrutura freqüentista falar da probabilidade de que uma hipótese seja verdadeira, pois não é uma variável aleatória - é verdadeira ou não. Então, onde falei sobre a probabilidade da verdade de uma hipótese, mudei implicitamente para uma interpretação bayesiana. É incorreto misturar bayesiano e freqüentista, no entanto, sempre há uma tentação de fazê-lo, pois o que realmente queremos é uma indicação quantitativa da plausibilidade / probabilidade relativa das hipóteses. Mas não é isso que o valor p fornece.

— Dikran Marsupial
fonte

7

Nas estatísticas, você nunca pode dizer que algo é absolutamente certo; portanto, os estatísticos usam outra abordagem para avaliar se uma hipótese é verdadeira ou não. Eles tentam rejeitar todas as outras hipóteses que não são suportadas pelos dados.

Para fazer isso, os testes estatísticos têm uma hipótese nula e uma hipótese alternativa. O valor p reportado de um teste estatístico é a probabilidade do resultado, dado que a hipótese nula estava correta. É por isso que queremos pequenos valores de p. Quanto menores, menor a probabilidade de o resultado se a hipótese nula estiver correta. Se o valor p for pequeno o suficiente (ou seja, é muito improvável que o resultado tenha ocorrido se a hipótese nula estiver correta), a hipótese nula será rejeitada.

Dessa maneira, hipóteses nulas podem ser formuladas e subsequentemente rejeitadas. Se a hipótese nula for rejeitada, você aceita a hipótese alternativa como a melhor explicação. Lembre-se, porém, de que a hipótese alternativa nunca é certa, pois a hipótese nula poderia, por acaso, gerar os resultados.

— DaRob
fonte

P r (T \geq t | H_{0})

$Pr(T\geq t|H_0)$

P r (T = t | H_{0})

$Pr(T=t|H_0)$

5

Sou um pouco difícil de reviver o tópico antigo, mas pulei a partir daqui , por isso posto isso como resposta à pergunta no link.

O valor-p é um termo concreto, não deve haver espaço para mal-entendidos. Mas, de alguma forma, é místico que traduções coloquiais da definição de valor-p levem a muitas interpretações errôneas diferentes. Eu acho que a raiz do problema está no uso das frases "pelo menos tão adversas quanto à hipótese nula" ou "pelo menos tão extremas quanto a dos dados de sua amostra" etc.

Por exemplo, a Wikipedia diz

... o valor p é a probabilidade de obter os resultados da amostra observados (ou um resultado mais extremo) quando a hipótese nula é realmente verdadeira.

Significado de $p$

Eu acho que é melhor deixar o "resultado mais extremo" para algo como ato indireto da fala . Então, minha opinião é

O valor p é a probabilidade de ver o que você vê em um "mundo imaginário", onde a hipótese nula é verdadeira.

x $\mu_0=20$ $N(20,1)$ .

x
#[1] 20.82600 19.30229 18.74753 18.99071 20.14312 16.76647
#[7] 18.94962 17.99331 19.22598 18.68633

$t_0=\sqrt{n}\frac{\bar{X}-\mu_0}{s}$

sqrt(10) * (mean(x) - 20) / sd(x)  
#-2.974405

$|t_0|$ $t_0\sim t(9)$

p - v uma eu você e = P r (| t_{0 0} | \geq 2,97) = 0,01559054

$p-value=Pr(|t_0|\geq 2.97)= 0.01559054$

2*(1 - pt(2.974405, 9))
#[1] 0.01559054

Como o valor-p é pequeno, é muito improvável que a amostra xtenha sido desenhada no mundo hipotético. Portanto, concluímos que é muito improvável que o mundo hipotético fosse de fato o mundo real.

— Khashaa
fonte

2

+1, mas quando você escreve "probabilidade de ver o que vê" e omite a parte "mais extrema", essa frase se torna estritamente falsa (e potencialmente enganosa, mesmo que talvez menos confusa). Não é a probabilidade de ver o que você vê (geralmente é zero). É a probabilidade de ver o que você vê "ou mais extremo". Embora isso possa ser um pouco confuso para muitos, ainda é crucial (e pode-se argumentar incessantemente sobre o grau de subjetividade que se esconde por trás dessa redação "mais extrema").

— Ameba

@amoeba Pensei que, quando um exemplo adequado fosse fornecido, poderia servir como um proxy para "obter os resultados da amostra observados (ou um resultado mais extremo)". Talvez seja necessário um texto melhor.

— Khashaa

1

Eu faria a mesma observação que @amoeba; a parte "ou mais extremada" é bem tratada pelo exemplo nas alturas dos alunos e nas respostas do tea party, mas não acho que nenhuma resposta nesse tópico tenha encontrado uma explicação geral clara sobre ela, particularmente uma que cubra hipóteses alternativas diferentes. Eu concordo com esta resposta, sugerindo que a parte "ou mais extrema" é um ponto conceitual para muitos estudantes.

— quer

@ Silverfish: e não apenas os alunos. Quantos discursos bayesianos versus freqüentadores eu li que discutem a questão da subjetividade / objetividade desse pedaço "mais extremo"!

— Ameba

1

@Silver Concordo com suas críticas e postou uma resposta tentando resolvê-la. "Ou mais extremo" é o cerne da questão.

— whuber

4

Acho útil seguir uma sequência na qual você explica os conceitos na seguinte ordem: (1) O escore z e proporções acima e abaixo do escore z, assumindo uma curva normal. (2) A noção de uma distribuição amostral e o escore z para uma dada amostra significam quando o desvio padrão da população é conhecido (e daí o teste z de uma amostra) (3) O teste t de uma amostra e a probabilidade de um média da amostra quando o desvio padrão da população é desconhecido (repleto de histórias sobre a identidade secreta de um certo estatístico industrial e por que o Guinness é bom para estatísticas). (4) O teste t de duas amostras e a distribuição amostral das diferenças médias. A facilidade com que os alunos introdutórios compreendem o teste t tem muito a ver com as bases preparadas para este tópico.

/ * instrutor de alunos aterrorizados desativado * /

— EstatísticasDoc Consulting
fonte

4

Também descobri que as simulações são úteis no ensino.

$n$ $N(\mu,1)$ $\sigma^2=1$ $H_0:\mu=\mu_0$

$t$ $\text{tstat}:=\sqrt{n}(\bar{X}-\mu_0)$ $N(0,1)$ $H_0$ $p$ $\Phi(\text{tstat})$ oupnorm(tstat) em R.

$N(\mu_0,1)$ $\mu_0=2$ nullMeans

# p value
set.seed(1)
reps <- 1000
n <- 100      
mu <- 1.85 # true value
mu_0 <- 2 # null value
xaxis <- seq(-3, 3, length = 100)

X <- rnorm(n,mu)

nullMeans <- counter <- rep(NA,reps)

yvals <- jitter(rep(0,reps),2)

for (i in 1:reps)
{  
  tstat <- sqrt(n)*(mean(X)-mu_0) # test statistic, N(0,1) under the given assumptions

  par(mfrow=c(1,3))
  plot(xaxis,dnorm(xaxis),ylab="null distribution",xlab="possible test statistics",type="l")
  points(tstat,0,cex=2,col="salmon",pch=21,bg="salmon")

  X_null <- rnorm(n,mu_0) # generate data under H_0
  nullMeans[i] <- mean(X_null)

  plot(nullMeans[1:i],yvals[1:i],col="blue",pch=21,xlab="actual means and those generated under the null",ylab="", yaxt='n',ylim=c(-1,1),xlim=c(1.5,2.5))
  abline(v=mu_0,lty=2)
  points(mean(X),0,cex=4,col="salmon",pch=21,bg="salmon")

  # counts 1 if sample generated under H_0 is more extreme:
  counter[i] <- (nullMeans[i] < mean(X)) # i.e. we test against H_1: mu < mu_0
  barplot(table(counter[1:i])/i,col=c("green","red"),xlab="more extreme mean under the null than the mean actually observed")

  if(i<10) locator(1)
}
mean(counter)
pnorm(tstat)

— Christoph Hanck
fonte

0

O que significa um "valor-p" em relação à hipótese que está sendo testada?

Num sentido ontológico (o que é verdade?), Isso não significa nada . Qualquer teste de hipótese é baseado em suposições não testadas . Normalmente, isso faz parte do próprio teste, mas também faz parte do modelo que você estiver usando (por exemplo, em um modelo de regressão). Como estamos apenas assumindo isso, não podemos saber se a razão pela qual o valor p está abaixo do nosso limite é porque o nulo é falso. É um non sequitur deduzir incondicionalmente que, devido a um baixo valor de p, devemos rejeitar o nulo. Por exemplo, algo no modelo pode estar errado.

Num sentido epistemológico (o que podemos aprender?), Significa alguma coisa . Você ganha conhecimento condicional se as premissas não testadas forem verdadeiras. Como (pelo menos até agora) não podemos provar todos os edifícios da realidade, todo o nosso conhecimento será necessariamente condicional. Nós nunca chegaremos à "verdade".

— luchonacho
fonte

-1

Penso que exemplos envolvendo bolinhas de gude, moedas ou medição de altura podem ser bons para praticar matemática, mas não são bons para criar intuição. Estudantes universitários gostam de questionar a sociedade, certo? Que tal usar um exemplo político?

Digamos que um candidato político tenha realizado uma campanha prometendo que alguma política ajude a economia. Ela foi eleita, aprovou a política e, dois anos depois, a economia está crescendo. Ela está pronta para a reeleição e afirma que sua política é a razão da prosperidade de todos. Você deveria reelegê-la?

O cidadão atencioso deve dizer "bem, é verdade que a economia está indo bem, mas podemos realmente atribuir isso à sua política?" Para realmente responder a isso, devemos considerar a questão "a economia teria se saído bem nos últimos 2 anos sem ela?" Se a resposta for sim (por exemplo, a economia está crescendo devido a algum novo desenvolvimento tecnológico não relacionado), rejeitamos a explicação dos dados pelos políticos.

Ou seja, para examinar uma hipótese (a política ajudou a economia), devemos construir um modelo do mundo em que essa hipótese seja nula (a política nunca foi promulgada). Em seguida, fazemos uma previsão sob esse modelo. Chamamos a probabilidade de observar esses dados nesse mundo alternativo o valor-p . Se o valor-p for muito alto, não estaremos convencidos da hipótese - a política não fez diferença. Se o valor-p for baixo, confiamos na hipótese - a política era essencial.

— cgreen
fonte

1

Eu discordo de p ser definido como "Chamamos a probabilidade de observar esses dados naquele mundo alternativo o valor p" e também a força da conclusão que está sendo tirada (especialmente a falha em rejeitar o nulo).

— quer

@Silverfish Você poderia elaborar? Provavelmente, seria mais correto chamar o valor p de probabilidade de tornar essa observação OU uma observação mais extrema. Mas parece que você tem uma crítica mais profunda.

— cgreen

1

Como a pergunta original está perguntando o que é um valor-p, pensei que transmitir essa definição claramente era importante. Apenas dizer "mais extremo" não é, por si só, muito útil sem explicar o que "mais extremo" pode significar - essa é uma fraqueza da maioria das respostas neste tópico, eu acho. Apenas a resposta do whuber e o "teste do chá" parecem realmente explicar por que o "mais extremo" também importa.

— Silverfish

Eu também senti que suas conclusões são formuladas com muita força. Se rejeitarmos o nulo, temos evidências significativas contra ele, mas não sabemos se é falso. Quando falhamos em rejeitar o nulo, isso certamente não significa que o nulo seja verdadeiro (embora possa muito bem ser). Como um comentário mais geral, sinto que o teste que você está descrevendo, em termos bastante abstratos, provavelmente não será claro para um aluno que está apenas aprendendo a executar um teste. A falta de uma estatística de teste claramente definida não se encaixa bem com a pergunta original perguntando como interpretar a estatística t também.

— Silverfish

Uma característica desta resposta que eu gosto muito é a explicação clara de que os valores-p são calculados usando um modelo nulo, mesmo que não acreditemos (subjetivamente) que o modelo nulo seja realmente verdadeiro. Eu acho que o fato de as estatísticas de teste serem calculadas sob um modelo é um ponto-chave com o qual muitos estudantes lutam.

— Silverfish

-1

Ainda tenho que provar o argumento a seguir, para que ele possa conter erros, mas eu realmente quero dedicar meus dois centavos (Felizmente, atualizarei com uma prova rigorosa em breve). Outra maneira de olhar para o $p$

$p$ $X$
$\forall 0 0 \leq c \leq 1, F_{X | H_{0 0}} (inf {x : F_{X | H_{0 0}} (x) \geq c}) = c$ $\forall 0 \le c \le 1, F_{X|H_0}(\inf\{x: F_{X|H_0}(x) \ge c\}) = c$ $F_{X|H_0}$ $X$ $H_0$

Especificamente, se $X$

$p$ $[0, 1]$
$[0, 1]$ $p$

$p$

— nalzok
fonte

P

$P$ " deixa claro que se refere a probabilidades, não densidades de probabilidade. Além disso, existem extremamente poucas distribuições (se houver) que possuem a propriedade declarada, sugerindo que deve haver erros tipográficos na declaração. No que diz respeito às suas reivindicações subsequentes, (1) é idealmente verdadeiro, mas (2) não, a menos que você permita que a hipótese nula dependa da estatística!

— whuber

@whuber Obrigado pela contribuição. Eu editei a definição e deve fazer mais sentido agora!

— nalzok

1

X

$X$

[0, 1] .

$[0,1].$

Aqui está um exemplo que você pode achar interessante. A família de distribuição é Uniforme

(θ, θ + 1)

$(\theta,\theta+1)$

θ \in R,

$\theta\in\mathbb{R},$

θ = 0,

$\theta=0,$

X = (X_{1}, \dots, X_{n}) .

$\mathbf{X}=(X_1,\ldots,X_n).$

X (X) = X_{1} .

$X(\mathbf{X}) = X_1.$

[0, 1]

$[0,1]$

H_{0} :

$H_0:$

n = 1

$n=1$

X_{1} = - 2 :

$X_1=-2:$

- 2

$-2$

-4

O valor de p não é tão misterioso quanto a maioria dos analistas faz parecer. É uma maneira de não precisar calcular o intervalo de confiança para um teste t, mas simplesmente determinar o nível de confiança com o qual a hipótese nula pode ser rejeitada.

ILUSTRAÇÃO. Você executa um teste. O valor-p aparece em 0,1866 para a variável Q e 0,0023 para a variável R. (Estes são expressos em%).

Se você estiver testando em um nível de confiança de 95% para rejeitar a hipo nula;

para Q: 100-18,66 = 81,34%

para R: 100-0,23 = 99,77%.

Em um nível de confiança de 95%, Q fornece 81,34% de confiança para rejeitar. Isso cai abaixo de 95% e é inaceitável. ACEITE NULL.

R fornece 99,77% de confiança para rejeitar nulo. Claramente acima dos 95% desejados. Rejeitamos, assim, o nulo.

Apenas ilustrei a leitura do valor-p através de uma "maneira reversa" de medi-lo até o nível de confiança em que rejeitamos o hipo nulo.

— dytchay
fonte

6

Q

$Q$

R

$R$

@cardinal aponta um ponto importante. Você não vai aceitar o nulo.

— Patrick Coulombe 13/10

-8

****** O valor de p no teste de hipótese mede a sensibilidade do teste. Quanto menor o valor de p, maior é a sensibilidade. se o nível de significância for definido em 0,05, o valor p de 0,0001 indica uma alta probabilidade de os resultados do teste estarem corretos ******

— DR.HKLAKSHMANRAO
fonte

6

-1 Isso está claramente errado. Você pode ler as respostas com maior número de votos primeiro.

— Momo

Qual é o significado dos valores de p nos valores estatísticos?

Entendendo o valor- ppp

Um diálogo entre um professor e um aluno atencioso

Sinopse

Entendendo o valor- $p$