Eu queria saber se alguém poderia dar um resumo conciso sobre as definições e usos dos valores-p, nível de significância e erro tipo I.
Entendo que os valores de p são definidos como "a probabilidade de obter uma estatística de teste pelo menos tão extrema quanto a que realmente observamos", enquanto um nível de significância é apenas um valor de corte arbitrário para avaliar se o valor de p é significativo ou não . Erro tipo I é o erro de rejeitar uma hipótese nula que era verdadeira. No entanto, não tenho certeza sobre a diferença entre o nível de significância e o erro do tipo I, eles não são o mesmo conceito?
Por exemplo, suponha um experimento muito simples, onde eu jogo uma moeda 1000 vezes e conto o número de vezes que ela cai nas 'cabeças'. Minha hipótese nula, H0, é que as cabeças = 500 (moeda imparcial). Em seguida, defino meu nível de significância em alfa = 0,05.
Eu jogo a moeda 1000 vezes e depois calculo o valor-p, se o valor-p for> 0,05, não rejeito a hipótese nula e se o valor-p for <0,05, rejeito a hipótese nula.
Agora, se eu fizesse esse experimento repetidamente, cada vez que calculava o valor-p e rejeitava ou deixava de rejeitar a hipótese nula e mantendo uma contagem de quantas rejeitei / deixei de rejeitar, acabaria rejeitando 5% das hipóteses nulas que na verdade eram verdadeiros, está correto? Esta é a definição do erro do tipo I. Portanto, o nível de significância no teste de significância de Fisher é essencialmente o erro tipo I do teste de hipótese de Neyman-Pearson se você executou experimentos repetidos.
Agora, quanto aos valores de p, se eu tivesse obtido um valor de p de 0,06 no meu último experimento e fiz várias experiências e contei todas as que obtive um valor de p de 0 a 0,06, então eu também não teria um 6% de chance de rejeitar uma hipótese nula verdadeira?