Estive lendo sobre valores- , taxas de erro tipo 1, níveis de significância, cálculos de potência, tamanhos de efeito e o debate Fisher vs Neyman-Pearson. Isso me deixou um pouco sobrecarregado. Peço desculpas pelo muro de texto, mas senti que era necessário fornecer uma visão geral do meu entendimento atual desses conceitos, antes de passar para minhas perguntas reais.
Pelo que pude reunir, um valor- é simplesmente uma medida de surpresa, a probabilidade de obter um resultado pelo menos tão extremo, dado que a hipótese nula é verdadeira. Fisher originalmente pretendia que fosse uma medida contínua.
Na estrutura de Neyman-Pearson, você seleciona um nível de significância antecipadamente e o usa como um ponto de corte (arbitrário). O nível de significância é igual à taxa de erro do tipo 1. É definido pela frequência de longo prazo, ou seja, se você repetir um experimento 1000 vezes e a hipótese nula for verdadeira, cerca de 50 desses experimentos resultariam em um efeito significativo , devido à variabilidade da amostra. Ao escolher um nível de significância, estamos nos protegendo contra esses falsos positivos com uma certa probabilidade. valores tradicionalmente não aparecem nessa estrutura.
Se encontrarmos um valor de 0,01, isso não significa que a taxa de erro do tipo 1 seja 0,01, o erro do tipo 1 será declarado a priori. Acredito que este seja um dos principais argumentos no debate Fisher vs NP, porque os valores de são frequentemente relatados como 0,05 *, 0,01 **, 0,001 ***. Isso pode induzir as pessoas a dizerem que o efeito é significativo em um determinado valor , em vez de em um determinado valor de significância.p p
Também percebo que o valor- é uma função do tamanho da amostra. Portanto, não pode ser usado como uma medida absoluta. Um pequeno valor poderia apontar para um efeito pequeno e não relevante em um experimento de amostra grande. Para combater isso, é importante executar um cálculo de tamanho de poder / efeito ao determinar o tamanho da amostra para sua experiência. valores nos dizem se existe um efeito, não qual o seu tamanho. Veja Sullivan 2012 .p P
Minha pergunta: como posso reconciliar os fatos de que o valor- é uma medida de surpresa (menor = mais convincente) e, ao mesmo tempo, não pode ser visto como uma medida absoluta?
O que me deixa confuso é o seguinte: podemos ter mais confiança em um pequeno valor que em um grande? No sentido da pesca, eu diria que sim, estamos mais surpresos. Na estrutura do PN, escolher um nível de significância menor implicaria que estamos nos protegendo mais fortemente contra falsos positivos.
Por outro lado, os valores de dependem do tamanho da amostra. Eles não são uma medida absoluta. Portanto, não podemos simplesmente dizer que 0,001593 é mais significativo que 0,0439. No entanto, é isso o que estaria implícito na estrutura de Fisher: ficaríamos mais surpresos com um valor tão extremo. Há até discussões sobre o termo altamente significativo ser um termo impróprio: É errado referir-se a resultados como "altamente significativos"?
Ouvi dizer que os valores de em alguns campos da ciência são considerados importantes apenas quando menores que 0,0001, enquanto em outros campos valores em torno de 0,01 já são considerados altamente significativos.
Perguntas relacionadas: