Ziliak (2011) se opõe ao uso de valores-p e menciona algumas alternativas; o que eles são?


25

Em um artigo recente que discute os deméritos de confiar no valor-p da inferência estatística, chamado "Matrixx vs. Siracusano e Student vs. Fisher, Estatística significante no julgamento" (DOI: 10.1111 / j.1740-9713.2011.00511.x), Stephen T. Ziliak se opõe ao uso de valores-p. Nos parágrafos finais, ele diz:

Os dados são a única coisa que já sabemos e com certeza. O que realmente queremos saber é algo bem diferente: a probabilidade de uma hipótese ser verdadeira (ou pelo menos praticamente útil), dados os dados que temos. Queremos saber a probabilidade de que os dois medicamentos sejam diferentes e em quanto, considerando as evidências disponíveis. O teste de significância - baseado na falácia do condicional transposto, a armadilha em que Fisher caiu - não tem e não pode nos dizer essa probabilidade. A função de poder, a função de perda esperada e muitos outros métodos Bayesianos e teóricos da decisão, descendentes de Student e Jeffreys, agora amplamente disponíveis e gratuitos on-line, funcionam.

Qual é a função de poder, a função de perda esperada e "outros métodos teóricos da decisão e bayesianos"? Esses métodos são amplamente utilizados? Eles estão disponíveis no R? Como esses novos métodos sugeridos são implementados? Como, por exemplo, eu usaria esses métodos para testar minha hipótese em um conjunto de dados? Caso contrário, usaria testes t convencionais e valores p de duas amostras?


Existem muitos trabalhos argumentando contra o uso de valores- sozinhos, mas isso realmente depende do contexto, IMO. Você poderia adicionar mais informações sobre o que lhe interessa (veja sua última frase)? p
chl

2
Não tenho acesso ao artigo, mas esse argumento indica uma compreensão bastante falha do que está acontecendo. Apesar de um entendimento defeituoso, a conclusão de que outras estatísticas merecem consideração é razoável. A função de perda esperada é simplesmente uma estimativa do valor esperado da função de perda (por exemplo, erro ao quadrado, logística, etc.).
Iterator

Devido a uma discussão semelhante ter sido publicada recentemente , levantei uma consulta sobre esta discussão no Meta CV
Silverfish

Respostas:


17

Isso soa como outro artigo estridente de um indivíduo confuso. Fisher não caiu nessa armadilha, embora muitos estudantes de estatística o façam.

O teste de hipóteses é um problema teórico da decisão. Geralmente, você termina com um teste com um determinado limite entre as duas decisões (hipótese verdadeira ou hipótese falsa). Se você tiver uma hipótese que corresponda a um único ponto, como , poderá calcular a probabilidade dos seus dados resultantes quando forem verdadeiros. Mas o que você faz se não é um ponto único? Você obtém uma função de θθ=0θ . A hipótese é uma hipótese e você obtém essa função pela probabilidade de produzir seus dados observados, uma vez que são verdadeiros. Essa função é a função de poder. É muito clássico. Fisher sabia tudo sobre isso.θ0 0

A perda esperada faz parte do mecanismo básico da teoria da decisão. Você tem vários estados da natureza e vários dados possíveis resultantes deles, além de algumas decisões possíveis que você pode tomar e deseja encontrar uma boa função de dados para decisão. Como você define bom? Dado um estado de natureza específico subjacente aos dados que você obteve e a decisão tomada por esse procedimento, qual é a sua perda esperada? Isso é mais simplesmente entendido em problemas de negócios (se eu fizer isso com base nas vendas que observei nos últimos três trimestres, qual é a perda monetária esperada?).

Os procedimentos bayesianos são um subconjunto de procedimentos teóricos da decisão. A perda esperada é insuficiente para especificar os melhores procedimentos exclusivos em todos os casos, exceto os triviais. Se um procedimento é melhor que outro nos estados A e B, obviamente você prefere, mas se um é melhor no estado A e um é melhor no estado B, qual você escolhe? É aqui que entram as idéias auxiliares, como procedimentos de Bayes, minimaxidade e imparcialidade.

ttαβpαp valor acomoda esse uso.

Também estou um pouco confuso sobre o motivo pelo qual ele nomeia Student e Jeffreys, considerando que Fisher foi responsável pela ampla divulgação do trabalho de Student.

Basicamente, o uso cego dos valores-p é uma péssima idéia, e eles são um conceito bastante sutil, mas isso não os torna inúteis. Deveríamos objetar seu uso indevido por pesquisadores com pouca formação matemática? Absolutamente, mas vamos lembrar como era antes de Fisher tentar destilar algo para o homem no campo usar.


5
+1 por responder a pergunta e um +1 adicional (mas virtual) por desafiar a cotação, o que é provocador, mas problemático. Vejo que você é um participante recente aqui, mas já contribuiu com muitas respostas: muito obrigado e bem-vindo (um pouco tardiamente) ao nosso site!
whuber

Muito obrigado pela sua resposta detalhada. Ajuda a pensar em estratégias alternativas que são sugeridas criticamente nesse documento. Fiz essa pergunta porque alguns colegas usaram este documento para dizer que não deveríamos olhar para valores-p e percebi que não entendia o que essas alternativas realmente significavam. Obrigado pelo seu esclarecimento!
Ariel #

@ Whuber Acho que isso não responde à pergunta. A OP estava perguntando sobre as alternativas sugeridas por Ziliak, e esta resposta não as aborda. Por exemplo, a crítica de Ziliak à significância aborda por que as pessoas usam 5% ou 1% de significância. Não há realmente nenhuma razão sólida, e ele foi capaz de rastrear esses níveis nos documentos de Fisher. É apenas um número arbitrário e conveniente. Em oposição às abordagens "alternativas" baseadas em vantagens pecuniárias, ou seja, valores em dólares.
Aksakal

11
@Aksakal Acredito que seja feita uma contribuição importante à conversa, relacionando o teste de hipóteses a um problema teórico da decisão e conectando explicitamente o valor-p a um risco esperado (com base em uma função de perda de 0-1).
whuber


5

O pacote ez fornece proporções de probabilidade quando você usa a ezMixed()função para fazer modelagem de efeitos mistos. As proporções de verossimilhança visam quantificar evidências de um fenômeno comparando a verossimilhança (dados os dados observados) de dois modelos: um modelo "restrito" que restringe a influência do fenômeno a zero e um modelo "irrestrito" que permite influência diferente de zero de o fenomeno. Após corrigir as probabilidades observadas para a complexidade diferencial dos modelos (por meio do Critério de informação de Akaike, que é assintoticamente equivalente à validação cruzada), a razão quantifica as evidências para o fenômeno.


4

Todas essas técnicas estão disponíveis em R no mesmo sentido em que toda a álgebra está disponível no seu lápis. Até valores p estão disponíveis através de muitas funções diferentes em R, decidir qual função usar para obter um valor p ou um posterior Bayesiano é mais complexo do que um ponteiro para uma única função ou pacote.

Depois de aprender sobre essas técnicas e decidir qual pergunta você realmente deseja também, você poderá ver (ou podemos fornecer mais ajuda) como fazê-lo usando R (ou outras ferramentas). Apenas dizer que você deseja minimizar sua função de perda ou obter uma distribuição posterior é tão útil quanto responder "comida" quando perguntado o que você quer comer no jantar.

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.