Contexto
Um grupo de cientistas sociais e estatísticos ( Benjamin et al., 2017 ) sugeriu recentemente que a taxa de falso positivo típica ( = 0,05) usada como limiar para determinar a "significância estatística" precisa ser ajustada para um limiar mais conservador ( = 0,005). Um grupo concorrente de cientistas sociais e estatísticos ( Lakens et al., 2018 ) respondeu, argumentando contra o uso deste - ou de qualquer outro - limite arbitrariamente selecionado. A seguir, uma citação de Lakens et al. (p. 16) que ajuda a exemplificar o assunto da minha pergunta:
Idealmente, o nível alfa é determinado pela comparação de custos e benefícios com uma função de utilidade usando a teoria da decisão. Essa análise de custo-benefício (e, portanto, o nível alfa) difere ao analisar grandes conjuntos de dados existentes em comparação à coleta de dados de amostras difíceis de obter. A ciência é diversa, e cabe aos cientistas justificar o nível alfa que eles decidem usar. ... A pesquisa deve ser guiada por princípios de ciência rigorosa, não por heurísticas e limiares arbitrários.
Questão
Estou imaginando como alguém poderia justificar um alfa escolhido de uma maneira "guiada por princípios de ciência rigorosa", como Lakens et al. sugerir, na maioria dos contextos das ciências sociais (ou seja, fora de casos selecionados em que se tem uma qualidade mais concreta, como lucro, para otimizar)?
Após a divulgação de Lakens et al., Comecei a ver calculadoras online circulando para ajudar os pesquisadores a tomar essa decisão. Ao usá-los, os pesquisadores precisam especificar uma "relação de custo" de erros falso-positivos e falso-negativos. No entanto, como esta calculadora aqui sugere, determinando tal relação custo um pode envolver um monte de adivinhar-obra quantitativa:
Embora alguns custos de erro sejam fáceis de quantificar em termos monetários (custos diretos), outros são difíceis de atribuir uma quantia dolar (custos indiretos). ... Apesar de ser difícil quantificar, você deve fazer um esforço para colocar um número para eles.
Por exemplo, embora Lakens et al. sugerir o estudo de amostras difíceis de alcançar como um fator que se pode considerar na justificação do alfa, parece que ainda resta adivinhar o quão difícil é alcançar essa amostra e, assim, como ajustar a seleção do alfa de acordo. Como outro exemplo, parece-me difícil quantificar o custo de publicação de um falso positivo, em termos de quanto tempo / dinheiro outros comprometem posteriormente a prosseguir pesquisas baseadas na inferência equivocada.
Se determinar essa relação de custo é, em grande parte, uma questão subjetiva de adivinhação, fico me perguntando se essas decisões podem (novamente, além de otimizar algo como lucro) ser "justificadas". Ou seja, de uma maneira que existe fora das premissas feitas sobre amostragem, trade-offs, impacto, etc.,? Dessa forma, determinar uma relação de custo de erros falso-positivos / falso-negativos parece, para mim, algo semelhante à seleção de um anterior na inferência bayesiana - uma decisão que pode ser um pouco subjetiva, influenciar os resultados e, portanto, debater-se. embora eu não tenha certeza de que seja uma comparação razoável.
Sumário
Para tornar minha pergunta concreta:
- As taxas falso-positivas / falso-negativas e suas taxas de custo podem ser "rigorosamente" justificadas na maioria dos contextos das ciências sociais?
- Nesse caso, quais são os princípios generalizáveis que se pode seguir para justificar essas escolhas analíticas (e talvez um exemplo ou dois deles em ação)
- Se não, é minha analogia da subjetividade potencial na escolha de razões de custo - como sendo semelhante à seleção anterior bayesiana - é razoável?
Referências
Benjamin, DJ, Berger, J., Johannesson, M., Nosek, BA, Wagenmakers, E., ... Johnson, V. (2017, 22 de julho). Redefina a significância estatística. Obtido em psyarxiv.com/mky9j
Lakens, D., Adolfi, FG, Albers, CJ, Anvari, F., Apps, MA, ... Zwaan, RA (2018, 15 de janeiro). Justifique seu Alfa. Obtido em psyarxiv.com/9s3y6