Na inferência frequentista , queremos determinar com que frequência algo teria acontecido se um determinado processo estocástico fosse realizado repetidamente. Esse é o ponto de partida para a teoria dos valores-p, intervalos de confiança e similares. No entanto, em muitos projetos aplicados, o processo "dado" não é realmente fornecido, e o estatístico precisa fazer pelo menos algum trabalho para especificá-lo e modelá-lo. Este pode ser um problema surpreendentemente ambíguo, como neste caso.
Modelando o processo de geração de dados
Com base nas informações fornecidas, nosso melhor candidato parece ser o seguinte:
- Se o medidor de 100V indicar 100V, o engenheiro mede novamente com o medidor de 1000V, se estiver operacional. Caso contrário, ele simplesmente marca 100V e segue em frente.
Mas isso não é um pouco injusto para o nosso engenheiro? Supondo que ele seja um engenheiro e não apenas um técnico, ele provavelmente entende por que precisa medir novamente quando o primeiro medidor lê 100V; é porque o medidor está saturado no limite superior de sua faixa e, portanto, não é mais confiável. Então, talvez o que o engenheiro realmente faça seja
- Se o medidor de 100V indicar 100, o engenheiro mede novamente com o medidor de 1000V, se estiver operacional. Caso contrário, ele simplesmente marca 100V, acrescenta um sinal de mais para indicar a medição saturada e segue em frente.
Ambos os processos são consistentes com os dados que temos, mas são processos diferentes e geram intervalos de confiança diferentes. O processo 2 é o que preferimos como estatísticos. Se as tensões costumam estar bem acima de 100V, o Processo 1 possui um modo de falha potencialmente catastrófico, no qual as medições são ocasionalmente subestimadas, porque os dados são censurados sem o nosso conhecimento. O intervalo de confiança aumentará de acordo. Podemos mitigar isso pedindo ao engenheiro que nos diga quando o medidor de 1000V não está funcionando, mas essa é realmente apenas outra maneira de garantir que nossos dados estejam em conformidade com o Processo 2.
Se o cavalo já saiu do estábulo e não podemos determinar quando as medições são e não são censuradas, podemos tentar inferir a partir dos dados os horários em que o medidor de 1000V não está funcionando. Ao introduzir uma regra de inferência no processo, criamos efetivamente um novo Processo 1.5 distinto de 1 e 2. Nossa regra de inferência às vezes funcionaria e outras não, portanto, o intervalo de confiança do Processo 1.5 teria tamanho intermediário em comparação aos Processos 1 e 2. 2)
Em teoria, não há nada de errado ou suspeito em uma única estatística com três intervalos de confiança diferentes associados a três processos estocásticos plausivelmente representativos. Na prática, poucos consumidores de estatísticas querem três intervalos de confiança diferentes. Eles querem um, o que é baseado no que realmente teria acontecido, se o experimento tivesse sido repetido várias vezes. Assim, normalmente, o estatístico aplicado considera o conhecimento do domínio que adquiriu durante o projeto, faz um palpite e apresenta o intervalo de confiança associado ao processo que adivinhou. Ou ela trabalha com o cliente para formalizar o processo, portanto não há necessidade de adivinhar o futuro.
Como responder a novas informações
Apesar da insistência do estatístico na história, a inferência freqüentista não exige que repitamos medições quando obtemos novas informações, sugerindo que o processo estocástico gerador não é exatamente o que originalmente concebemos. No entanto, se o processo for repetido, precisamos garantir que todas as repetições sejam consistentes com o processo de modelo assumido pelo intervalo de confiança. Podemos fazer isso alterando o processo ou alterando nosso modelo.
Se alterarmos o processo, talvez seja necessário descartar os dados passados que foram coletados inconsistentemente com esse processo. Mas isso não é um problema aqui, porque todas as variações de processo que estamos considerando são diferentes apenas quando alguns dos dados estão acima de 100V, e isso nunca aconteceu neste caso.
O que quer que façamos, modelo e realidade devem ser alinhados. Somente então a taxa de erro freqüentista teoricamente garantida será a que o cliente realmente obtém após o desempenho repetido do processo.
A Alternativa Bayesiana
Por outro lado, se tudo o que realmente nos importa é a provável faixa da verdadeira média para essa amostra, devemos deixar de lado o freqüentismo inteiramente e procurar as pessoas que vendem a resposta a essa pergunta - os bayesianos. Se seguirmos esse caminho, todas as discussões sobre contrafatuais se tornam irrelevantes; tudo o que importa é o anterior e a probabilidade. Em troca dessa simplificação, perdemos a esperança de garantir uma taxa de erro sob a repetida execução do "experimento".
Por que o alarido?
Essa história foi construída para fazer parecer que o estatístico freqüentador se preocupa com coisas tolas sem motivo. Honestamente, quem se importa com esses contrafatuais tolos? A resposta, é claro, é que todos devem se importar. Atualmente, campos científicos de importância vital estão sofrendo uma grave crise de replicação , o que sugere que a frequência de falsas descobertas é muito maior do que o esperado na literatura científica. Um dos fatores que impulsionou essa crise, embora não seja o único , é o surgimento do p-hacking , que é quando os pesquisadores brincam com muitas variações de um modelo, controlando variáveis diferentes, até obterem significado.
O P-hacking tem sido amplamente difamado na mídia científica popular e na blogosfera, mas poucos realmente entendem o que há de errado no P-hacking e por quê. Ao contrário da opinião estatística popular, não há nada errado em analisar seus dados antes, durante e após o processo de modelagem. O que está errado é falhar ao relatar análises exploratórias e como elas influenciaram o curso do estudo. Somente olhando o processo completo, podemos determinar o modelo estocástico representativo desse processo e que análise freqüencialista é apropriada para esse modelo, se houver.
Afirmar que uma certa análise freqüentista é apropriada é uma afirmação muito séria. Fazer essa afirmação implica que você está se vinculando à disciplina do processo estocástico que escolheu, o que implica um sistema inteiro de contrafatuais sobre o que você teria feito em diferentes situações. Você precisa realmente estar em conformidade com esse sistema para que a garantia freqüentadora seja aplicada a você. Muito poucos pesquisadores, especialmente aqueles em áreas que enfatizam a exploração aberta, estão em conformidade com o sistema e não relatam seus desvios escrupulosamente; é por isso que agora temos uma crise de replicação em nossas mãos. (Alguns pesquisadores respeitados argumentaram que essa expectativa não é realista, posição que simpatizo, mas que está indo além do escopo deste post.)
Pode parecer injusto que estamos criticando artigos publicados com base em uma afirmação sobre o que eles teriam feito se os dados fossem diferentes. Mas essa é a natureza (um tanto paradoxal) do raciocínio freqüentista: se você aceita o conceito de valor-p, deve respeitar a legitimidade da modelagem do que teria sido feito sob dados alternativos. (Gelman & Loken, 2013)
Em estudos relativamente simples e / ou padronizados, como ensaios clínicos, podemos ajustar itens como comparações múltiplas ou sequenciais e manter a taxa de erro teórico; em estudos mais complexos e exploratórios, um modelo freqüentista pode ser inaplicável, pois o pesquisador pode não estar totalmente consciente de todas as decisões que estão sendo tomadas , quanto mais registrá-las e apresentá-las explicitamente. Nesses casos, o pesquisador deve (1) ser honesto e aberto sobre o que foi feito; (2) apresentam valores de p com ressalvas fortes ou nenhuma; (3) considere apresentar outras linhas de evidência, como plausibilidade prévia da hipótese ou um estudo de replicação de acompanhamento.