Você não pode ter uma regra de parada sem ter uma idéia da sua distribuição e tamanho do seu efeito - o que você não conhece a priori.
Além disso, sim, precisamos nos concentrar no tamanho do efeito - e nunca foi considerado correto considerar apenas valores-p, e certamente não devemos mostrar tabelas ou gráficos que mostram valores-p ou valores -F em vez do tamanho do efeito.
Existem problemas com os testes tradicionais de inferência de hipóteses estatísticas (que Cohen diz serem dignos de seu acrônimo, e Fisher e Pearson se revirariam nos túmulos se vissem tudo o que está sendo feito em seus nomes violentamente opostos hoje).
Para determinar N, você já deve ter determinado uma significância alvo e um limite de poder, além de fazer muitas suposições sobre distribuição, e, em particular, também deve ter determinado o tamanho do efeito que deseja estabelecer. A indolering está exatamente certa de que este deve ser o ponto de partida - qual tamanho mínimo de efeito seria rentável!
As "Novas estatísticas" estão defendendo a exibição dos tamanhos dos efeitos (como diferença emparelhada quando apropriado), juntamente com os desvios ou variações padrão associados (porque precisamos entender a distribuição) e os desvios padrão ou intervalos de confiança (mas o último já está bloqueando um valor-p e uma decisão sobre se você está prevendo uma direção ou uma aposta de mão dupla). Mas definir um efeito mínimo de sinal especificado com uma previsão científica, deixa isso claro - embora o padrão pré-científico seja tentar e errar e apenas procurar diferenças. Mas, novamente, você fez suposições sobre a normalidade se seguir por esse caminho.
Outra abordagem é usar gráficos de caixa como uma abordagem não paramétrica, mas as convenções sobre bigodes e outliers variam amplamente e, mesmo assim, elas se originam em suposições de distribuição.
O problema de parada não é, de fato, um problema de um pesquisador individual ou não de N, mas que temos uma comunidade inteira de milhares de pesquisadores, onde 1000 é muito mais que 1 / alfa no nível tradicional de 0,05. Atualmente, a resposta é proposta para fornecer as estatísticas resumidas (média, stddev, stderr - ou "versões não paramétricas correspondentes - mediana etc. como no boxplot) para facilitar a meta-análise e apresentar resultados combinados de todos os experimentos, se eles ocorrerem ter atingido um nível alfa específico ou não.
Intimamente relacionado é o problema de múltiplos testes, que é tão cheio de dificuldades, e onde os experimentos são simplistas demais em nome da preservação de energia, enquanto metodologias complexas são propostas para analisar os resultados.
Acho que ainda não pode haver um capítulo de livro-texto que lide com isso, pois ainda temos pouca ideia do que estamos fazendo ...
No momento, a melhor abordagem é provavelmente continuar usando as estatísticas tradicionais mais apropriadas para o problema, combinadas com a exibição das estatísticas resumidas - o efeito e o erro padrão e N sendo o mais importante. O uso de intervalos de confiança é basicamente equivalente ao teste T correspondente, mas permite comparar novos resultados com os publicados com mais significado, além de permitir um ethos que incentiva a reprodutibilidade e a publicação de experimentos e meta-análises reproduzidas.
Em termos de abordagens teóricas da informação ou bayesianas, eles usam ferramentas diferentes e fazem suposições diferentes, mas ainda não têm todas as respostas e, no final, enfrentam os mesmos problemas, ou piores, porque a inferência bayesiana recua de forma definitiva. responder e apenas apresentar evidências relativas anteriores assumidos ou ausentes.
No final, o Machine Learning também tem resultados que precisam ser considerados - geralmente com ICs ou Teste-T, geralmente com gráficos, esperançosamente emparelhando em vez de apenas comparar e usando versões adequadamente compensadas quando as distribuições não coincidem. Ele também tem suas controvérsias sobre bootstrapping e validação cruzada, e preconceitos e variações. O pior de tudo é que ele tem a propensão de gerar e testar uma infinidade de modelos alternativos, parametrizando minuciosamente todos os algoritmos em uma das muitas caixas de ferramentas, aplicados aos conjuntos de dados cuidadosamente arquivados para permitir múltiplos testes não desenfreados. O pior é que ainda está na idade das trevas usando precisão, ou pior ainda, a medida F, para avaliação - em vez de métodos corretos ao acaso.
Eu li dezenas de artigos sobre essas questões, mas não consegui encontrar nada totalmente convincente - exceto os trabalhos de pesquisa negativa ou de meta-análise que parecem indicar que a maioria dos pesquisadores não manipula e interpreta as estatísticas adequadamente em relação a qualquer "padrão" ", antigo ou novo. Poder, testes múltiplos, dimensionamento e parada antecipada, interpretação de erros padrão e intervalos de confiança, ... estes são apenas alguns dos problemas.
Por favor, me derrube - eu gostaria de provar que estou errado! Na minha opinião, há muita água do banho, mas ainda não encontramos o bebê! Nesse estágio, nenhuma das visões extremas ou abordagens de marcas de nome parece promissora como resposta, e aquelas que querem jogar fora todo o resto provavelmente perderam o bebê.