Em alguns casos, parece claro que a teoria pode funcionar melhor (os comprimentos da cauda dos ratos provavelmente são normalmente distribuídos).
Os comprimentos da cauda certamente não são normalmente distribuídos.
Distribuições normais têm uma probabilidade diferente de zero de assumir valores negativos; comprimentos da cauda não.
A famosa frase de George Box , " todos os modelos estão errados, mas alguns são úteis " mostra bem o argumento. Casos em que podemos razoavelmente afirmar a normalidade (em vez de apenas aproximar a normalidade) são muito raros, quase criaturas de lendas, miragens ocasionalmente quase vislumbradas pelo canto do olho.
Em muitos casos, provavelmente não existe uma teoria para descrever um conjunto de dados, então você apenas usa algo que se encaixa perfeitamente no que você tem, independentemente do que foi originalmente desenvolvido para descrever?
Nos casos em que as quantidades nas quais você está interessado não são especialmente sensíveis à escolha (desde que os amplos recursos da distribuição sejam consistentes com o que é conhecido), então sim, você pode simplesmente usar algo que se encaixe bastante bem.
Nos casos em que há um maior grau de sensibilidade, "apenas usar algo que se encaixa" não é suficiente por si só. Podemos usar alguma abordagem que não faça suposições específicas (talvez procedimentos livres de distribuição, como permutação, bootstrapping ou outras abordagens de reamostragem ou procedimentos robustos). Como alternativa, podemos quantificar a sensibilidade à suposição distributiva, como por meio de simulação (de fato, acho que essa geralmente é uma boa ideia).
parece haver o problema de que talvez você deva apenas usar uma distribuição empírica se realmente não faz ideia.
Eu não descreveria isso como um problema - a inferência baseada em distribuições empíricas certamente é uma abordagem legítima adequada para muitos tipos de problemas (permutação / randomização e inicialização) são dois exemplos.
alguém tem uma maneira coerente de abordar / pensar sobre esse problema?
De maneira geral, em muitos casos, costumo considerar questões como:
1) O que eu entendo * sobre como os meios (ou outras quantidades do tipo local) se comportam para os dados deste formulário?
* (seja da teoria ou da experiência dessa forma de dados, ou de conselhos de especialistas ou, se necessário, dos próprios dados, embora isso acarrete problemas com os quais devemos lidar)
2) E quanto ao spread (variação, IQR etc.) - como ele se comporta?
3) E quanto a outros recursos de distribuição (limites, assimetria, discrição, etc.)
4) E quanto à dependência, heterogeneidade de populações, tendência a valores ocasionalmente muito discrepantes, etc.
Esse tipo de consideração pode orientar a escolha entre um modelo normal, um GLM, algum outro modelo ou uma abordagem robusta ou sem distribuição (como abordagens de inicialização ou permutação / randomização, incluindo procedimentos baseados em classificação)