Embora essa seja minha própria pergunta, também vou postar meus dois centavos como resposta, para que possamos adicionar ao número de perspectivas sobre essa questão. A questão aqui é se é sensato ajustar inicialmente uma distribuição de um parâmetro aos dados. Quando você usa uma distribuição de um parâmetro (como o Poisson GLM, ou um binômio GLM com parâmetro de teste fixo), a variação não é um parâmetro livre e, em vez disso, é restrita a ser uma função da média. Isso significa que é desaconselhável ajustar uma distribuição de um parâmetro aos dados em qualquer situação em que você não tenha certeza absoluta de que a variação segue a estrutura dessa distribuição.
Ajustar distribuições de um parâmetro aos dados é quase sempre uma péssima idéia: os dados geralmente são mais confusos do que os modelos propostos indicam, e mesmo quando há razões teóricas para acreditar que um modelo de um parâmetro específico pode ser obtido, geralmente os dados são na verdade, vêm de uma mistura dessa distribuição de um parâmetro, com uma faixa de valores de parâmetros. Isso geralmente é equivalente a um modelo mais amplo, como uma distribuição de dois parâmetros que permite maior liberdade para a variação. Como discutido abaixo, isso é verdade para o Poisson GLM no caso de dados de contagem.
Como afirmado na pergunta, na maioria das aplicações estatísticas, é prática padrão usar formas distributivas que permitem pelo menos os dois primeiros momentos variarem livremente. Isso garante que o modelo ajustado permita que os dados determinem a média e a variação inferidas, em vez de restringi-las artificialmente pelo modelo. Ter esse segundo parâmetro perde apenas um grau de liberdade no modelo, que é uma pequena perda em comparação com o benefício de permitir que a variação seja estimada a partir dos dados. É claro que se pode estender esse raciocínio e adicionar um terceiro parâmetro para permitir o ajuste da assimetria, um quarto para permitir o ajuste da curtose, etc.
Com algumas exceções extremamente pequenas, um Poisson GLM é um modelo ruim: na minha experiência, ajustar uma distribuição Poisson para contar dados quase sempre é uma má idéia. Para dados de contagem, é extremamente comum que a variação nos dados seja 'super-dispersa' em relação à distribuição de Poisson. Mesmo em situações em que a teoria aponta para uma distribuição de Poisson, geralmente o melhor modelo é uma mistura de distribuições de Poisson, em que a variação se torna um parâmetro livre. De fato, no caso de dados de contagem, a distribuição binomial negativa é uma mistura de Poisson com uma distribuição gama para o parâmetro rate, portanto, mesmo quando há razões teóricas para pensar que as contagens chegam de acordo com o processo de uma distribuição de Poisson, geralmente ocorre 'super dispersão' e a distribuição binomial negativa se encaixa muito melhor.
A prática de ajustar um GLM de Poisson para contar dados e, em seguida, fazer um teste estatístico para verificar se há "excesso de dispersão" é um anacronismo, e dificilmente é uma boa prática. Em outras formas de análise estatística, não começamos com uma distribuição de dois parâmetros, escolhemos arbitrariamente uma restrição de variação e testamos essa restrição para tentar eliminar um parâmetro da distribuição. Ao fazer as coisas dessa maneira, na verdade criamos um procedimento híbrido estranho, que consiste em um teste de hipótese inicial usado para a seleção de modelos e, em seguida, no modelo real (Poisson ou uma distribuição mais ampla). Foi mostrado em muitos contextos que esse tipo de prática de criação de modelos híbridos a partir de um teste inicial de seleção de modelos leva a modelos gerais ruins.
Uma situação análoga, em que um método híbrido semelhante foi usado, é nos testes T da diferença média. Costumava ser o caso de os cursos de estatística recomendarem primeiro o uso do teste de Levene (ou mesmo algumas "regras práticas" muito ruins) para verificar a igualdade de variações entre duas populações e, em seguida, se os dados "passassem" nesse teste, você faria use o teste T de aluno que assume uma variação igual e, se os dados "falharem" no teste, você usaria o teste T de Welch. Este é realmente um procedimento muito ruim (veja, por exemplo, aqui e aqui) É muito melhor usar o último teste, que não assume nenhuma hipótese sobre a variância, em vez de criar um teste composto desajeitado que reúne um teste preliminar de hipóteses e depois o usa para escolher o modelo.
Para dados de contagem, você geralmente obtém bons resultados iniciais ajustando um modelo de dois parâmetros, como um modelo de binômio negativo ou quase-Poisson. (Observe que esta última não é uma distribuição real, mas ainda fornece um modelo razoável de dois parâmetros.) Se for necessária alguma generalização adicional, geralmente é a adição de inflação zero, onde há um número excessivo de zeros. nos dados. Restringir a um Poisson GLM é uma escolha artificial e sem sentido de modelo, e isso não é muito melhor testando-se a dispersão excessiva.
Ok, agora aqui estão as pequenas exceções: As únicas exceções reais ao acima são duas situações:
(1) Você tem razões teóricas a priori extremamente fortes para acreditar que as suposições para a distribuição de um parâmetro são satisfeitas e parte da análise é testar esse modelo teórico em relação aos dados; ou
(2) Por alguma outra razão (estranha), o objetivo de sua análise é realizar um teste de hipótese sobre a variação dos dados e, portanto, você deseja restringir essa variação a essa restrição hipotética e, em seguida, testar essa hipótese.
Essas situações são muito raras. Eles tendem a surgir apenas quando há um forte conhecimento teórico a priori sobre o mecanismo de geração de dados, e o objetivo da análise é testar essa teoria subjacente. Esse pode ser o caso em uma gama extremamente limitada de aplicações em que os dados são gerados sob condições rigidamente controladas (por exemplo, na física).