Eu acho que tentar pensar nisso como um modelo linear generalizado é um exagero. O que você tem é um modelo de regressão simples e antigo. Mais especificamente, como você possui algumas variáveis explicativas categóricas e um VE contínuo, mas sem interações entre elas, isso também pode ser chamado de ANCOVA clássica.
Eu diria que o # 3 não é realmente uma suposição aqui com a qual você precisa se preocupar. Além disso, você realmente não precisa se preocupar com o # 2. Em vez disso, eu os substituiria com duas suposições diferentes:
2 '. Homogeneidade da variância
3 '. Normalidade de resíduos
Além disso, o item 4 é uma coisa importante a ser verificada, mas não penso nisso como uma suposição em si. Vamos pensar em como as suposições podem ser verificadas.
A independência é freqüentemente 'verificada' primeiro, pensando sobre o que os dados representam e como foram coletados. Além disso, ele pode ser verificado usando coisas como um teste de execução , teste de Durbin-Watson ou examinando o padrão de correlações automáticas - você também pode examinar autocorrelações parciais . (Observe que eles só podem ser avaliados em relação à sua covariável contínua.)
Com variáveis explicativas principalmente categóricas, a homogeneidade da variação pode ser verificada calculando a variação em cada nível de seus fatores. Depois de calculados, existem vários testes usados para verificar se são iguais, principalmente o teste de Levene , mas também o teste de Brown-Forsyth . oFm a xteste, também chamado teste de Hartley, não é recomendado; se você quiser um pouco mais de informações sobre isso, eu discuto aqui . (Observe que esses testes podem ser aplicados às suas covariáveis categóricas, diferentemente do descrito acima.) Para um VE contínuo, gosto de plotar meus resíduos contra a covariável contínua e examiná-los visualmente para ver se eles se espalham mais para um lado ou para o outro.
A normalidade dos resíduos pode ser avaliada através de alguns testes, como os testes Shapiro-Wilk ou Kolmogorov-Smirnov , mas geralmente é melhor avaliada visualmente através de um gráfico de qq . (Observe que essa suposição é geralmente a menos importante do conjunto; se não for atendida, suas estimativas beta ainda serão imparciais , mas seus valores-p serão imprecisos.)
Existem várias maneiras de avaliar a influência de suas observações individuais. É possível obter valores numéricos que indexam isso, mas minha maneira favorita, se você puder, é extrair seus dados. Ou seja, você solta cada ponto de dados por sua vez e adapta seu modelo. Em seguida, você pode examinar o quanto seus betas se movimentam se essa observação não fizer parte do seu conjunto de dados. Essa medida é chamada dfbeta . Isso requer um pouco de programação, mas existem maneiras padrão pelas quais o software pode computar automaticamente para você. Isso inclui alavancagem e distância de Cook .
Com relação à sua pergunta, como declarado originalmente, se você quiser saber mais sobre as funções de link e o modelo linear generalizado, discuti isso bastante aqui . Basicamente, a coisa mais importante a considerar para selecionar uma função de link apropriada é a natureza da sua distribuição de respostas; desde que você acreditaY é gaussiano, o link de identidade é apropriado e você pode pensar nessa situação usando idéias padrão sobre modelos de regressão.
Em relação à "escala correta de medição das variáveis explicativas", considero que você está se referindo aos níveis de medição de Steven (ou seja, categórico, ordinal, intervalo e razão). A primeira coisa a perceber é que os métodos de regressão (incluindo GLiM) não fazem suposições sobre as variáveis explicativas; em vez disso, a maneira pela qual você usa suas variáveis explicativas em seu modelo reflete suas crenças sobre elas. Além disso, costumo pensar que os níveis de Steven são exagerados; para um tratamento mais teórico desse tópico, veja aqui .