O mais importante é a lógica por trás do modelo. Sua variável "número de patentes por ano" é uma variável de contagem, portanto, a regressão de Poisson é indicada. Esse é um GLM (modelo linear generalizado) com (normalmente) a função de link de log, enquanto a regressão linear usual é um GLM Gaussiano com link de identidade. Aqui, é realmente a função de link de log que é mais importante, mais importante que a distribuição de erros (Poisson ou Gaussian).
A variável "Patentes" é uma variável extensa : consulte propriedades intensivas e extensas . Para variáveis intensivas , como temperatura, modelos lineares (com link de identidade) geralmente são apropriados. Mas com uma variável extensa é diferente. Pense que uma de suas empresas farmacêuticas se dividiu em duas empresas diferentes. Então as patentes tiveram que ser divididas entre as duas novas empresas. O que acontece com as covariáveis, os na sua regressão? Variáveis como número de funcionários e orçamento de RD também teriam que ser divididas.x
Em termos gerais, nesse contexto, uma variável intensiva é uma variável independente do tamanho da empresa, enquanto uma variável extensa depende (normalmente, linearmente) do tamanho da empresa. Portanto, de certa forma, se tivermos muitas variáveis extensas diferentes na equação de regressão, estaremos medindo efeitos de tamanho repetidamente . Isso parece redundante; portanto, devemos tentar, quando possível, expressar variáveis de forma intensiva , como orçamento de DR por funcionário (ou como porcentagem do orçamento total), da mesma forma receita, etc. Um número variável de funcionários terá que ser deixado como extenso. Veja a resposta da @ onestop para Lidando com regressores correlacionados para outra discussão sobre essa questão de variável extensa / intensiva.
Vejamos isso algebricamente:
são patentes, orçamento (por funcionário), funcionários da empresa original, enquanto
e são as variáveis correspondentes após uma divisão. Suponha, como acima, que é a única covariável extensa (comP,B,EP1,B1,E1P2,B2,E2EP , é claro, também extensa).
Então, antes da divisão, temos o modelo, o link de identidade, com a parte aleatória deixada de fora:
Deixe as frações da divisão serem α , 1 - α, portanto, para a empresa 1 após a divisão, obtemos
α P
P=μ+β1E+β2B
α,1−ααPP1=αμ+αβ1E+αβ2B=αμ+β1E1+αβ2B1
P1=αP,E1=αEB1=BEsendo independente do tamanho da empresa, tamanho influenciando todos os outros parâmetros. Isso dificulta a interpretação dos resultados, especialmente se, em seus dados, você possui empresas de tamanhos variados, como interpretará esses coeficientes? A comparação com outros estudos com base em outros dados etc. torna-se extremamente complicada.
Agora, vamos ver se o uso de uma função de link de log pode ajudar. Novamente, escrevemos modelos idealizados sem termos de perturbação. As variáveis são como acima.
P=exp(μ+β1E+β2B)
P1P1=exp(logα)exp(μ+β1E+β2B)=exp(logα+μ+β1E+β2B1)
E
P=exp(μ+β1logE+β2B)
P1P1P1P1=exp(logα)exp(μ+β1logE+β2B)=exp(logα+μ+β1logE+β2B1)=exp((1−β)logα+μ+β1logE1+β2B1)=exp(μ′+β1logE1+β2B1)
μ′
Isso facilita muito a interpretação dos resultados e também compara estudos com outros dados, tendências com o tempo etc. Você não pode obter este formulário com parâmetros com interpretações independentes do tamanho com um link de identidade.
Conclusão: Use um GLM com função de link de log, talvez uma regressão de Poisson, ou binomial negativo, ou ... A função de link é uma ordem de magnitude mais importante!
Em resumo, ao construir um modelo de regressão para uma variável de resposta que é extensa , como uma variável de contagem.
Tente expressar covariáveis de forma intensiva.
Covariáveis que devem ser deixadas como extensas: registre-as (a álgebra acima depende de haver no máximo uma covariável extensa).
Use uma função de link de log.
Em seguida, outros critérios, como os baseados no ajuste, podem ser usados para decisões secundárias, como a distribuição do termo de perturbação.