A amostra geralmente é assumida como homogênea no sentido de que os termos de erro na equação atendem às seguintes condições:ϵiyi=β0+β1x1+β2x2+…+ϵi
- Todos têm média zero: para todos os i ,E(ϵi)=0i
- Não estão correlacionados: para i ≠ j ,Cov(ϵi,ϵj)=0i≠j
- Cov(ϵi)=σ2i
Elas são conhecidas como condições de Gauss-Markov e garantem que o estimador de mínimos quadrados ordinário tenha um bom desempenho (imparcialidade, melhor estimador linear imparcial ...).
Observe que essas condições podem ser satisfeitas mesmo se você tiver observações de diferentes grupos. Muitas vezes, esse não é o caso. Se houver diferenças na média entre os grupos, a primeira e a segunda condições serão violadas. Se houver correlações dentro dos grupos, a segunda condição será violada. Se os grupos diferirem em variação, o terceiro será violado.
A violação das condições de Gauss-Markov pode causar todos os tipos de problemas. Para algumas das consequências da variação não constante, consulte a página da Wikipedia sobre heterocedasticidade .
As transformações podem ser úteis quando a terceira condição não for atendida, mas se os diferentes grupos causarem problemas com as condições um e dois, parece mais razoável adicionar uma variável fictícia de grupo ou usar ANCOVA.