Estou participando de uma aula de análise de dados e algumas das minhas idéias bem enraizadas estão sendo abaladas. Nomeadamente, a ideia de que o erro (epsilon), assim como qualquer outro tipo de variação, se aplica apenas (pensei) a um grupo (uma amostra ou uma população inteira). Agora, estamos aprendendo que uma das suposições de regressão é que a variação é "a mesma para todos os indivíduos". Isso é de alguma forma chocante para mim. Eu sempre pensei que era a variação em Y entre todos os valores de X que era assumida como constante.
Conversei com o professor, que me disse que, quando fazemos uma regressão, assumimos que nosso modelo é verdadeiro. E acho que essa é a parte complicada. Para mim, o termo erro (epsilon) sempre significou algo como "quaisquer elementos que não conhecemos e que possam afetar nossa variável de resultado, além de algum erro de medição". Na maneira como a turma é ministrada, não existem outras coisas; presume-se que nosso modelo seja verdadeiro e completo. Isso significa que toda variação residual deve ser pensada como um produto de erro de medição (portanto, a medição de um indivíduo 20 vezes deve produzir a mesma variação que a medição de 20 indivíduos por vez).
Sinto que algo está errado em algum lugar, gostaria de ter alguma opinião de especialista sobre isso ... Existe algum espaço para interpretação sobre qual é o termo do erro, conceitualmente falando?