Aprendendo conceitos estatísticos através de exercícios de análise de dados

18

Acho que exercícios simples de análise de dados geralmente podem ajudar a ilustrar e esclarecer conceitos estatísticos. Quais exercícios de análise de dados você usa para ensinar conceitos estatísticos?

teaching

— Brett Magill
fonte

9

Como preciso explicar os métodos de seleção de variáveis com bastante frequência, não em um contexto de ensino, mas para os não estatísticos que solicitam ajuda em suas pesquisas, adoro esse exemplo extremamente simples que ilustra por que a seleção de variáveis únicas não é necessariamente uma boa idéia.

Se você possui este conjunto de dados:

y      X1     x2
1       1      1
1       0      0
0       1      0
0       0      1

Não demora muito para perceber que ambos, X1 e X2, individualmente, são completamente não informativos para y (quando são iguais, y é 'certo' ser 1 - estou ignorando os problemas de tamanho de amostra aqui, assuma estas quatro observações para: ser o universo inteiro). No entanto, a combinação das duas variáveis é completamente informativa. Assim, é mais fácil para as pessoas entenderem por que não é uma boa ideia (por exemplo) verificar apenas o valor-p para modelos com cada variável individual como um regressor.

Na minha experiência, isso realmente transmite a mensagem.

— Nick Sabbe
fonte

5

Coeficientes de regressão múltipla e falácia de sinal esperada

Uma das minhas ilustrações favoritas de um conceito estatístico através de um exercício de análise de dados é a desconstrução de uma regressão múltipla em múltiplas regressões bivariadas.

Objetivos

Esclarecer o significado dos coeficientes de regressão na presença de múltiplos preditores.
Para ilustrar por que é incorreto “esperar” um coeficiente de regressão múltipla ter um sinal específico com base em sua relação bivariada com Y quando os preditores estão correlacionados.

Conceito

Os coeficientes de regressão em um modelo de regressão múltipla representam a relação entre a) a parte de uma dada variável preditora (x1) que não está relacionada a todas as outras variáveis preditivas (x2 ... xN) no modelo; e 2) a parte da variável de resposta (Y) que não está relacionada a todas as outras variáveis preditoras (x2 ... xN) no modelo. Quando há correlação entre os preditores, os sinais associados aos coeficientes preditores representam as relações entre esses resíduos.

Exercício

Gere alguns dados aleatórios para dois preditores (x1, x2) e uma resposta (y).
Regresse y em x2 e armazene os resíduos.
Regresse x1 em x2 e armazene os resíduos.
Regresse os resíduos da etapa 2 (r1) nos resíduos da etapa 3 (r2).

O coeficiente da etapa 4 para r2 será o coeficiente de x1 para o modelo de regressão múltipla com x1 e x2. Você pode fazer o mesmo para x2, separando x1 para y e x2.

Aqui está um código R para este exercício.

set.seed(3338)
x1 <- rnorm(100)
x2 <- rnorm(100)
y <- 0 + 2*x1 + 5*x2 + rnorm(100)
lm(y ~ x1 + x2)  # Multiple regression Model
ry1 <- residuals(  lm( y ~ x2)  )  # The part of y not related to x2
rx1 <- residuals(  lm(x1 ~ x2)  ) # The part of x1 not related to x2
lm( ry1  ~ rx1) 
ry2 <- residuals(  lm( y ~ x1)  ) # The part of y not related to x1
rx2 <- residuals(  lm(x2 ~ x1)  ) # The part of x2 not related to x1
lm( ry2 ~ rx2)

Aqui estão os resultados e resultados relevantes.

Call:
lm(formula = y ~ x1 + x2)

Coefficients:

(Intercept)           ***x1***           ***x2***  
   -0.02410      ***1.89527***      ***5.07549*** 

Call:
lm(formula = ry1 ~ rx1)

Coefficients:

(Intercept)          ***rx1***  
 -2.854e-17    ***1.895e+00*** 

Call:
lm(formula = ry2 ~ rx2)

Coefficients:

(Intercept)          ***rx2***  
  3.406e-17    ***5.075e+00***

— Brett Magill
fonte