Você conhece uma referência ou nome para a seguinte maneira de investigar se uma técnica de modelagem complexa é tendenciosa?
- Aplique ao conjunto de dados original. Meça seu desempenho (por exemplo, R ao quadrado na configuração de regressão).
- Permita aleatoriamente a variável de resposta para obter um novo conjunto de dados. Aplique e meça seu desempenho . [Se as observações forem dependentes, esta etapa é mais complicada.]P ′
Se for substancialmente diferente de zero desempenho, concluímos que é enviesado. T
A etapa 2 pode ser repetida se os recursos permitirem, o que levaria à distribuição nula de permutação da medida de desempenho. Mas, no meu aplicativo, não posso fazer isso devido a problemas de recursos.
Lembro-me sombriamente de que esse truque de "reorganização" foi usado por alguém para investigar o viés da validação cruzada de deixar um fora (em alguma configuração). Não sei, no entanto, se ele estava na minha situação em que poderia repetir todo o processo apenas uma vez.
Um exemplo em R que mostra o "poder" da seleção reversa ingênua:
# Generate random data set. Only random performance is expected.
n <- 100
p <- 30
set.seed(7567)
y <- rnorm(n)
X <- rnorm(n*p)
dim(X) <- c(n, p)
data <- data.frame(y, X)
# Modelling technique: backward selection with OLS
T <- function(data) {
step(lm(y ~ ., data = data), trace = 0)
}
# Performance: R-squared
P <- function(fit) {
summary(fit)$r.squared
}
# Step 1: Compute performance on original data. Happily publish high R-squared...
P(T(data)) # 0.240405
# Step 2: Your mean colleague reshuffles response and gets also R-squared far away from 0
data$y <- data$y[sample(n)]
P(T(data)) # 0.1925726
Conclusão sobre o exemplo: A técnica de modelagem escolhida é extremamente propensa a sobreajuste, pelo menos nessa configuração específica.
Alguma experiência
Uma vez eu usei esse truque de reorganização para verificar se a validação cruzada de algum processo de modelagem tedioso foi implementada corretamente por mim. Sob uma permutação aleatória, CV deu um R ao quadrado de essencialmente 0 (como esperado / desejado).