1. O que é regressão de classificação reduzida (RRR)?
Considere regressão linear múltipla multivariada, isto é, regressão com variáveis independentes e q variáveis dependentes. Seja X e Y os conjuntos de dados do preditor centralizado ( n × p ) e da resposta ( n × q ). Em seguida, a regressão usual dos mínimos quadrados ordinários (OLS) pode ser formulada como minimização da seguinte função de custo:pqXYn×pn×q
L=∥Y−XB∥2,
onde é uma matriz de pesos de regressão. Sua solução é dada por e é fácil veja que é equivalente a fazer regressões OLS separadas, uma para cada variável dependente. p x q B S G S = ( X ⊤ X ) - 1 X ⊤ Y , qBp×q
B^OLS=(X⊤X)−1X⊤Y,
q
-Rank reduzida regressão introduz um grau de restrição em , ou seja, deve ser minimizada com , onde é o máximo permitido posto de . L rank ( B ) ≤ r r BBLrank(B)≤rrB
2. Como obter a solução RRR?
Acontece que o RRR pode ser convertido como um problema de vetor próprio. De fato, usando o fato de que OLS é essencialmente projeção ortogonal no espaço da coluna de , podemos reescrever comoO primeiro termo não depende de e o segundo termo pode ser minimizado por SVD / PCA dos valores ajustados . L L = ‖ Y - X B S G S ‖ 2 + ‖ X B S G S - X B ‖ 2 . BXL
L=∥Y−XB^OLS∥2+∥XB^OLS−XB∥2.
BY^=XB^OLS
Especificamente, se for o primeiro eixo principal de , então R Y B R R R = BUrrY^
B^RRR=B^OLSUrU⊤r.
3. Para que serve o RRR?
Pode haver dois motivos para usar o RRR.
Primeiro, pode-se usá-lo para fins de regularização. Da mesma forma que a regressão cume (RR), laço, etc., RRR introduz alguma penalidade "encolhimento" na . A classificação ótima pode ser encontrada através da validação cruzada. Na minha experiência, o RRR supera facilmente o OLS, mas tende a perder para o RR. No entanto, RRR + RR pode ter um desempenho (ligeiramente) melhor que o RR sozinho. rBr
Segundo, pode-se usá-lo como um método de redução de dimensionalidade / exploração de dados. Se tivermos várias variáveis preditivas e várias variáveis dependentes, a RRR construirá "fatores latentes" no espaço preditivo que fazem o melhor trabalho para explicar a variação dos DVs. Pode-se então tentar interpretar esses fatores latentes, plotá-los, etc. Até onde eu sei, isso é rotineiramente feito em ecologia, onde a RRR é conhecida como análise de redundância e é um exemplo do que eles chamam de métodos de ordenação ( veja a resposta de @ GavinSimpson aqui )
4. Relação com outros métodos de redução de dimensionalidade
O RRR está intimamente conectado a outros métodos de redução de dimensionalidade, como CCA e PLS. Eu o cobri um pouco na minha resposta para Qual é a conexão entre mínimos quadrados parciais, regressão de classificação reduzida e regressão de componentes principais?
se e são conjuntos de dados preditores centralizados ( ) e de resposta ( ) e se procurarmos o primeiro par de eixos, para e para , esses métodos maximizam as seguintes quantidades:Y n × p n × q w ∈ RXYn×pn×qw∈RpXv∈RqY
PCA:RRR:PLS:CCA:Var(Xw)Var(Xw)⋅Corr2(Xw,Yv)⋅Var(Yv)Var(Xw)⋅Corr2(Xw,Yv)⋅Var(Yv)=Cov2(Xw,Yv)Var(Xw)⋅Corr2(Xw,Yv)
Veja lá para mais alguns detalhes.
Veja Torre, 2009, Uma estrutura de mínimos quadrados para análise de componentes para um tratamento detalhado de como a maioria dos métodos multivariados lineares comuns (por exemplo, PCA, CCA, LDA, - mas não PLS!) Pode ser vista como RRR.
5. Por que esta seção está em Hastie et al. tão confuso?
Hastie et al. use o termo RRR para se referir a algo ligeiramente diferente! Em vez de usar a função de perda eles usam como pode ser visto na fórmula 3.68. Isso introduz um fator de clareamento na função de perda, essencialmente branqueando as variáveis dependentes. Se você observar a comparação entre o CCA e o RRR acima, notará que se for embranquecido, a diferença desaparecerá. Então, o que Hastie et al. chamar RRR é na verdade CCA disfarçado (e de fato, veja seus 3,69).
L=∥Y−XB∥2,
L=∥(Y−XB)(Y⊤Y)−1/2∥2,
YY
Nada disso é explicado corretamente nesta seção, daí a confusão.
Veja minha resposta ao tutorial Amigável ou introdução à regressão de classificação reduzida para leitura adicional.