O que é "regressão de classificação reduzida"?

Li os Elementos do aprendizado estatístico e não conseguia entender o que é a Seção 3.7 "Seleção e contração de múltiplos resultados". Ele fala sobre RRR (regressão de classificação reduzida), e só consigo entender que a premissa é sobre um modelo linear multivariado generalizado em que os coeficientes são desconhecidos (e devem ser estimados), mas sabe-se que não possuem classificação completa. Essa é a única coisa que eu entendo.

O resto da matemática está além de mim. Nem ajuda que os autores digam 'alguém pode mostrar' e deixa as coisas como um exercício.

Alguém por favor pode ajudar a explicar intuitivamente o que está acontecendo aqui? Este capítulo está supostamente discutindo novos métodos? ou o que?

— cgo
fonte

Parece fornecer métodos de regressão que capitalizam modelos de resultados múltiplos no contexto de retração e seleção de variáveis. Não há um único resultado Y, mas mais de um resultado Y. Digamos que você tenha resultados em 5 anos, então esta seção discute métodos para agrupar a estimativa dos métodos, em vez de apenas construir 5 modelos separados.

— Spdrnl

Meus poucos centavos: a suposição de matriz de baixa hierarquia torna as coisas mais simples. Felizmente, essa suposição vale para muitas fontes de dados do mundo real.

— Vladislavs Dovgalecs 01/09/2015

Parece que essa suposição é sobre ter restrições na solução. Este artigo descreve por que statprob.com/encyclopedia/…

— Vladislavs Dovgalecs

1. O que é regressão de classificação reduzida (RRR)?

Considere regressão linear múltipla multivariada, isto é, regressão com variáveis independentes e variáveis dependentes. Seja e conjuntos de dados do preditor centralizado ( ) e da resposta ( ). Em seguida, a regressão usual dos mínimos quadrados ordinários (OLS) pode ser formulada como minimização da seguinte função de custo: $p$ $q$ $\mathbf X$ $\mathbf Y$ $n \times p$ $n\times q$

L = ‖ Y - X B ‖^{2},

$L=\|\mathbf Y-\mathbf X\mathbf B\|^2,$

onde é uma matriz de pesos de regressão. Sua solução é dada por e é fácil veja que é equivalente a fazer regressões OLS separadas, uma para cada variável dependente. $\mathbf B$ $p\times q$

{\hat{B}}_{O L S} = (X^{⊤} X)^{- 1} X^{⊤} Y,

$\hat{\mathbf B}_\mathrm{OLS}=(\mathbf X^\top \mathbf X)^{-1}\mathbf X^\top \mathbf Y,$

q

$q$

-Rank reduzida regressão introduz um grau de restrição em , ou seja, deve ser minimizada com , onde é o máximo permitido posto de . $\mathbf B$ $L$ $\operatorname{rank}(\mathbf B)\le r$ $r$ $\mathbf B$

2. Como obter a solução RRR?

Acontece que o RRR pode ser convertido como um problema de vetor próprio. De fato, usando o fato de que OLS é essencialmente projeção ortogonal no espaço da coluna de , podemos reescrever comoO primeiro termo não depende de e o segundo termo pode ser minimizado por SVD / PCA dos valores ajustados . $\mathbf X$ $L$

L = ‖ Y - X {\hat{B}}_{O L S} ‖^{2} + ‖ X {\hat{B}}_{O L S} - X B ‖^{2} .

$L=\|\mathbf Y-\mathbf X\hat{\mathbf B}_\mathrm{OLS}\|^2+\|\mathbf X\hat{\mathbf B}_\mathrm{OLS}-\mathbf X\mathbf B\|^2.$

B

$\mathbf B$

\hat{Y} = X {\hat{B}}_{O L S}

$\hat{\mathbf Y}=\mathbf X\hat{\mathbf B}_\mathrm{OLS}$

Especificamente, se for o primeiro eixo principal de , então $\mathbf U_r$ $r$ $\hat{\mathbf Y}$

{\hat{B}}_{R R R} = {\hat{B}}_{O L S} U_{r} U_{r}^{⊤} .

$\hat{\mathbf B}_\mathrm{RRR}=\hat{\mathbf B}_\mathrm{OLS}\mathbf U_r\mathbf U_r^\top.$

3. Para que serve o RRR?

Pode haver dois motivos para usar o RRR.

Primeiro, pode-se usá-lo para fins de regularização. Da mesma forma que a regressão cume (RR), laço, etc., RRR introduz alguma penalidade "encolhimento" na . A classificação ótima pode ser encontrada através da validação cruzada. Na minha experiência, o RRR supera facilmente o OLS, mas tende a perder para o RR. No entanto, RRR + RR pode ter um desempenho (ligeiramente) melhor que o RR sozinho. $\mathbf B$ $r$

Segundo, pode-se usá-lo como um método de redução de dimensionalidade / exploração de dados. Se tivermos várias variáveis preditivas e várias variáveis dependentes, a RRR construirá "fatores latentes" no espaço preditivo que fazem o melhor trabalho para explicar a variação dos DVs. Pode-se então tentar interpretar esses fatores latentes, plotá-los, etc. Até onde eu sei, isso é rotineiramente feito em ecologia, onde a RRR é conhecida como análise de redundância e é um exemplo do que eles chamam de métodos de ordenação ( veja a resposta de @ GavinSimpson aqui )

4. Relação com outros métodos de redução de dimensionalidade

O RRR está intimamente conectado a outros métodos de redução de dimensionalidade, como CCA e PLS. Eu o cobri um pouco na minha resposta para Qual é a conexão entre mínimos quadrados parciais, regressão de classificação reduzida e regressão de componentes principais?

se e são conjuntos de dados preditores centralizados ( ) e de resposta ( ) e se procurarmos o primeiro par de eixos, para e para , esses métodos maximizam as seguintes quantidades: $\mathbf X$ $\mathbf Y$ $n \times p$ $n\times q$ $\mathbf w \in \mathbb R^p$ $\mathbf X$ $\mathbf v \in \mathbb R^q$ $\mathbf Y$

$\begin{aligned} P C A : & Var (X w) \\ R R R : & {Corr}^{2} (X w, Y v) \cdot Var (Y v) \\ P L S : & Var (X w) \cdot {Corr}^{2} (X w, Y v) \cdot Var (Y v) = {Cov}^{2} (X w, Y v) \\ C C A : & {Corr}^{2} (X w, Y v) \end{aligned}$ $\begin{align} \mathrm{PCA:}&\quad \operatorname{Var}(\mathbf{Xw}) \\ \mathrm{RRR:}&\quad \phantom{\operatorname{Var}(\mathbf {Xw})\cdot{}}\operatorname{Corr}^2(\mathbf{Xw},\mathbf {Yv})\cdot\operatorname{Var}(\mathbf{Yv}) \\ \mathrm{PLS:}&\quad \operatorname{Var}(\mathbf{Xw})\cdot\operatorname{Corr}^2(\mathbf{Xw},\mathbf {Yv})\cdot\operatorname{Var}(\mathbf {Yv}) = \operatorname{Cov}^2(\mathbf{Xw},\mathbf {Yv})\\ \mathrm{CCA:}&\quad \phantom{\operatorname{Var}(\mathbf {Xw})\cdot {}}\operatorname{Corr}^2(\mathbf {Xw},\mathbf {Yv}) \end{align}$

Veja lá para mais alguns detalhes.

Veja Torre, 2009, Uma estrutura de mínimos quadrados para análise de componentes para um tratamento detalhado de como a maioria dos métodos multivariados lineares comuns (por exemplo, PCA, CCA, LDA, - mas não PLS!) Pode ser vista como RRR.

5. Por que esta seção está em Hastie et al. tão confuso?

Hastie et al. use o termo RRR para se referir a algo ligeiramente diferente! Em vez de usar a função de perda eles usam como pode ser visto na fórmula 3.68. Isso introduz um fator de clareamento na função de perda, essencialmente branqueando as variáveis dependentes. Se você observar a comparação entre o CCA e o RRR acima, notará que se for embranquecido, a diferença desaparecerá. Então, o que Hastie et al. chamar RRR é na verdade CCA disfarçado (e de fato, veja seus 3,69).

L = ‖ Y - X B ‖^{2},

$L=\|\mathbf Y-\mathbf X \mathbf B\|^2,$

L = ‖ (Y - X B) (Y^{⊤} Y)^{- 1 / 2} ‖^{2},

$L=\|(\mathbf Y-\mathbf X \mathbf B)(\mathbf Y^\top \mathbf Y)^{-1/2}\|^2,$

Y

$\mathbf Y$

Y

$\mathbf Y$

Nada disso é explicado corretamente nesta seção, daí a confusão.

Veja minha resposta ao tutorial Amigável ou introdução à regressão de classificação reduzida para leitura adicional.

— ameba diz Restabelecer Monica
fonte

Esta é uma explicação detalhada muito bem escrita. Obrigado, agradeço.

— CGO

r

$r$

B

$\bf B$

Y

$Y$

B

$B$

B

$B$

L

$L$

B

$B$

L

$L$

r

$r$

r

$r$

\hat{df} (r) = p q - (p - r) (q - r) + "a small correction term"

$\hat{\text{df}}(r) = pq - (p-r)(q-r) + \text{"a small correction term"}$

p

$p$

q

$q$

r

$r$

\frac{‖ Y - {\hat{Y}}^{RRRR} (r) ‖_{Fro}^{2}}{(n q - \hat{df} (r))^{2}}

$\frac{\|Y - \hat{Y}^{\text{RRRR}}(r)\|_{\text{Fro}}^2}{(nq - \hat{\text{df}}(r))^2}$

Veja, por exemplo, google.fr/url?sa=t&source=web&rct=j&url=https://…

— dohmatob

A regressão de classificação reduzida é um modelo em que não há um único resultado Y, mas vários resultados Y. Obviamente, você pode apenas ajustar uma regressão linear multivariada separada para cada resposta, mas isso parece ineficiente quando a relação funcional entre os preditores e cada resposta é claramente semelhante. Veja este exercício de kaggle para uma situação em que acredito que isso obviamente se aplica.

https://www.kaggle.com/c/bike-sharing-demand/data

Existem várias técnicas relacionadas para abordar esse problema que criam "fatores" ou "componentes" a partir das variáveis X que são usadas para prever os Ys. Esta página de documentação do SAS ajudou a esclarecer as diferenças para mim. A regressão de classificação reduzida parece ser sobre a extração de componentes que respondem ao máximo pela variação entre as respostas, em contraste com os Mínimos Quadrados Parciais, que extraem os componentes que respondem ao máximo pela variação entre as respostas e os preditores.

https://support.sas.com/documentation/cdl/en/statug/63347/HTML/default/viewer.htm#statug_pls_sect014.htm

— Iggy25
fonte

+1. Está correto. Eu discuti esta página de documentação do SAS e, em particular, sua figura na minha resposta para stats.stackexchange.com/questions/206587.

— ameba diz Restabelecer Monica