Como o LDA, uma técnica de classificação, também serve como técnica de redução de dimensionalidade como o PCA


19

Neste artigo , o autor vincula a análise discriminante linear (LDA) à análise de componentes principais (PCA). Com meu conhecimento limitado, não sou capaz de acompanhar como o LDA pode ser um pouco semelhante ao PCA.

Eu sempre pensei que o LDA era uma forma de algoritmo de classificação, semelhante à regressão logística. Aprecio alguma ajuda para entender como o LDA é semelhante ao PCA, ou seja, como é uma técnica de redução de dimensionalidade.


2
Não é correto chamar a LDA apenas de uma técnica de classificação. É uma técnica composta de dois estágios: primeiro reduza a dimensionalidade e depois classifique. Como redução de dimensionalidade, é supervisionado, diferentemente do PCA. Como classificação, considera a probabilidade marginal, diferentemente da regressão logística.
ttnphns 31/08/2015

É mais claro usar o termo 'redução de dimensionalidade' para lidar apenas com métodos de aprendizado não supervisionados, por exemplo, análise de agrupamento e redundância. O LDA é um aprendizado estritamente supervisionado, de modo que criaria um viés de super adequação caso fosse usado no primeiro passo da redução de dados.
31715 Frank Harrell

Uma pergunta muito semelhante anterior: stats.stackexchange.com/q/22884/3277 .
precisa saber é o seguinte

1
Frank, várias estratégias, por exemplo, de seleção de recursos, podem ser aplicadas no 1º estágio do LDA (incluindo a abordagem gradual que é repugnante para você :-).
precisa saber é o seguinte

Respostas:


22

Como observei no comentário à sua pergunta, a análise discriminante é um procedimento composto com dois estágios distintos - redução da dimensionalidade (supervisionada) e estágio de classificação. Na redução da dimensionalidade, extraímos funções discriminantes que substituem as variáveis ​​explicativas originais. Em seguida, classificamos (normalmente pela abordagem de Bayes) as observações para as classes usando essas funções.

Algumas pessoas tendem a deixar de reconhecer essa natureza clara da LDA em dois estágios, simplesmente porque se familiarizaram apenas com a LDA com duas classes (chamada análise discriminante de Fisher ). Nessa análise, existe apenas uma função discriminante e a classificação é direta e, portanto, tudo pode ser explicado em um livro em um único "passe" sem convidar conceitos de redução de espaço e classificação de Bayes.

O LDA está intimamente relacionado ao MANOVA. O último é um lado "superficial e amplo" do modelo linear (multivariado), enquanto a imagem "aprofundada e focada" é a análise de correlação canônica (CCA). O fato é que a correlação entre dois conjuntos multivariados de variáveis ​​não é unidimensional e é explicada por alguns pares de variáveis ​​"latentes" chamadas variáveis ​​canônicas.

Como uma redução de dimensionalidade, a LDA é teoricamente um CCA com dois conjuntos de variáveis, sendo um conjunto as variáveis ​​de intervalo "explicativas" correlacionadas e o outro conjunto as variáveis fictícias (ou outro código de contraste) representando os grupos , as classes de observações.kk1k

Na CCA, consideramos os dois conjuntos de variáveis ​​correlacionadas X e Y iguais em direitos. Portanto, extraímos variáveis ​​canônicas de ambos os lados, e elas formam pares: variável 1 do conjunto X e variável 1 do conjunto Y com correlação canônica entre eles no máximo; então a variável 2 do conjunto X e a variável 2 do conjunto Y com uma correlação canônica menor etc. Na LDA, geralmente não estamos interessados ​​numericamente em variáveis ​​canônicas do lado do conjunto de classes; no entanto, nos interessamos pelas variáveis ​​canônicas do lado explicativo. Esses são chamados de funções discriminantes canônicas ou discriminantes .

Os discriminantes são os que se correlacionam maximamente com as "linhas" de separação entre os grupos. Discriminante 1 explica a maior parte da separação; o discriminante 2 escolhe parte da separação deixada inexplicável devido à ortogonalidade à separação anterior; O descriminat 3 explica ainda alguns remanescentes de separação ortogonais aos dois anteriores, etc. No LDA com variáveis ​​de entrada (dimensões) e classes , o número possível de discriminantes (dimensões reduzidas) é e quando as premissas O LDA mantém esse número completamente discriminatório entre as classes e é capaz de classificar completamente os dados para as classes ( consulte ).k m i n ( k - 1 , p )pkmin(k1,p)

Para repetir, esse é realmente o CCA em sua natureza. O LDA com mais de 3 classes é chamado de "LDA canônico". Apesar de o CCA e o LDA serem tipicamente implementados algoritmicamente de maneira um pouco diferente, em termos de eficiência do programa, eles são "iguais" o suficiente para que seja possível recalcular os resultados (coeficientes etc.) obtidos em um procedimento e aqueles obtidos no outro. A maior parte da especificidade da LDA está no domínio da codificação das variáveis ​​categóricas que representam os grupos. Esse é o mesmo dilema que é observado na (M) ANOVA. Diferentes esquemas de codificação levam a diferentes formas de interpretação dos coeficientes.

Como o LDA (como redução de dimensionalidade) pode ser entendido como um caso específico de ACC, você definitivamente precisa explorar essa resposta comparando o ACC com o PCA e a regressão. O ponto principal é que o CCA é, em certo sentido, mais próximo da regressão do que o PCA, porque o CCA é uma técnica supervisionada (uma combinação linear latente é desenhada para se correlacionar com algo externo) e o PCA não é (uma combinação linear latente é desenhada para resumir o interno). Estes são dois ramos da redução de dimensionalidade.

Quando se trata de matemática, você pode descobrir que, embora as variações dos componentes principais correspondam aos valores próprios da nuvem de dados (a matriz de covariância entre as variáveis), as variações dos discriminantes não estão tão claramente relacionadas aos valores próprios produzidos em LDA. O motivo é que, na LDA, os autovalores não resumem a forma da nuvem de dados; em vez disso, eles pertencem à quantidade abstrata da proporção da variação entre classes e dentro da classe na nuvem.

Assim, os componentes principais maximizam a variação e os discriminantes maximizam a separação de classes; um caso simples em que um PC falha em discriminar as classes suficientemente bem, mas uma lata discriminante são essas imagens. Quando desenhadas como linhas no recurso original, os discriminantes de espaço geralmente não parecem ortogonais (apesar de não serem correlacionados), mas os PCs sim.


Nota de rodapé para meticuloso. Como, em seus resultados, o LDA está exatamente relacionado ao CCA . Para repetir: se você faz LDA com pvariáveis ​​e kclasses e faz CCA com o Conjunto1 como essas pvariáveis ​​e o Conjunto2 como variáveis k-1fictícias indicadoras que representam grupos (na verdade, não necessariamente variáveis ​​indicadoras - outros tipos de variáveis ​​de contraste, como desvio ou Helmert) farão ), os resultados são equivalentes em relação às variáveis ​​canônicas extraídas para o Conjunto1 - elas correspondem diretamente às funções discriminantes extraídas na LDA. Qual é o relacionamento exato, no entanto?

Álgebra e terminologia da LDA é explicada aqui , e álgebra e terminologia da CCA é explicada aqui . As correlações canônicas serão as mesmas. Mas e os coeficientes e os valores "latentes" (pontuações)? Considere uma variável ésima discriminante e correspondente ( ésima) canônica. Para eles,jjj

CCA standardized coefficientLDA raw coefficient=CCA canonical variate valueLDA discriminant value=pooled within class variance in the variate pooled within class variance in the discriminant

"Agrupado dentro da variação de classe" é a média ponderada das variações do grupo com peso = n-1em um grupo. Em discriminante, essa quantidade é (leia no link da álgebra do LDA) e, portanto, o coeficiente de proporcionalidade para alternar para os resultados do CCA a partir dos resultados do LDA é simplesmente . Porém, como a variável canônica é padronizada em toda a amostra, esse coeficiente é igual ao (que é padronizado dentro dos grupos). Portanto, basta dividir os resultados do LDA (coeficientes e pontuações) pelo do discriminante para obter os resultados do CCA.1 st. desvio do discriminanteσ

pooled within class variance in the variate
st. deviation of the discriminantσ

A diferença entre o CCA e o LDA deve-se ao fato de o LDA "saber" que existem classes (grupos): você indica diretamente os grupos para calcular as matrizes internas e entre as dispersões. Isso torna os cálculos mais rápidos e os resultados mais convenientes para a classificação subsequente por discriminantes. O CCA, por outro lado, não está ciente das classes e processa os dados como se todas fossem variáveis ​​contínuas - o que é mais geral, mas é uma maneira mais lenta de computação. Mas os resultados são equivalentes, e eu mostrei como.

Até agora estava implícito que os k-1manequins são inseridos no CCA da maneira típica, ou seja, centralizados (como as variáveis ​​do Conjunto1). Alguém poderia perguntar: é possível entrar em todos os kmanequins e não os centralizar (para escapar da singularidade)? Sim, é possível, embora provavelmente menos conveniente. Aparecerá uma variável canônica adicional de valor próprio zero, coeficientes para isso devem ser descartados. Outros resultados permanecem válidos. Exceto os df s para testar o significado das correlações canônicas. Df para a 1ª correlação será o p*kque está errado e o verdadeiro df, como no LDA, é p*(k-1).

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.