O aparente desacordo das fontes na análise linear, quadrática e discriminante de Fisher

Estou estudando análises discriminantes, mas estou tendo dificuldades para conciliar várias explicações diferentes. Acredito que devo estar faltando alguma coisa, porque nunca encontrei esse nível (aparentemente) de discrepância antes. Dito isto, o número de perguntas sobre análise discriminante neste site parece testemunhar sua complexidade.

LDA e QDA para várias classes

Meu livro principal é Análise Estatística Multivariada Aplicada (AMSA) da Johnson & Wichern e as anotações de meus professores com base nisso. Ignorarei a configuração de dois grupos, porque acredito que as fórmulas simplificadas nessa configuração estão causando pelo menos parte da confusão. De acordo com essa fonte, LDA e QDA são definidas como uma extensão paramétrica (assumindo normalidade multivariada) de uma regra de classificação com base no custo esperado de classificação incorreta (ECM). O ECM soma o custo esperado condicional para classificar uma nova observação x para qualquer grupo (incorporando custos de classificação incorreta e probabilidades anteriores) e escolhemos regiões de classificação que minimizam isso. em que

E C M = \sum_{i = 1}^{g r o u p s} p_{i} [\sum_{k = 1; i \neq k}^{g r o u p s} P (k | i) c (k | i)]

$ECM = \sum_{i=1}^{groups} p_i [\sum_{k=1;\space i \ne k}^{groups}P(k|i)c(k|i)]$

P (k | i) = P (classifying item as group k | item is group i) = \int_{R_{k}} f_{i} (x) d x

$P(k|i) = P(\text{classifying item as group k } | \text{ item is group i}) = \int_{R_k} f_i(\boldsymbol{x})d\boldsymbol{x}$ ,

f_{i} (x)

$f_i(\boldsymbol{x})$ é a densidade populacional,

R_{k}

$R_k$ é o conjunto de observações no grupo k,

c

$c$ é o custo e

p_{i}

$p_i$ são as probabilidades anteriores. Novas observações podem ser atribuídas ao grupo para o qual o termo interno é menor ou equivalente, para o qual a parte deixada de fora do termo interno

p_{k} f_{k} (x)

$p_k f_k(\boldsymbol{x})$ é maior

Supostamente, essa regra de classificação é equivalente a "uma que maximize as probabilidades posteriores" (sic AMSA), que só posso assumir é a abordagem de Bayes que já vi mencionada. Isso está correto? E o ECM é um método mais antigo, porque nunca vi isso acontecer em nenhum outro lugar.

Para populações normais, esta regra simplifica a pontuação discriminante quadrática: .

d_{i}^{Q} (x) = - \frac{1}{2} l o g (Σ_{i}) - \frac{1}{2} (x - μ_{i})^{T} Σ_{i}^{- 1} (x - μ_{i}) + l o g (p_{i})

$d_i^Q(\boldsymbol{x}) = -\frac{1}{2} log(\boldsymbol{\Sigma_i}) -\frac{1}{2} (\boldsymbol{x - \mu_i})^T \boldsymbol{\Sigma}_i^{-1}(\boldsymbol{x - \mu_i}) + log(p_i)$

Isso parece equivalente à fórmula dos Elementos da aprendizagem estatística (ESL) 4.12 na página 110, embora eles a descrevam como uma função discriminante quadrática em vez de uma pontuação . Além disso, eles chegam aqui através da razão logarítmica de densidades multivariadas (4.9). Esse é outro nome para a abordagem de Bayes?

Quando assumimos covariância igual, a fórmula simplifica ainda mais o escore discriminante linear .

d_{i} (x) = μ_{i}^{T} Σ^{- 1} x - \frac{1}{2} μ_{i}^{T} Σ^{- 1} μ_{i} + l o g (p_{i})

$d_i(\boldsymbol{x}) = \boldsymbol{\mu_i}^T \boldsymbol{\Sigma}^{-1}\boldsymbol{x} -\frac{1}{2} \boldsymbol{\mu_i}^T \boldsymbol{\Sigma}^{-1} \boldsymbol{\mu_i} + log(p_i)$

Essa fórmula difere da ESL (4.10), onde o primeiro termo é revertido: . A versão ESL é também a um listados na estatística de aprendizagem em R . Além disso, na saída SAS apresentada na AMSA, uma função discriminante linear é descrita consistindo em uma constante e um coeficiente vetor , aparentemente consistente com a versão ESL. $x^T \boldsymbol{\Sigma}^{-1}\mu_k$ $0.5 \bar{X}_j^T COV^{-1}\bar{X}_j + ln \text{ prior}_j$ $COV^{-1}\bar{X}_j$

Qual poderia ser a razão por trás dessa discrepância?

Discriminantes e método de Fisher

Nota: se esta pergunta for considerada muito grande, removerei esta seção e abrirá uma nova pergunta, mas ela se baseia na seção anterior. Desculpas pelo muro de texto de qualquer maneira, tentei estruturá-lo um pouco, mas tenho certeza de que minha confusão sobre esse método levou a alguns saltos lógicos bastante estranhos.

O livro da AMSA continua descrevendo o método de Fisher, também para vários grupos. No entanto, o ttnphns apontou várias vezes que o FDA é simplesmente um LDA com dois grupos. O que é esse FDA multiclasse então? Talvez o FDA possa ter múltiplos significados?

A AMSA descreve os discriminantes de Fisher como os vetores próprios de que maximizam a proporção . As combinações lineares são então os discriminantes da amostra (dos quais existem ). Para a classificação, escolhemos o grupo k com o menor valor para onde r é o número de discriminantes que gostaríamos de usar. Se usarmos todos os discriminantes, essa regra seria equivalente à função discriminante linear. $\boldsymbol{W^{-1}B}$ $\boldsymbol{\frac{\hat{a}^TB\hat{a}}{\hat{a}^TW\hat{a}}}$ $\boldsymbol{\hat{e}_ix}$ $min(g-1, p)$ $\sum_{j=1}^{r}[\boldsymbol{\hat{e}_j^T}(\boldsymbol{x}-\boldsymbol{\bar{x}}_k)]^2$

Muitas explicações sobre o LDA parecem descrever a metodologia que é chamada de FDA no livro da AMSA, ou seja, a partir deste aspecto entre / dentro da variabilidade. O que significa então a FDA, se não a decomposição das matrizes BW?

Esta é a primeira vez que o livro de texto menciona o aspecto de redução de dimensão da análise discriminante, enquanto várias respostas neste site enfatizam a natureza em dois estágios dessa técnica, mas isso não é claro em uma configuração de dois grupos porque existe apenas 1 discriminante. Dadas as fórmulas acima para LDA e QDA multiclasses, ainda não me é evidente onde os discriminantes aparecem.

Esse comentário me deixou especialmente confuso, observando que a classificação de Bayes poderia essencialmente ser realizada nas variáveis originais. Mas se o FDA e o LDA são matematicamente equivalentes, como apontado pelo livro e aqui , a redução da dimensionalidade não deve ser inerente às funções ? Eu acredito que é para isso que o último link está abordando, mas não tenho certeza. $d_i$

As anotações do curso de meu professor continuam explicando que o FDA é essencialmente uma forma de análise de correlação canônica. Eu encontrei apenas uma outra fonte que fala sobre esse aspecto, mas mais uma vez parece estar intimamente ligada à abordagem de Fisher de decompor a variabilidade entre e dentro. O SAS apresenta um resultado no seu procedimento LDA / QDA (DISCRIM) que aparentemente está relacionado ao método de Fisher ( https://stats.stackexchange.com/a/105116/62518 ). Entretanto, a opção FDA do SAS (CANDISC) realiza essencialmente uma correlação canônica, sem apresentar os chamados coeficientes de classificação de Fisher. Apresenta coeficientes canônicos brutos que, acredito, são equivalentes aos autovetores W-1B de R obtidos por lda (MASS) (https://support.sas.com/documentation/cdl/en/statug/63033/HTML/default/viewer.htm#statug_candisc_sect019.htm ). Os coeficientes de classificação parecem ser obtidos a partir da função discriminante que descrevi na seção LDA e QDA (uma vez que existe uma função por população e escolhemos a maior).

Ficaria grato por todos e quaisquer esclarecimentos ou referências a fontes que poderiam me ajudar a ver a floresta através das árvores. A principal causa da minha confusão parece ser que livros de texto diferentes chamam métodos por nomes diferentes ou apresentam uma ligeira variação da matemática, sem reconhecer as outras possibilidades, embora eu ache que isso não deve ser uma surpresa, considerando a idade do livro da AMSA .

multivariate-analysis discriminant-analysis

— Zenit
fonte

If we use all the discriminants this rule would be equivalent to the linear discriminant functionNão está claro. "Discriminante" e "função discriminante" são sinônimos. Você pode usar todos os discriminantes ou apenas alguns dos mais fortes / significativos. Não virei para o livro da AMSA, mas suspeito que FDA = LDA, para os autores. Na verdade, eu pessoalmente acho que "Fisher LDA" seria um termo excedente e desnecessário.

— precisa saber é o seguinte

Em "Adição" a esta resposta sobre a classificação LDA, noto que o cálculo das "funções de classificação linear de Fisher" diretamente das variáveis equivale a Extract the discriminants -> classify by them all (using Bayes approach, as usual)quando, como geralmente por padrão, a matriz de covariância combinada dentro da classe dos discriminantes é usada na classificação.

— precisa saber é o seguinte

Na verdade, as "funções de classificação linear de Fisher" são uma maneira de executar a LDA sem fazer a composição automática de W^-1Be depois fazer "Bayes". É equivalente, mas é menos flexível (você não pode selecionar apenas alguns dos discriminantes, não pode usar separado nas matrizes de covariância na classificação, etc.).

— precisa saber é

Ainda estou digerindo sua resposta e links (obrigado), mas: 1) Aqui está um trecho da AMSA que esclarece "discriminantes" e "pontuações discriminantes" i.imgur.com/7W7vc8u.jpg?1 Eu usei os termos "score" e "function" alternadamente. 3) No mesmo trecho, você pode ver que o livro da AMSA se refere à composição de boldsy eigend como uma maneira de obter os discriminantes de Fisher. A forma como ele é apresentado aqui o método de Fisher parece mais flexível do que o método linear / quadrática que apenas resulta em um disco função discriminante / pontuação ..

W^{- 1} B

$\boldsymbol{W^{-1}B}$

— Zenit

Zenit, para mim, pontuação discriminante é o valor de uma função discriminante (canônica). Não posso ir tão longe a ponto de comparar as fórmulas que você cita com o que sei sobre como os discriminantes canônicos são computados no SPSS . Sugiro que você faça cálculos, compare resultados e tire suas conclusões. Além disso, suspeito que textos diferentes possam aplicar o rótulo "Fisher" de maneira diferente.

— ttnphns

Estou abordando apenas um aspecto da questão e fazendo-o intuitivamente sem álgebra.

Se as classes têm as mesmas matrizes de variância-covariância e diferem apenas pelo deslocamento de seus centróides no espaço tridimensional , elas são completamente linearmente separáveis no "subespaço ". É isso que a LDA está fazendo. Imagine que você tem três elipsóides idênticos no espaço das variáveis . Você deve usar as informações de todas as variáveis para prever a associação de classe sem erros. Mas, devido ao fato de serem nuvens idênticas e orientadas, é possível resgatá-las por uma transformação comum em bolas de raio unitário. Então $g$ $p$ $q=min(g-1,p)$ $V_1, V_2, V_3$ $q=g-1=2$ dimensões independentes serão suficientes para prever os membros da classe tão precisamente quanto antes. Essas dimensões são chamadas de funções discriminantes . Com 3 bolas de pontos do mesmo tamanho, você precisa de apenas 2 linhas axiais e conhecer as coordenadas das bolas para atribuir todos os pontos corretamente. $D_1, D_2$

Discriminantes são variáveis não correlacionadas, suas matrizes de covariância dentro da classe são idealmente identitárias (as bolas). Os discriminantes formam um subespaço do espaço das variáveis originais - elas são suas combinações lineares. No entanto, eles não são eixos do tipo rotação (tipo PCA): vistos no espaço das variáveis originais, discriminantes como eixos não são mutuamente ortogonais .

Assim, sob o pressuposto de homogeneidade da LDA dentro da classe, covariâncias usando para classificação todos os discriminantes existentes não é pior do que classificar imediatamente pelas variáveis originais. Mas você não precisa usar todos os discriminantes. Você pode usar apenas primeiro dos mais fortes / estatisticamente significantes deles. Dessa forma, você perde informações mínimas para classificação e a classificação incorreta será mínima. Visto dessa perspectiva, o LDA é uma redução de dados semelhante ao PCA, apenas supervisionada. $m<q$

Observe que, assumindo a homogeneidade (+ normalidade multivariada) e desde que você planeje usar, mas todos os discriminantes na classificação, é possível ignorar a extração dos próprios discriminantes - que envolve o problema de autogeneral generalizado - e calcular as chamadas "funções de classificação de Fisher" diretamente das variáveis, para classificar com elas , com o resultado equivalente. Assim, quando as classes são de forma idêntica, podemos considerar as variáveis de entrada ou as funções de Fisher ou os discriminantes como todos os conjuntos equivalentes de "classificadores". Mas os discriminantes são mais convenientes em muitos aspectos. $g$ $p$ $g$ $q$ $^1$

Como geralmente as classes não são "elipses idênticas" na realidade, a classificação pelos discriminantes é um pouco mais pobre do que se você fizer a classificação de Bayes por todas as variáveis originais. Por exemplo, neste gráfico, os dois elipsóides não são paralelos um ao outro; e pode-se entender visualmente que o único discriminante existente não é suficiente para classificar os pontos com a precisão que as duas variáveis permitem. QDA (análise discriminante quadrática) seria então uma aproximação melhor do que LDA. Uma abordagem prática a meio caminho entre a LDA e a QDA é usar discriminantes da LDA, mas usar suas matrizes de covariância de classe separada observadas na classificação ( ver , ver $q$ $p$ ) em vez de sua matriz agrupada (que é a identidade).

(E sim, a LDA pode ser vista como intimamente relacionada a, mesmo um caso específico, da análise de correlação MANOVA e Canonical ou regressão multivariada de classificação reduzida - veja , veja , veja .)

$^1$ Uma nota terminológica importante. Em alguns textos, as funções de classificação de Fisher podem ser chamadas de "funções discriminantes de Fisher", que podem confundir com os discriminats que são funções discriminantes canônicas (isto é, obtidas na composição automática de $g$ $q$ $\bf W^{-1}B$ ) Para maior clareza, recomendo dizer "funções de classificação de Fisher" vs "funções discriminantes canônicas" (= discriminantes, para abreviar). No entendimento moderno, LDA é a análise discriminante linear canônica. "Análise discriminante de Fisher" é, pelo menos para meu conhecimento, ou LDA com 2 classes (onde o único discriminante canônico é inevitavelmente a mesma coisa que as funções de classificação de Fisher) ou, em termos gerais, o cálculo das funções de classificação de Fisher em configurações de várias classes.

— ttnphns
fonte

Re terminologia: o artigo da Wikipedia sobre LDA ( en.wikipedia.org/wiki/Linear_discriminant_analysis ) afirma que "Os termos discriminante linear de Fisher e LDA são freqüentemente usados de forma intercambiável, embora o artigo original de Fisher [1] realmente descreva um discriminante ligeiramente diferente, o que faz não faça algumas das suposições da LDA, como classes normalmente distribuídas ou covariâncias de classes iguais ". Com base nisso, o LDA em 2 classes parece ser um caso especial do "FDA", se as covariâncias do grupo forem "iguais". @ttnphns: isso está correto?

— Laryx Decídua

@ LarryDecidua, não tenho 100% de certeza sobre a terminologia neste caso e já vi opiniões diferentes. Não uso o termo "DA de Fisher". Mas quando as pessoas perguntam, eu respondo isso em minha mente: "FDA é LDA com 2 classes".

— ttnphns

Obrigado, para mim, o aspecto mais interessante é que "FDA", de acordo com a Wikipedia, não assume normalidade, enquanto "LDA" (e QDA) assumem. Talvez "o FDA seja um LDA com 2 classes, não assumindo normalidade ou homoscedasticidade".

— Laryx Decídua