Abordagens bayesianas e de Fisher para análise discriminante linear

Conheço duas abordagens para fazer LDA, a abordagem bayesiana e a abordagem de Fisher .

Suponha que tenhamos os dados , onde é o preditor dimensional e é a variável dependente de classes. $(x,y)$ $x$ $p$ $y$ $K$

Pela abordagem bayesiana , calculamos o posterior e como Como dito nos livros, suponha que seja gaussiano, agora temos a função discriminante para a ésima classe como , posso ver que é linear função de , portanto, para todas as classes , temos funções discriminantes lineares.

p (y_{k} | x) = \frac{p (x | y_{k}) p (y_{k})}{p (x)} \propto p (x | y_{k}) p (y_{k})

$p(y_k|x)=\frac{p(x|y_k)p(y_k)}{p(x)}\propto p(x|y_k)p(y_k)$

p (x | y_{k})

$p(x|y_k)$

k

$k$

\begin{aligned} f_{k} (x) & = \ln p (x | y_{k}) + \ln p (y_{k}) \\ = \ln [\frac{1}{(2 π)^{p / 2} | Σ |^{1 / 2}} \exp (- \frac{1}{2} (x - μ_{k})^{T} Σ^{- 1} (x - μ_{k}))] + \ln p (y_{k}) \\ = x^{T} Σ^{- 1} μ_{k} - \frac{1}{2} μ_{k}^{T} Σ^{- 1} μ_{k} + \ln p (y_{k}) \end{aligned}

$\begin{align*}f_k(x)&=\ln p(x|y_k)+\ln p(y_k)\\&=\ln\left[\frac{1}{(2\pi)^{p/2}|\Sigma|^{1/2}}\exp\left(-\frac{1}{2}(x-\mu_k)^T\Sigma^{-1}(x-\mu_k)\right)\right]+\ln p(y_k)\\&=x^T\Sigma^{-1}\mu_k-\frac{1}{2}\mu_k^T\Sigma^{-1}\mu_k+\ln p(y_k)\end{align*}$

f_{k} (x)

$f_k(x)$

x

$x$

K

$K$

K

$K$

No entanto, pela abordagem de Fisher , tentamos projetar para espaço dimensional para extrair os novos recursos que minimizam a variação dentro da classe e maximizam a variação entre classes , digamos que a matriz de projeção seja com cada coluna sendo uma projeção direção. Essa abordagem é mais como uma técnica de redução de dimensão . $x$ $(K-1)$ $W$

Minhas perguntas são

(1) Podemos fazer redução de dimensão usando a abordagem bayesiana? Quero dizer, podemos usar a abordagem bayesiana para fazer a classificação encontrando as funções discriminantes que dão o maior valor para o novo , mas essas funções discriminantes ser usadas para projetar para subespaço dimensional inferior ? Assim como a abordagem de Fisher . $f_k(x)$ $x^*$ $f_k(x)$ $x$

(2) Como e as duas abordagens se relacionam? Não vejo nenhuma relação entre eles, porque um parece ser capaz de fazer a classificação com o valor , e o outro visa principalmente a redução de dimensão. $f_k(x)$

ATUALIZAR

Graças a @amoeba, de acordo com o livro da ESL, encontrei o seguinte: insira a descrição da imagem aqui

e esta é a função discriminante linear, derivada do teorema de Bayes e assumindo que todas as classes têm a mesma matriz de covariância . E essa função discriminante é a mesma que que escrevi acima. $\Sigma$ $f_k(x)$

Posso usar como a direção na qual projetar , a fim de reduzir a dimensão? Não tenho certeza disso, já que no AFAIK, a redução de dimensão é alcançada através da análise de variância entre os mesmos . $\Sigma^{-1}\mu_k$ $x$

ATUALIZAR NOVAMENTE

Na seção 4.3.3, é assim que essas projeções derivam:

insira a descrição da imagem aqui

e, é claro, assume uma covariância compartilhada entre classes, que é a matriz de covariância comum (para covariância dentro da classe) $W$ , certo? Meu problema é como computo esse partir dos dados? Como eu teria diferentes matrizes de covariância dentro da classe se tentar calcular partir dos dados. Então, eu tenho que agrupar a covariância de todas as classes para obter uma comum? $W$ $K$ $W$

discriminant-analysis

— abacate
fonte

Você pergunta mistura duas coisas. Acho que você não digeriu nossa conversa sobre sua pergunta anterior . O que você descreve primeiro é a abordagem bayesiana da classificação (não a "abordagem bayesiana da LDA"). Essa abordagem pode ser usada (1) com variáveis originais como classificadores ou (2) com discriminantes obtidos na LDA como classificadores. Qual é a abordagem de Fisher então?

— ttnphns

(Cont.) Bem, "LDA de Fisher" é simplesmente LDA com K = 2. Ao fazer a classificação dentro desse LDA, Fisher inventou suas próprias fórmulas para fazer a classificação. Essas fórmulas também podem funcionar para K> 2. Atualmente, seu método de classificação é pouco usado porque a abordagem de Bayes é mais geral.

— ttnphns

@ttnphns, a razão pela qual estou confuso é porque quase todos os livros que me referi a falar sobre LDA usando essa abordagem bayesiana, ensinando LDA como um modelo generativo, eles não mencionam a razão de variação entre os grupos e a variação dentro do grupo .

— abacate

@loganecolss: Você viu minha resposta abaixo? Você tem alguma dúvida sobre isso? Estou um pouco confuso, porque pensei ter explicado o que você está perguntando novamente nos comentários. A abordagem "variação interna" é matematicamente equivalente à "abordagem bayesiana", com uma suposição de covariâncias iguais. Você pode pensar nisso como um teorema matemático surpreendente, se quiser. A prova é dada no livro de Hastie, disponível gratuitamente on-line, e em alguns outros livros didáticos de aprendizado de máquina. Portanto, não tenho certeza do que "a única maneira autêntica de fazer LDA" possa significar; essas duas maneiras idênticas.

— Ameba

@ loganecolss: acredite, eles são equivalentes :) Sim, você deve conseguir derivar as projeções, mas precisa de uma suposição adicional de matrizes de covariância iguais (como escrevi na minha resposta). Veja meu comentário abaixo.

— Ameba

Fornecerei apenas uma resposta informal curta e encaminhá-lo-á à seção 4.3 de Os elementos do aprendizado estatístico para obter detalhes.

Atualização: "Os Elementos" abrangem detalhadamente exatamente as perguntas que você está fazendo aqui, incluindo o que você escreveu na atualização. A seção relevante é 4.3 e, em particular, 4.3.2-4.3.3.

(2) Como e as duas abordagens se relacionam?

$x$

$x$ $x$

Um insight importante é que as equações simplificam consideravelmente se alguém assumir que todas as classes têm covariância idêntica [ Update: se você assumiu isso o tempo todo, isso pode ter sido parte do mal-entendido] . Nesse caso, os limites de decisão se tornam lineares, e é por isso que esse procedimento é chamado de análise discriminante linear, LDA.

É preciso algumas manipulações algébricas para perceber que, nesse caso, as fórmulas se tornam exatamente equivalentes ao que Fisher elaborou usando sua abordagem. Pense nisso como um teorema matemático. Veja o livro de Hastie para todas as contas.

(1) Podemos fazer redução de dimensão usando a abordagem bayesiana?

Se por "abordagem bayesiana" você quer dizer lidar com diferentes matrizes de covariância em cada classe, então não. Pelo menos, não será uma redução linear da dimensionalidade (ao contrário do LDA), por causa do que escrevi acima.

$\Sigma^{-1} \mu_k$ $k$ $\boldsymbol \Sigma^{-1} \mathbf{M}$ $\mathbf{M}$ $\mu_k$

— ameba
fonte

+1. Também posso vincular minha resposta mencionando QDA stats.stackexchange.com/a/71571/3277 .

— ttnphns

+1 na parte de responder à minha pergunta 2). Eu sei que, ao fazer a análise de variância entre os intervalos , eu poderia encontrar as melhores direções para projetar a variável original e obter esses discriminantes. Com o que estou lutando agora, é possível encontrar essas direções de projeção usando Bayesiano, sem me referir à razão de variação entre os dois ?

X

$X$

— abacate

@ loganecolss: Como eu disse, você precisa assumir adicionalmente que todas as classes têm a mesma matriz de covariância! Então, começando com sua abordagem bayesiana + essa suposição, você pode derivar as projeções LDA padrão. A idéia é diagonalizar . Isso está escrito com alguns detalhes em Os elementos do aprendizado estatístico, seção 4.3.

Σ

$\boldsymbol \Sigma$

— Ameba

Vou ler essa seção mais tarde. Como você disse, assumindo que todas as classes têm a mesma matriz de covariância, posso derivar uma função que escrevi no meu post , certo? E é de fato uma função linear de , e de acordo com seu comentário, deve ser a matriz de projeção do LDA?

f_{k} (x)

$f_k(x)$

f_{k} (x)

$f_k(x)$

x

$x$

Σ^{- 1} μ_{k}

$\Sigma^{-1}\mu_k$

— abacate

Eu atualizo minha postagem adicionando um clipe da seção 4.3

— abacate