Análise discriminante linear e regra de Bayes: classificação


12

Qual é a relação entre a análise discriminante linear e a regra de Bayes? Entendo que o LDA é usado na classificação, tentando minimizar a taxa de variação dentro do grupo e entre a variação no grupo, mas não sei como a regra de Bayes é usada nela.


As funções discriminantes são extraídas para maximizar a variação entre grupos e a taxa de variação dentro do grupo. Não tem nada a ver com classificação, que é o segundo estágio independente da LDA.
ttnphns

Respostas:


16

A classificação na LDA é a seguinte (abordagem das regras de Bayes). [Sobre a extração de discriminantes, pode-se procurar aqui .]

De acordo com o teorema de Bayes, a probabilidade procurada de lidar com a classe kk enquanto observamos atualmente o ponto xx é P ( k | x ) = P ( k ) P ( x | k ) / P ( x )P(k|x)=P(k)P(x|k)/P(x) , onde

P ( k )P(k) - probabilidade incondicional (de fundo) da classe kk ; P ( x )P(x) - probabilidade incondicional (de fundo) do ponto xx ; P ( x | k )P(x|k) - probabilidade de presença do ponto xx na classe kk , se a classe que está sendo tratada for kk .

"Observando atualmente o ponto xx " sendo a condição base, P ( x ) = 1P(x)=1 e, portanto, o denominador pode ser omitido. Assim, P ( k | x ) = P ( k ) P ( x | k )P(k|x)=P(k)P(x|k) .

P ( k )P(k) é uma probabilidade anterior (pré-analítica) de que a classe nativa para xx seja kk ; P ( k )P(k) é especificado pelo usuário. Normalmente, por padrão, todas as classes recebem P ( k )P(k) = 1 / número_de_classesigual. Para calcular P ( k | x )P(k|x) , ou seja, probabilidade posterior (pós-analítica) de que a classe nativa para xx é kk , deve-se conhecer P ( x | k )P(x|k) .

P ( x | k )P(x|k) - probabilidade emsi- não pode ser encontrada, pois os discriminantes, a principal questão da LDA, são variáveis ​​contínuas, não discretas. A quantidade que expressa P ( x | k )P(x|k) nesse caso e proporcional a ela é adensidade de probabilidade(função PDF). Por este meio, precisamos calcular PDF para o ponto xx na classe kk , P D F ( x | k )PDF(x|k) , nadistribuição normal p-p dimensional formada pelos valores de ppdiscriminantes. [Veja distribuição normal multivariada da Wikipedia]

P D F ( x | k ) = e - d / 2( 2 π ) p / 2 | S | )

PDF(x|k)=ed/2(2π)p/2|S|)

onde d - quadrado da distância de Mahalanobis [consulte a distância de Mahalanobis da Wikipedia] no espaço dos discriminantes do ponto x ao centróide de classe; Matriz de covariância S entre os discriminantes , observada nessa classe.dxS

Calcule dessa forma P D F ( x | k ) para cada uma das classes. P ( k ) P D F ( x | k ) para o ponto x e classe k expressam o P ( k ) P ( x | k ) procurado para nós. Mas com a reserva acima de que o PDF não é uma probabilidade propriamente dita, apenas proporcional a ele, devemos normalizar P ( k ) P DPDF(x|k)P(k)PDF(x|k)xkP(k)P(x|k)F ( x | k ) , dividindo pela soma de P ( k ) P D F ( x | k ) s em todas as classes. Por exemplo, se houver 3 classes no total, k , l , m , entãoP(k)PDF(x|k)P(k)PDF(x|k)klm

P ( k | x ) = P ( k ) P D F ( x | k ) / [ P ( k ) P D F ( x | k ) + P ( l ) P D F ( x | l ) + P ( m ) P D F ( x |m ) ]P(k|x)=P(k)PDF(x|k)/[P(k)PDF(x|k)+P(l)PDF(x|l)+P(m)PDF(x|m)]

O ponto x é atribuído pela LDA à classe para a qual P ( k | x ) é o mais alto.xP(k|x)

Nota. Essa foi a abordagem geral. Por padrão, muitos programas LDA usam a matriz S agrupada dentro da classe para todas as classes na fórmula do PDF acima. Nesse caso, a fórmula simplifica bastante, porque esse S no LDA é uma matriz de identidade (consulte a nota de rodapé aqui ) e, portanto, | S | = 1 e d se transforma em distância euclidiana quadrada (lembrete: o conjunto de S da classe que estamos falando é covariâncias entre os discriminantes, - não entre as variáveis ​​de entrada, cuja matriz é geralmente designada como S w ).SS|S|=1dSSw

Addition. Before the above Bayes rule approach to classification was introduced to LDA, Fisher, LDA pioneer, proposed computing the now so called Fisher's linear classification functions to classify points in LDA. For point xx the function score of belonging to class kk is linear combination bkv1V1x+bkv2V2x+...+Constkbkv1V1x+bkv2V2x+...+Constk, where V1,V2,...VpV1,V2,...Vp are the predictor variables in the analysis.

Coefficient bkv=(ng)pwsvwˉVkwbkv=(ng)pwsvwV¯kw, gg being the number of classes and svwsvw being the element of the pooled within-class scatter matrix of pp VV-variables.

Constk=log(P(k))(pvbkvˉVkv)/2Constk=log(P(k))(pvbkvV¯kv)/2.

Point xx gets assigned to the class for which its score is the highest. Classification results obtained by this Fisher's method (which bypasses extraction of discriminants engaged in the complex eigendecomposition) are identical with those obtained by Bayes' method only if pooled within-class covariance matrix is used with Bayes' method based on discriminants (see "Note" above) and all the discriminants are being used in the classification. The Bayes' method is more general because it allows using separate within-class matrices as well.


This is Bayesian approach right? What is the Fisher's approach for this?
zca0

1
Added to the answer upon your request
ttnphns

+1 for distinguishing between Bayes' and Fisher's approach of LDA. I'm a new-comer in LDA, and the books I read teach me LDA in Bayes' approach, which classifies XX to class KK with the highest p(K|X)p(K|X), so I have to compute all the p(K|X)p(K|X) for each class KK, right? By Fisher's approach, I just need to figure out the discriminants and their corresponding coefs, and no need to compute the posterior for each class, right?
avocado

And I think the Bayes' approach is more understandable, and why do we need to use the Fisher's approach?
avocado

We don't need. Just for historical matter.
ttnphns

1

Assume equal weights for the two error types in a two class problem. Suppose the two classes have a multivariate class conditional density of the classification variables. Then for any observed vector x and class conditional densities f1(x) and f2(x) the Bayes rule will classify x as belonging to group 1 if f1(x)f2(x) and as class 2 otherwise. The Bayes rule turns out to be a linear discriminant classifier if f1 and f2 are both multivariate normal densities with the same covariance matrix. Of course in order to be able to usefully discriminate the mean vectors must be different. A nice presentation of this can be found in Duda and Hart Pattern Classification and Scene Analysis 1973 (the book has recently been revised but I like particularly the presentation in the original edition).

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.