Qual é a relação entre a análise discriminante linear e a regra de Bayes? Entendo que o LDA é usado na classificação, tentando minimizar a taxa de variação dentro do grupo e entre a variação no grupo, mas não sei como a regra de Bayes é usada nela.
Qual é a relação entre a análise discriminante linear e a regra de Bayes? Entendo que o LDA é usado na classificação, tentando minimizar a taxa de variação dentro do grupo e entre a variação no grupo, mas não sei como a regra de Bayes é usada nela.
Respostas:
A classificação na LDA é a seguinte (abordagem das regras de Bayes). [Sobre a extração de discriminantes, pode-se procurar aqui .]
De acordo com o teorema de Bayes, a probabilidade procurada de lidar com a classe k
P ( k )
"Observando atualmente o ponto x
P ( k )
P ( x | k )
P D F ( x | k ) = e - d / 2( 2 π ) p / 2 √| S | )
onde d - quadrado da distância de Mahalanobis [consulte a distância de Mahalanobis da Wikipedia] no espaço dos discriminantes do ponto x ao centróide de classe; Matriz de covariância S entre os discriminantes , observada nessa classe.
Calcule dessa forma P D F ( x | k ) para cada uma das classes. P ( k ) ∗ P D F ( x | k ) para o ponto x e classe k expressam o P ( k ) ∗ P ( x | k ) procurado para nós. Mas com a reserva acima de que o PDF não é uma probabilidade propriamente dita, apenas proporcional a ele, devemos normalizar P ( k ) ∗ P D
P ( k | x ) = P ( k ) ∗ P D F ( x | k ) / [ P ( k ) ∗ P D F ( x | k ) + P ( l ) ∗ P D F ( x | l ) + P ( m ) ∗ P D F ( x |m ) ]
O ponto x é atribuído pela LDA à classe para a qual P ( k | x ) é o mais alto.
Nota. Essa foi a abordagem geral. Por padrão, muitos programas LDA usam a matriz S agrupada dentro da classe para todas as classes na fórmula do PDF acima. Nesse caso, a fórmula simplifica bastante, porque esse S no LDA é uma matriz de identidade (consulte a nota de rodapé aqui ) e, portanto, | S | = 1 e d se transforma em distância euclidiana quadrada (lembrete: o conjunto de S da classe que estamos falando é covariâncias entre os discriminantes, - não entre as variáveis de entrada, cuja matriz é geralmente designada como S w ).
Addition. Before the above Bayes rule approach to classification was introduced to LDA, Fisher, LDA pioneer, proposed computing the now so called Fisher's linear classification functions to classify points in LDA. For point x
Coefficient bkv=(n−g)∑pwsvwˉVkw
Constk=log(P(k))−(∑pvbkvˉVkv)/2
Point x
Assume equal weights for the two error types in a two class problem. Suppose the two classes have a multivariate class conditional density of the classification variables. Then for any observed vector x and class conditional densities f1(x) and f2(x) the Bayes rule will classify x as belonging to group 1 if f1(x)≥f2(x) and as class 2 otherwise. The Bayes rule turns out to be a linear discriminant classifier if f1 and f2 are both multivariate normal densities with the same covariance matrix. Of course in order to be able to usefully discriminate the mean vectors must be different. A nice presentation of this can be found in Duda and Hart Pattern Classification and Scene Analysis 1973 (the book has recently been revised but I like particularly the presentation in the original edition).