A distância de Mahalanobis, quando usada para fins de classificação, normalmente assume uma distribuição normal multivariada, e as distâncias do centróide devem seguir uma (com graus de liberdade iguais ao número de dimensões / características). Podemos calcular a probabilidade de um novo ponto de dados pertencer ao conjunto usando sua distância de Mahalanobis. d
Eu tenho conjuntos de dados que não seguem uma distribuição normal multivariada ( ). Em teoria, cada recurso deve seguir uma distribuição de Poisson e, empiricamente, esse parece ser o caso de muitos recursos ( aproximadamente 200 ), e aqueles que não estão no ruído e podem ser removidos da análise. Como posso classificar novos pontos nesses dados?
Eu acho que existem dois componentes:
- Qual é a fórmula apropriada de "distância de Mahalanobis" nesses dados (ou seja, distribuição multivariada de Poisson)? Existe uma generalização da distância para outras distribuições?
- Se eu uso a distância normal de Mahalanobis ou outra formulação, qual deve ser a distribuição dessas distâncias? Existe uma maneira diferente de fazer o teste de hipótese?
Alternativamente...
O número de pontos de dados conhecidos em cada classe varia muito, de (muito poucos; determinarei um mínimo empiricamente) a cerca de . A distância de Mahalanobis escala com , portanto, as distâncias de um modelo / classe para o próximo não podem ser comparadas diretamente. Quando os dados são distribuídos normalmente, o teste do qui-quadrado fornece uma maneira de comparar distâncias de diferentes modelos (além de fornecer valores ou probabilidades críticas). Se houver outra maneira de comparar diretamente as distâncias "semelhantes a Mahalanobis", mesmo que não forneçam probabilidades, eu poderia trabalhar com isso.