Seleção de recursos usando informações mútuas no Matlab

10

Estou tentando aplicar a idéia de informações mútuas à seleção de recursos, conforme descrito nestas notas de aula (na página 5).

Minha plataforma é Matlab. Um problema que encontro ao calcular informações mútuas a partir de dados empíricos é que o número é sempre tendencioso para cima. Encontrei cerca de 3 a 4 arquivos diferentes para calcular o MI no Matlab Central e todos eles fornecem grandes números (como> 0,4) quando eu alimento variáveis aleatórias independentes.

Não sou especialista, mas o problema parece ser que, se você simplesmente usar densidades conjuntas e marginais para calcular o MI, o viés será introduzido no processo, porque o MI é por definição positivo. Alguém tem conselhos práticos sobre como estimar informações mútuas com precisão?

Uma questão relacionada é, na prática, como as pessoas realmente usam o MI para selecionar recursos? Não é óbvio para mim como chegar a um valor limite, uma vez que, em teoria, o MI é ilimitado. Ou as pessoas apenas classificam os recursos pelo MI e aceitam os principais recursos?

— entropia
fonte

Ninguém está interessado neste tópico?

Você já tem uma resposta para isso?

— entropia

Infelizmente não. Você também está tendo o mesmo problema?

3

Esse é o problema do viés de amostragem limitado .

As pequenas estimativas amostrais das densidades são barulhentas e essa variação induz correlações espúrias entre as variáveis que aumentam o valor estimado da informação.

$(R-1)(S-1) / 2N\ln2$ $2N\ln(2)I$ $\chi^2$ $(R-1)(S-1)$

Alguns pacotes que implementam essas técnicas no Matlab incluem infotoolbox e Spike Train Analysis Toolkit .

Para o caso contínuo, os estimadores baseados nas distâncias dos vizinhos mais próximos reduzem o problema.

— tropeço
fonte

1

Usei divergência KL e, com tamanhos de amostra apropriados, obtenho valores 0 para locais onde as distribuições têm igual probabilidade.

Eu sugiro que você reformule seu MI em termos de divergência KL.

— EngrStudent
fonte

1

Você deve usar um algoritmo de Informação Mútua Parcial para a seleção da variável de entrada (recurso). É baseado nos conceitos de IM e na estimativa da densidade de probabilidade. Por exemplo em:

O PMI baseado em kernel : (+) possui um critério de parada (Critérios de informação de Akaike) (-) maior complexidade
PMI baseado em kNN : (-) não possui um critério de parada (+) menor complexidade

Usei o PMI para reduzir o número de entradas de redes neurais à medida que aumentam a complexidade e introduzem outros problemas. Você pode encontrar uma visão geral completa dos algoritmos de seleção de variáveis de entrada (IVS) na publicação Revisão dos métodos de seleção de variáveis de entrada para redes neurais artificiais . Você pode usar o IVS para SVM e outros. Para encurtar as coisas, use o PMI.

— user2034223
fonte