Eu me tornei um niilista quando se trata de classificações de importância variável (no contexto de modelos multivariados de todos os tipos).
Frequentemente, no decorrer do meu trabalho, me pedem para ajudar outra equipe a produzir uma classificação de importância variável ou produzir uma classificação de importância variável a partir do meu próprio trabalho. Em resposta a essas solicitações, faço as seguintes perguntas
Para que você gostaria dessa classificação de importância variável? O que você espera aprender com isso? Que tipo de decisão você gostaria de tomar ao usá-lo?
As respostas que recebo quase sempre se enquadram em uma de duas categorias
- Gostaria de saber a importância das diferentes variáveis no meu modelo na previsão da resposta.
- Eu gostaria de usá-lo para a seleção de recursos, removendo variáveis de baixa importância.
A primeira resposta é tautológica (eu gostaria de uma classificação de importância variável porque gostaria de uma classificação de importância variável). Devo assumir que essas classificações preenchem uma necessidade psicológica ao consumir a saída de um modelo multivariado. Tenho dificuldade em entender isso, pois a classificação das variáveis "importância" individualmente parece rejeitar implicitamente a natureza multidimensional do modelo em questão.
A segunda resposta reduz-se essencialmente a uma versão informal da seleção reversa , cujos pecados estatísticos estão bem documentados em outras partes do CrossValidated.
Também luto com a natureza mal definida dos rankings de importância. Parece haver pouco acordo sobre qual conceito subjacente o ranking deve medir, dando a eles um sabor muito ad hoc. Há muitas maneiras de atribuir uma pontuação ou classificação importante e geralmente sofrem de desvantagens e advertências:
- Eles podem ser altamente dependentes de algoritmos, como nos rankings de importância em florestas e gbms aleatórios.
- Eles podem ter uma variação extremamente alta, mudando drasticamente com perturbações nos dados subjacentes.
- Eles podem sofrer muito com a correlação nos preditores de entrada.
Então, com tudo o que foi dito, minha pergunta é: quais são alguns usos estatisticamente válidos de classificações de importância variável ou qual é um argumento convincente (para um estatístico ou um leigo) para a futilidade de tal desejo? Estou interessado em argumentos teóricos gerais e em estudos de caso, o que for mais eficaz para argumentar.
glmnet
disponível?