Perguntas com a marcação «feature-selection»

Métodos e princípios de seleção de um subconjunto de atributos para uso em modelagem adicional

5
Ainda precisamos fazer a seleção de recursos enquanto usamos algoritmos de Regularização?
Eu tenho uma pergunta com relação à necessidade de usar métodos de seleção de recursos (florestas aleatórias apresentam valor de importância ou métodos de seleção de recursos univariados etc.) antes de executar um algoritmo de aprendizado estatístico. Sabemos que, para evitar ajustes excessivos, podemos introduzir penalidades de regularização nos vetores …


2
Como faz sentido executar o OLS após a seleção de variáveis ​​do LASSO?
Recentemente, descobri que na literatura econométrica aplicada, ao lidar com problemas de seleção de características, não é incomum executar o LASSO seguido de uma regressão OLS usando as variáveis ​​selecionadas. Fiquei me perguntando como podemos qualificar a validade de tal procedimento. Causará problemas como variáveis ​​omitidas? Alguma prova mostrando que …

1
O que concluir deste gráfico de laço (glmnet)
A seguir, é apresentado o gráfico do glmnet com alfa padrão (1, portanto, laço) usando o mtcarsconjunto de dados em R com mpgo DV e outros como variáveis ​​preditoras. glmnet(as.matrix(mtcars[-1]), mtcars[,1]) O que podemos concluir desse gráfico em relação a diferentes variáveis, especialmente am, cyle wt(linhas vermelhas, pretas e azuis …




2
Velocidade, despesas computacionais de PCA, LASSO, rede elástica
Estou tentando comparar a complexidade computacional / velocidade de estimativa de três grupos de métodos para regressão linear, conforme distinguido em Hastie et al. "Elementos da aprendizagem estatística" (2ª ed.), Capítulo 3: Seleção de subconjunto Métodos de encolhimento Métodos usando direções de entrada derivadas (PCR, PLS) A comparação pode ser …


5
Variabilidade nos resultados do cv.glmnet
Estou usando cv.glmnetpara encontrar preditores. A configuração que eu uso é a seguinte: lassoResults<-cv.glmnet(x=countDiffs,y=responseDiffs,alpha=1,nfolds=cvfold) bestlambda<-lassoResults$lambda.min results<-predict(lassoResults,s=bestlambda,type="coefficients") choicePred<-rownames(results)[which(results !=0)] Garantir que os resultados sejam reprodutíveis set.seed(1). Os resultados são altamente variáveis. Corri exatamente o mesmo código 100 para ver como os resultados eram variáveis. Nas corridas 98/100, sempre havia um preditor …



5
Entendendo quais recursos eram mais importantes para a regressão logística
Eu construí um classificador de regressão logística que é muito preciso nos meus dados. Agora eu quero entender melhor por que está funcionando tão bem. Especificamente, eu gostaria de classificar quais recursos estão dando a maior contribuição (quais recursos são mais importantes) e, idealmente, quantificar quanto cada recurso está contribuindo …


1
Em uma floresta aleatória, o maior% IncMSE é melhor ou pior?
Depois de criar um modelo de floresta aleatória (regressão) em R, a chamada rf$importancefornece duas medidas para cada variável preditora, %IncMSEe IncNodePurity. A interpretação de que variáveis ​​preditoras com %IncMSEvalores menores são mais importantes que variáveis ​​preditoras com %IncMSEvalores maiores ? Que tal para IncNodePurity?

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.