Estatísticas e Big Data random-forest

1

O valor do quadrado R é apropriado para comparar modelos?

Estou tentando identificar o melhor modelo para prever os preços dos automóveis, usando os preços e os recursos disponíveis em sites de anúncios classificados para automóveis. Para isso, usei alguns modelos da biblioteca scikit-learn e modelos de redes neurais do pybrain e neurolab. A abordagem que usei até agora é …

17 machine-learning neural-networks random-forest r-squared elastic-net

3

Quais algoritmos precisam de redimensionamento de recursos, além do SVM?

Estou trabalhando com muitos algoritmos: RandomForest, DecisionTrees, NaiveBayes, SVM (kernel = linear e rbf), KNN, LDA e XGBoost. Todos eles foram bem rápidos, exceto o SVM. Foi quando soube que ele precisa de redimensionamento de recursos para funcionar mais rapidamente. Então comecei a me perguntar se eu deveria fazer o …

17 machine-learning svm random-forest naive-bayes xgboost

1

Em uma floresta aleatória, o maior% IncMSE é melhor ou pior?

Depois de criar um modelo de floresta aleatória (regressão) em R, a chamada rf$importancefornece duas medidas para cada variável preditora, %IncMSEe IncNodePurity. A interpretação de que variáveis preditoras com %IncMSEvalores menores são mais importantes que variáveis preditoras com %IncMSEvalores maiores ? Que tal para IncNodePurity?

17 r feature-selection random-forest

2

Importância do recurso com variáveis fictícias

Estou tentando entender como posso obter a importância do recurso de uma variável categórica que foi dividida em variáveis dummy. Estou usando o scikit-learn, que não lida com variáveis categóricas para você, como R ou H2O. Se eu dividir uma variável categórica em variáveis dummy, obtenho importâncias de recurso separadas …

17 categorical-data random-forest interpretation importance

2

Uma floresta aleatória com várias saídas seria possível / prática?

As florestas aleatórias (RF) são um método competitivo de modelagem / mineração de dados. Um modelo de RF possui uma saída - a variável de saída / previsão. A abordagem ingênua para modelar várias saídas com RFs seria construir uma RF para cada variável de saída. Portanto, temos N modelos …

17 machine-learning cart random-forest multilabel

2

Seleção de recursos com florestas aleatórias

Eu tenho um conjunto de dados com principalmente variáveis financeiras (120 recursos, exemplos de 4k) que são altamente correlacionadas e muito barulhentas (indicadores técnicos, por exemplo), então eu gostaria de selecionar cerca de 20-30 máx. Para uso posterior no treinamento de modelo (classificação binária - aumentar diminuir). Eu estava pensando …

16 feature-selection random-forest python

2

Sob quais condições as máquinas de aumento de gradiente superam as florestas aleatórias?

A máquina de aumento de gradiente de Friedman pode obter melhor desempenho do que a Random Forest de Breiman ? Em caso afirmativo, em quais condições ou que tipo de conjunto de dados pode melhorar o gbm?

16 machine-learning data-mining random-forest boosting

4

Baixa precisão de classificação, o que fazer em seguida?

Então, eu sou um novato no campo ML e tento fazer alguma classificação. Meu objetivo é prever o resultado de um evento esportivo. Reuni alguns dados históricos e agora tente treinar um classificador. Eu obtive cerca de 1200 amostras, 0,2 delas foram separadas para fins de teste, outras colocadas na …

16 classification svm feature-selection random-forest

5

Para classificação com Florestas Aleatórias em R, como ajustar para tamanhos de classe desequilibrados?

Estou explorando diferentes métodos de classificação para um projeto em que estou trabalhando e estou interessado em experimentar as Florestas Aleatórias. Estou tentando me educar ao longo do curso e gostaria de receber qualquer ajuda fornecida pela comunidade do CV. Dividi meus dados em conjuntos de treinamento / teste. Desde …

16 r machine-learning random-forest

1

Pacote R para floresta aleatória ponderada? opção classwt?

Estou tentando usar a floresta aleatória para prever o resultado de um conjunto de dados extremamente desequilibrado (a taxa de classe minoritária é de apenas 1% ou até menos). Como o algoritmo tradicional de floresta aleatória minimiza a taxa de erro geral, em vez de prestar atenção especial às classes …

16 r random-forest

2

A floresta aleatória precisa que as variáveis de entrada sejam dimensionadas ou centralizadas?

Minhas variáveis de entrada têm dimensões diferentes. Algumas variáveis são decimais, enquanto outras são centenas. É essencial centralizar (subtrair média) ou escalar (dividir por desvio padrão) essas variáveis de entrada para tornar os dados sem dimensão ao usar floresta aleatória?

16 random-forest standardization data-preprocessing centering

2

O erro Out of Bag torna o CV desnecessário em florestas aleatórias?

Eu sou relativamente novo em florestas aleatórias. No passado, sempre comparei a precisão do ajuste contra o teste contra o ajuste contra o trem para detectar qualquer ajuste excessivo. Mas acabei de ler aqui que: "Em florestas aleatórias, não há necessidade de validação cruzada ou de um conjunto de testes …

15 cross-validation random-forest overfitting

1

A floresta aleatória de Breiman usa ganho de informação ou índice de Gini?

Gostaria de saber se a floresta aleatória de Breiman (floresta aleatória no pacote R randomForest) usa como critério de divisão (critério para seleção de atributo) o ganho de informações ou o índice Gini? Tentei descobrir isso em http://www.stat.berkeley.edu/~breiman/RandomForests/cc_home.htm e na documentação do pacote randomForest em R. Mas a única coisa …

15 r random-forest entropy gini

1

Diminuição de Gini e impureza de Gini nos nós filhos

Estou trabalhando na medida de importância do recurso Gini para florestas aleatórias. Portanto, preciso calcular a diminuição de Gini na impureza do nó. Aqui está a maneira como faço isso, o que leva a um conflito com a definição, sugerindo que devo estar errado em algum lugar ... :) Para …

15 feature-selection random-forest cart

7

A floresta aleatória está se ajustando demais

Estou tentando usar a regressão aleatória de floresta no scikits-learn. O problema é que estou recebendo um erro de teste muito alto: train MSE, 4.64, test MSE: 252.25. É assim que meus dados ficam: (azul: dados reais, verde: previsto): Estou usando 90% para treinamento e 10% para teste. Este é …

15 regression random-forest scikit-learn

Perguntas com a marcação «random-forest»