Estatísticas e Big Data random-forest

3

Diferença entre floresta aleatória e árvores extremamente aleatórias

Entendi que Floresta Aleatória e Árvores Extremamente Aleatórias diferem no sentido de que as divisões das árvores na Floresta Aleatória são determinísticas, enquanto que são aleatórias no caso de Árvores Extremamente Aleatórias (para ser mais preciso, a próxima divisão é a melhor divisão entre divisões uniformes aleatórias nas variáveis selecionadas …

40 machine-learning correlation references random-forest

1

Manualmente calculado

Sei que essa é uma Rpergunta bastante específica , mas posso estar pensando na variação proporcional explicada, , incorretamente. Aqui vai.R2R2R^2 Estou tentando usar o Rpacote randomForest. Eu tenho alguns dados de treinamento e dados de teste. Quando encaixo um modelo de floresta aleatório, a randomForestfunção permite inserir novos dados …

38 r correlation predictive-models random-forest r-squared

6

Melhore a classificação com muitas variáveis categóricas

Estou trabalhando em um conjunto de dados com mais de 200.000 amostras e aproximadamente 50 recursos por amostra: 10 variáveis contínuas e as outras ~ 40 são variáveis categóricas (países, idiomas, campos científicos etc.). Para essas variáveis categóricas, você tem, por exemplo, 150 países diferentes, 50 idiomas, 50 campos científicos, …

37 machine-learning classification categorical-data random-forest many-categories

3

Criando uma "pontuação de certeza" a partir dos votos em florestas aleatórias?

Eu estou procurando treinar um classificador que discrimine Type Ae Type Bobjetos com um conjunto de treinamento razoavelmente grande de aproximadamente 10.000 objetos, aproximadamente metade dos quais são Type Ae metade deles Type B. O conjunto de dados consiste em 100 recursos contínuos detalhando as propriedades físicas das células (tamanho, …

36 r machine-learning random-forest

3

Como interpretar OOB e matriz de confusão para floresta aleatória?

Eu recebi um script R de alguém para executar um modelo de floresta aleatório. Modifiquei e executei com alguns dados de funcionários. Estamos tentando prever separações voluntárias. Aqui estão algumas informações adicionais: este é um modelo de classificação em que 0 = funcionário permaneceu, 1 = funcionário desligado, atualmente estamos …

35 r classification error random-forest

3

Como interpretar o decréscimo médio na precisão e o decréscimo médio GINI nos modelos de floresta aleatória

Estou tendo alguma dificuldade em entender como interpretar a saída de importância variável do pacote Random Forest. A diminuição média na precisão é geralmente descrita como "a diminuição na precisão do modelo ao permutar os valores em cada recurso". É uma declaração sobre o recurso como um todo ou sobre …

34 r machine-learning classification random-forest

3

Como as florestas aleatórias não são sensíveis aos valores extremos?

Eu li em algumas fontes, incluindo esta , que as florestas aleatórias não são sensíveis a outliers (da mesma forma que a regressão logística e outros métodos de ML são, por exemplo). No entanto, duas intuições me dizem o contrário: Sempre que uma árvore de decisão é construída, todos os …

33 random-forest bootstrap outliers cart

2

As variáveis altamente correlacionadas na floresta aleatória não distorcem a precisão e a seleção de recursos?

No meu entendimento, variáveis altamente correlacionadas não causarão problemas de multicolinearidade no modelo aleatório de floresta (por favor, corrija-me se estiver errado). No entanto, por outro lado, se eu tiver muitas variáveis contendo informações semelhantes, o modelo pesará muito nesse conjunto e não nos outros? Por exemplo, existem dois conjuntos …

32 random-forest multicollinearity ensemble

2

Importância relativa de um conjunto de preditores na classificação de florestas aleatórias em R

Eu gostaria de determinar a importância relativa de conjuntos de variáveis para um randomForestmodelo de classificação em R. A importancefunção fornece a MeanDecreaseGinimétrica para cada preditor individual - é tão simples quanto resumir isso em cada preditor de um conjunto? Por exemplo: # Assumes df has variables a1, a2, b1, …

31 r machine-learning classification random-forest

3

Quão bem R é escalável para tarefas de classificação de texto? [fechadas]

Estou tentando acelerar a resposta com R. Eu finalmente quero usar as bibliotecas R para fazer a classificação de texto. Fiquei me perguntando quais são as experiências das pessoas com relação à escalabilidade de R quando se trata de fazer a classificação de texto. É provável que eu ocorra com …

30 r machine-learning svm text-mining random-forest

2

É essencial fazer a normalização para SVM e Random Forest?

Todas as dimensões dos meus recursos têm diferentes valores. Quero saber se é essencial normalizar esse conjunto de dados.

29 machine-learning svm random-forest normalization

3

R: Floresta aleatória lançando NaN / Inf em erro de "chamada de função externa", apesar de nenhum NaN no conjunto de dados [fechado]

Estou usando o sinal de intercalação para executar uma floresta aleatória validada cruzada em um conjunto de dados. A variável Y é um fator. Não há NaN, Inf ou NA no meu conjunto de dados. No entanto, ao executar a floresta aleatória, recebo Error in randomForest.default(m, y, ...) : NA/NaN/Inf …

29 r random-forest caret regression prediction fitting social-science poisson-distribution distributions characteristic-function bayesian prior regression normal-distribution interaction nonparametric skewness svm standard-deviation standard-error regression-coefficients igraph natural-language word2vec word-embeddings regression machine-learning sampling r regression machine-learning random-forest ensemble sampling unbiased-estimator proof estimators mse probability conditional-probability bayes anova missing-data neural-networks recommender-system r confidence-interval sample multiple-imputation r time-series forecasting mase

1

Convertendo matriz de similaridade para matriz de distância (euclidiana)

No algoritmo de floresta aleatória, Breiman (autor) constrói a matriz de similaridade da seguinte maneira: Envie todos os exemplos de aprendizado em cada árvore da floresta Se dois exemplos aterrissarem na mesma folha, incrementar o elemento correspondente na matriz de similaridade em 1 Normalize a matriz com número de árvores …

27 random-forest distance similarities euclidean

4

Quando evitar a Random Forest?

Sabe-se que as florestas aleatórias têm um desempenho razoavelmente bom em uma variedade de tarefas e são conhecidas como o homem de couro dos métodos de aprendizagem . Existem tipos de problemas ou condições específicas nas quais se deve evitar o uso de uma floresta aleatória?

25 machine-learning classification random-forest

4

Existe uma implementação de floresta aleatória que funcione bem com dados muito esparsos?

Existe uma implementação de floresta aleatória R que funciona bem com dados muito esparsos? Eu tenho milhares ou milhões de variáveis de entrada booleanas, mas apenas centenas ou mais serão VERDADEIRAS para qualquer exemplo. Sou relativamente novo no R e notei que há um pacote 'Matrix' para lidar com dados …

23 r random-forest sparse

Perguntas com a marcação «random-forest»