Estatísticas e Big Data machine-learning

1

Reconciliando árvores de regressão reforçada (BRT), modelos impulsionados generalizados (GBM) e máquina de aumento de gradiente (GBM)

Questões: Qual é a diferença (ões) entre árvores de regressão reforçada (BRT) e modelos impulsionados generalizados (GBM)? Eles podem ser usados de forma intercambiável? Uma é uma forma específica da outra? Por que Ridgeway usou a frase "Generalized Boosted Regression Models" (GBM), para descrever o que Friedman havia proposto anteriormente …

9 machine-learning boosting gbm

2

Estimativa de erro fora da bolsa para impulsionar?

Na Floresta Aleatória, cada árvore é cultivada em paralelo em uma amostra exclusiva dos dados. Como se espera que cada amostra do boostrap contenha cerca de 63% das observações exclusivas, isso deixa cerca de 37% das observações de fora, que podem ser usadas para testar a árvore. Agora, parece que …

9 machine-learning cross-validation data-mining random-forest boosting

1

Como encontrar e avaliar a discretização ideal para a variável contínua com o critério

Eu tenho um conjunto de dados com variável contínua e uma variável de destino binário (0 e 1). Preciso discretizar as variáveis contínuas (para regressão logística) com relação à variável alvo e com a restrição de que a frequência de observação em cada intervalo seja equilibrada. Tentei algoritmos de aprendizado …

9 r machine-learning chi-squared discrete-data supervised-learning

2

As árvores CART capturam interações entre preditores?

Este artigo afirma que no CART, como uma divisão binária é realizada em uma única covariável em cada etapa, todas as divisões são ortogonais e, portanto, as interações entre covariáveis não são consideradas. No entanto, muitas referências muito sérias afirmam, pelo contrário, que a estrutura hierárquica de uma árvore garante …

9 machine-learning classification data-mining cart

1

Quais são as diferenças entre os filtros aprendidos no autoencoder e na rede neural convolucional?

Na CNN, aprenderemos filtros para produzir um mapa de características na camada convolucional. No Autoencoder, a única unidade oculta de cada camada pode ser considerada como filtro. Qual a diferença entre os filtros aprendidos nessas duas redes?

9 machine-learning neural-networks conv-neural-network autoencoders

3

ImageNet: o que significa o erro dos cinco principais?

Um dos métodos de avaliação do ImageNet Competition (classificar 1.000 imagens de categorias) é o erro dos cinco principais, o que isso significa? Veja: http://www.image-net.org/challenges/LSVRC/

9 machine-learning classification computer-vision

3

Detecção de anomalia de séries temporais com Python

Preciso implementar a detecção de anomalias em vários conjuntos de dados de séries temporais. Eu nunca fiz isso antes e estava esperando por alguns conselhos. Estou muito confortável com o python, então prefiro que a solução seja implementada (a maior parte do meu código é python para outras partes do …

9 machine-learning time-series python computational-statistics anomaly-detection

2

Como provar que a suposição múltipla está correta?

No aprendizado de máquina, geralmente é assumido que um conjunto de dados se baseia em uma variedade de baixa dimensão suave (a suposição de variedade), mas existe alguma maneira de provar que, assumindo que certas condições sejam satisfeitas, o conjunto de dados é realmente (aproximadamente) gerado de um coletor suave …

9 machine-learning dimensionality-reduction manifold-learning

2

Agrupando dados ruidosos ou com outliers

Eu tenho dados barulhentos de duas variáveis como esta. x1 <- rep(seq(0,1, 0.1), each = 3000) set.seed(123) y1 <- rep (c(0.2, 0.8, 0.3, 0.9, 0.65, 0.35,0.7,0.1,0.25, 0.3, 0.95), each = 3000) set.seed(1234) e1 = rnorm(length(x1), 0.07,0.07) set.seed(1223) e2 = rnorm(length(x1), 0.07,0.07) set.seed(1334) yn <- rnorm(20000, 0.5,0.9) set.seed(2344) xn <- rnorm(20000, …

9 r machine-learning clustering

2

Como encontrar valores ótimos para os parâmetros de ajuste no aumento de árvores?

Percebo que existem 3 parâmetros de ajuste no modelo de árvores de reforço, ou seja, o número de árvores (número de iterações) parâmetro de encolhimento número de divisões (tamanho de cada árvore constituinte) Minha pergunta é: para cada um dos parâmetros de ajuste, como devo encontrar seu valor ideal? E …

9 machine-learning cross-validation computational-statistics boosting gbm

4

Como fazer aprendizado de máquina multivariado? (prevendo várias variáveis dependentes)

Estou procurando prever grupos de itens que alguém comprará ... ou seja, tenho várias variáveis dependentes colineares. Em vez de criar 7 ou mais modelos independentes para prever a probabilidade de alguém comprar cada um dos 7 itens e depois combinar os resultados, em quais métodos devo procurar um modelo …

9 r machine-learning multivariate-analysis

1

Quando é uma regra de pontuação adequada uma melhor estimativa de generalização em uma configuração de classificação?

Uma abordagem típica para resolver um problema de classificação é identificar uma classe de modelos candidatos e, em seguida, executar a seleção de modelos usando algum procedimento, como validação cruzada. Normalmente, seleciona-se o modelo com a maior precisão, ou alguma função relacionada que codifica informações específicas do problema, como FβFβ\text{F}_\beta …

9 machine-learning model-selection error scoring-rules

2

Acoplar informações de séries temporais de fontes com várias resoluções / escalas espaciais

Eu tenho muitas imagens de varredura de satélite disponíveis em diferentes sensores. Destes, os mais grossos têm uma resolução temporal muito abundante. Os rasters de média resolução tendem a ter menos datas de aquisição, mas ainda existe algum grau de informação disponível. As de resolução mais fina têm uma resolução …

9 time-series machine-learning predictive-models multivariate-regression

1

As florestas aleatórias podem fazer muito melhor que o erro de teste de 2,8% no MNIST?

Não encontrei nenhuma literatura sobre a aplicação de florestas aleatórias no MNIST, CIFAR, STL-10, etc., então pensei em experimentá-las com o MNIST invariante, permutador . Em R , tentei: randomForest(train$x, factor(train$y), test$x, factor(test$y), ntree=500) Isso foi executado por 2 horas e ocorreu um erro de teste de 2,8%. Eu também …

9 r machine-learning classification random-forest scikit-learn

1

Modelo Markov oculto para previsão de eventos

Pergunta : A configuração abaixo é uma implementação sensata de um modelo Hidden Markov? Eu tenho um conjunto de dados de 108,000observações (realizadas ao longo de 100 dias) e aproximadamente 2000eventos ao longo de todo o período de observação. Os dados se parecem com a figura abaixo, onde a variável …

9 time-series machine-learning predictive-models markov-chain hidden-markov-model

Perguntas com a marcação «machine-learning»