Estatísticas e Big Data unsupervised-learning

1

Supervisão distante: supervisionada, semi-supervisionada ou ambas?

"Supervisão à distância" é um esquema de aprendizado no qual um classificador é aprendido, devido a um conjunto de treinamento pouco rotulado (os dados de treinamento são rotulados automaticamente com base em heurísticas / regras). Penso que tanto a aprendizagem supervisionada quanto a semi-supervisionada podem incluir essa "supervisão distante" se …

20 machine-learning data-mining dataset references unsupervised-learning

1

Como definir o número de clusters no cluster K-means?

Existe alguma maneira de determinar o número ideal de cluster ou devo tentar valores diferentes e verificar as taxas de erro para decidir sobre o melhor valor?

19 clustering unsupervised-learning

4

Como entender as desvantagens do cluster hierárquico?

Alguém pode explicar os prós e os contras do cluster hierárquico? O cluster hierárquico tem as mesmas desvantagens que K significa? Quais são as vantagens do cluster hierárquico sobre o K significa? Quando devemos usar os meios K sobre o cluster hierárquico e vice-versa? As respostas a este post explicam …

19 clustering k-means unsupervised-learning hierarchical-clustering

4

A precisão da máquina de aumento de gradiente diminui à medida que o número de iterações aumenta

Estou experimentando o algoritmo da máquina de aumento de gradiente através do caretpacote em R. Usando um pequeno conjunto de dados de admissões de faculdade, executei o seguinte código: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- …

15 machine-learning caret boosting gbm hypothesis-testing t-test panel-data psychometrics intraclass-correlation generalized-linear-model categorical-data binomial model intercept causality cross-correlation distributions ranks p-value z-test sign-test time-series references terminology cross-correlation definition probability distributions beta-distribution inverse-gamma missing-data paired-comparisons paired-data clustered-standard-errors cluster-sample time-series arima logistic binary-data odds-ratio medicine hypothesis-testing wilcoxon-mann-whitney unsupervised-learning hierarchical-clustering neural-networks train clustering k-means regression ordinal-data change-scores machine-learning experiment-design roc precision-recall auc stata multilevel-analysis regression fitting nonlinear jmp r data-visualization gam gamm4 r lme4-nlme many-categories regression causality instrumental-variables endogeneity controlling-for-a-variable

4

Existe "regressão não supervisionada"?

Se estiver correto, "classificação não supervisionada" é o mesmo que agrupar. Então existe "regressão não supervisionada"? Obrigado!

15 regression unsupervised-learning

3

O que é mistura de dados?

Este termo aparece frequentemente nos encadeamentos relacionados ao método . A combinação de um método específico para mineração de dados e aprendizado estatístico? Não consigo obter um resultado relevante do google. Parece que a mistura está misturando resultados de muitos modelos e resultando em um resultado melhor. Existe algum recurso …

15 machine-learning data-mining unsupervised-learning statistical-learning

4

O que é uma Rede Neural Artificial?

À medida que nos aprofundamos na literatura das Redes Neurais , conseguimos identificar outros métodos com topologias neuromórficas (arquiteturas semelhantes à "Rede Neural"). E não estou falando do Teorema da Aproximação Universal . Exemplos são dados abaixo. Então, isso me faz pensar: qual é a definição de uma rede neural …

15 machine-learning neural-networks deep-learning unsupervised-learning supervised-learning

3

Como escolher um número ideal de fatores latentes na fatoração matricial não negativa?

Dada uma matriz , a fatoração de matriz não negativa (NMF) encontra duas matrizes não negativas e ( ou seja, com todos os elementos ) para representar a matriz decomposta como:W m × k H k × n ≥0Vm×nVm×n\mathbf V^{m \times n}Wm×kWm×k\mathbf W^{m \times k}Hk×nHk×n\mathbf H^{k \times n}≥0≥0\ge 0 V≈WH,V≈WH,\mathbf …

15 cross-validation unsupervised-learning latent-variable matrix-decomposition nnmf

4

Como medir a forma do cluster?

Sei que essa pergunta não está bem definida, mas alguns aglomerados tendem a ser elípticos ou ficam no espaço dimensional mais baixo, enquanto outros têm formas não lineares (em exemplos 2D ou 3D). Existe alguma medida de não linearidade (ou "forma") de clusters? Observe que no espaço 2D e 3D, …

14 unsupervised-learning clustering

3

Escolhendo os hiperparâmetros usando T-SNE para classificação

No problema específico em que trabalho (uma competição), tenho a seguinte configuração: 21 recursos (numéricos em [0,1]) e uma saída binária. Eu tenho aproximadamente 100 mil linhas. A configuração parece ser muito barulhenta. Eu e outros participantes aplicamos a geração de recursos por um tempo e a incorporação estocástica de …

13 machine-learning dimensionality-reduction unsupervised-learning tsne

4

Inicializando centros K-means por meio de subamostras aleatórias do conjunto de dados?

Se eu tiver um determinado conjunto de dados, quão inteligente seria inicializar os centros de cluster usando meios de amostras aleatórias desse conjunto de dados? Por exemplo, suponha que eu queira 5 clusters. Tomo 5 random samples, digamos, size=20%o conjunto de dados original. Eu poderia então tomar a média de …

13 clustering k-means unsupervised-learning

1

Existe alguma diferença entre supervisão distante, auto-treinamento, aprendizado auto-supervisionado e supervisão fraca?

Pelo que li: Supervisão distante : A Distant supervision algorithm usually has the following steps: 1] It may have some labeled training data 2] It "has" access to a pool of unlabeled data 3] It has an operator that allows it to sample from this unlabeled data and label them …

12 machine-learning terminology unsupervised-learning semi-supervised

4

Você pode comparar diferentes métodos de armazenamento em cluster em um conjunto de dados sem uma verdade básica por validação cruzada?

Atualmente, estou tentando analisar um conjunto de dados de documento de texto que não tem nenhuma verdade. Disseram-me que você pode usar a validação cruzada k-fold para comparar diferentes métodos de armazenamento em cluster. No entanto, os exemplos que eu vi no passado usam uma verdade básica. Existe uma maneira …

12 machine-learning clustering cross-validation unsupervised-learning

2

Aplicando o aprendizado de máquina à filtragem DDoS

No curso de aprendizado de máquina de Stanford, Andrew Ng mencionou a aplicação de ML em TI. Algum tempo depois, quando obtive DDoS de tamanho moderado (cerca de 20k bots) em nosso site, decidi lutar contra ele usando um classificador simples da Rede Neural. Eu escrevi esse script python em …

12 classification neural-networks unsupervised-learning

5

Cluster SOM para variáveis nominais / circulares

Basta saber se alguém está familiarizado com o agrupamento de entradas nominais. Eu estive olhando o SOM como uma solução, mas aparentemente ele só funciona com recursos numéricos. Existem extensões para recursos categóricos? Especificamente, eu estava pensando em "Dias da semana" como possíveis recursos. Obviamente, é possível convertê-lo em um …

11 clustering unsupervised-learning self-organizing-maps

Perguntas com a marcação «unsupervised-learning»