Estatísticas e Big Data

2

Métricas de classificação de vários rótulos no scikit

Estou tentando criar um classificador de várias etiquetas para atribuir tópicos a documentos existentes usando o scikit Estou processando meus documentos passando-os TfidfVectorizerpelos rótulos MultiLabelBinarizere criando um OneVsRestClassifiercom um SGDClassifiercomo estimador. No entanto, ao testar meu classificador, apenas recebo pontuações de 0,29, o que pelo que li é bastante baixo …

19 scikit-learn multi-class multilabel

3

Um coto de decisão é um modelo linear?

O stump de decisão é uma árvore de decisão com apenas uma divisão. Também pode ser escrito como uma função por partes. Por exemplo, suponha que é um vetor e é o primeiro componente de , na configuração de regressão, algum coto de decisão pode serx 1 xxxxx1x1x_1xxx f(x)={35x1≤2x1>2f(x)={3x1≤25x1>2f(x)= \begin{cases} …

19 machine-learning cart linear boosting

5

O que há em um nome: hiperparâmetros

Portanto, em uma distribuição normal, temos dois parâmetros: média e variância . No livro Reconhecimento de Padrões e Aprendizado de Máquina , aparece subitamente um hiperparâmetro nos termos de regularização da função de erro.μμ\muσ2σ2\sigma^2λλ\lambda O que são hiperparâmetros? Por que eles são nomeados como tal? E como eles são intuitivamente …

19 terminology definition parameterization hyperparameter

1

Antônimo de variância

Existe uma palavra que significa "inverso da variação"? Ou seja, se tem alta variação, então X tem baixa ... ? Não está interessado em um antônimo próximo (como 'acordo' ou 'similaridade'), mas significa especificamente 1 / σ 2 ?XXXXXX……\dots1/σ21/σ21/\sigma^2

19 bayesian variance terminology precision

3

O que deve ser ensinado primeiro: Probabilidade ou Estatística?

Eu entrei recentemente como membro do corpo docente em um departamento de matemática. de uma instituição de renome. Vou ministrar o curso Probabilidade e Estatística na graduação. A instituição já possui um plano de estudos para este curso com o qual não estou muito satisfeito. Nesse plano de estudos, as …

19 teaching

3

Por que skip-gram é melhor para palavras pouco frequentes do que CBOW?

Eu me pergunto por que o skip-gram é melhor para palavras pouco frequentes do que o CBOW no word2vec. Li a reivindicação em https://code.google.com/p/word2vec/ .

19 natural-language word2vec word-embeddings

2

A regularização pode ser útil se estivermos interessados apenas na modelagem, não na previsão?

A regularização pode ser útil se estivermos interessados apenas em estimar (e interpretar) os parâmetros do modelo, e não em previsão ou previsão? Vejo como a regularização / validação cruzada é extremamente útil se seu objetivo é fazer boas previsões sobre novos dados. Mas e se você estiver fazendo economia …

19 cross-validation econometrics model-selection interpretation regularization

5

Quais são alguns bons conjuntos de dados para aprender algoritmos básicos de aprendizado de máquina e por quê?

Eu sou novo no aprendizado de máquina e estou procurando alguns conjuntos de dados através dos quais posso comparar e contrastar as diferenças entre os diferentes algoritmos de aprendizado de máquina (Árvores de Decisão, Boosting, SVM e Redes Neurais) Onde posso encontrar esses conjuntos de dados? O que devo procurar …

19 machine-learning dataset

1

Como o LDA, uma técnica de classificação, também serve como técnica de redução de dimensionalidade como o PCA

Neste artigo , o autor vincula a análise discriminante linear (LDA) à análise de componentes principais (PCA). Com meu conhecimento limitado, não sou capaz de acompanhar como o LDA pode ser um pouco semelhante ao PCA. Eu sempre pensei que o LDA era uma forma de algoritmo de classificação, semelhante …

19 classification pca dimensionality-reduction discriminant-analysis canonical-correlation

8

Por que a variação não é definida como a diferença entre cada valor que se segue?

Esta pode ser uma pergunta simples para muitos, mas aqui está: Por que a variação não é definida como a diferença entre cada valor que se segue, em vez da diferença para a média dos valores? Essa seria a escolha mais lógica para mim, acho que obviamente estou supervisionando algumas …

19 variance

2

Por que a estimativa de máxima verossimilhança é considerada uma técnica freqüentista

Estatísticas freqüentistas para mim são sinônimos por tentar tomar decisões que são boas para todas as amostras possíveis. Ou seja, uma regra de decisão freqüentista deve sempre tentar minimizar o risco freqüentista, que depende da função de perda e do verdadeiro estado da natureza :δδ\deltaeueuLθ0 0θ0 0\theta_0 Rfr e q= …

19 maximum-likelihood frequentist

2

Impulsionar: por que a taxa de aprendizado é chamada de parâmetro de regularização?

O parâmetro de taxa de aprendizado ( ) no Gradient Boosting reduz a contribuição de cada novo modelo de base - tipicamente uma árvore rasa - que é adicionada na série. Foi demonstrado que aumenta drasticamente a precisão do conjunto de testes, o que é compreensível, pois em etapas menores, …

19 machine-learning data-mining predictive-models boosting overfitting

1

Uso de preditores circulares na regressão linear

Estou tentando ajustar um modelo usando dados de vento (0, 359) e hora do dia (0, 23), mas estou preocupado que eles se encaixem mal em uma regressão linear porque não são eles próprios parâmetros lineares. Eu gostaria de transformá-los usando Python. Eu já vi alguma menção ao cálculo de …

19 regression python circular-statistics

3

Julia: Fazendo um balanço de como está indo

Este post está relacionado a um evento que muda rapidamente. Me deparei com uma pergunta de 2012 que teve uma discussão muito boa sobre Julia como uma alternativa ao R / Python para vários tipos de trabalho estatístico. Aqui está a pergunta original de 2012 sobre a promessa de Julia …

19 r python computing julia

3

Usando RNN (LSTM) para prever os vetores de séries temporais (Theano)

Eu tenho um problema muito simples, mas não consigo encontrar a ferramenta certa para resolvê-lo. Eu tenho uma sequência de vetores do mesmo comprimento. Agora eu gostaria de treinar o LSTM RNN na amostra de trem dessas seqüências e, em seguida, prever a nova sequência de vetores de comprimento nnn …

19 neural-networks python lstm