Estatísticas e Big Data

1

Devo normalizar os vetores de palavras do word2vec antes de usá-los?

Depois de treinar vetores de palavras com o word2vec, é melhor normalizá-los antes de usá-los para alguns aplicativos a jusante? Ou seja, quais são os prós / contras de normalizá-los?

38 natural-language word2vec word-embeddings

8

Quando se deve incluir uma variável em uma regressão, apesar de não ser estatisticamente significativa?

Eu sou um estudante de economia com alguma experiência com econometria e R. Eu gostaria de saber se existe alguma situação em que devemos incluir uma variável em uma regressão, apesar de não ser estatisticamente significativa?

37 statistical-significance feature-selection

5

O fato de meu filho italiano frequentar uma escola primária mudará o número esperado de crianças italianas para estar presente em sua classe?

Esta é uma pergunta decorrente de uma situação da vida real, pela qual fiquei genuinamente intrigado com sua resposta. Meu filho deve começar a escola primária em Londres. Como somos italianos, fiquei curioso para saber quantas crianças italianas já estão frequentando a escola. Pedi isso ao Oficial de Admissão durante …

37 probability self-study average

3

Variação das estimativas de validação cruzada com

TL, DR: Parece que, ao contrário do conselho muitas vezes repetida, leave-one-out validação cruzada (LOO-CV) - isto é,CV fold com(o número de dobras) igual a(o número das observações de treinamento) - produz estimativas do erro de generalização que é a menor variável para qualquer, não a mais variável, assumindo uma …

37 regression machine-learning variance cross-validation predictive-models

6

Teste se duas distribuições binomiais são estatisticamente diferentes uma da outra

Eu tenho três grupos de dados, cada um com uma distribuição binomial (ou seja, cada grupo tem elementos que são sucesso ou fracasso). Não tenho uma probabilidade prevista de sucesso, mas só posso confiar na taxa de sucesso de cada um como uma aproximação para a verdadeira taxa de sucesso. …

37 statistical-significance binomial bernoulli-distribution

3

Comparando SVM e regressão logística

Alguém pode me dar alguma intuição sobre quando escolher SVM ou LR? Quero entender a intuição por trás da diferença entre os critérios de otimização de aprender o hiperplano dos dois, onde os respectivos objetivos são os seguintes: SVM: tente maximizar a margem entre os vetores de suporte mais próximos …

37 regression logistic svm optimization

1

Por que o glmer não atinge a máxima probabilidade (conforme verificado pela aplicação de otimização genérica adicional)?

Numericamente derivar a MLE s de GLMM é difícil e, na prática, eu sei, não devemos usar a otimização de força bruta (por exemplo, usando optimem uma maneira simples). Mas, para meu próprio objetivo educacional, quero experimentá-lo para garantir a compreensão correta do modelo (veja o código abaixo). Descobri que …

37 r maximum-likelihood optimization lme4-nlme

2

Intervalo de previsão para o modelo de efeitos mistos lmer () em R

Quero obter um intervalo de previsão em torno de uma previsão de um modelo lmer (). Eu encontrei alguma discussão sobre isso: http://rstudio-pubs-static.s3.amazonaws.com/24365_2803ab8299934e888a60e7b16113f619.html http://glmm.wikidot.com/faq mas eles parecem não levar em consideração a incerteza dos efeitos aleatórios. Aqui está um exemplo específico. Eu estou correndo peixe dourado. Eu tenho dados das …

37 r mixed-model prediction prediction-interval lme4-nlme

6

Melhore a classificação com muitas variáveis categóricas

Estou trabalhando em um conjunto de dados com mais de 200.000 amostras e aproximadamente 50 recursos por amostra: 10 variáveis contínuas e as outras ~ 40 são variáveis categóricas (países, idiomas, campos científicos etc.). Para essas variáveis categóricas, você tem, por exemplo, 150 países diferentes, 50 idiomas, 50 campos científicos, …

37 machine-learning classification categorical-data random-forest many-categories

3

SVM, sobreajuste, maldição da dimensionalidade

Meu conjunto de dados é pequeno (120 amostras), no entanto, o número de recursos é grande varia de (1000 a 200.000). Embora eu esteja fazendo a seleção de recursos para escolher um subconjunto de recursos, ele ainda pode se ajustar demais. Minha primeira pergunta é: como o SVM lida com …

37 classification svm

4

Uma sólida formação em matemática é um requisito total para o ML?

Estou começando a querer aprimorar minhas próprias habilidades e sempre fui fascinado pelo aprendizado de máquina. No entanto, seis anos atrás, em vez de prosseguir com isso, decidi tomar um diploma completamente não relacionado à ciência da computação. Desenvolvo software e aplicativos há cerca de 8 a 10 anos, por …

37 machine-learning references mathematical-statistics

5

Como testo uma associação não linear?

Para o gráfico 1, posso testar a associação entre x e y, fazendo uma correlação simples. Para o gráfico 2, onde o relacionamento não é linear e ainda existe uma relação clara entre x e y, como posso testar a associação e rotular sua natureza?

37 nonlinear-regression non-independent association-measure

8

Ajude-me a calcular quantas pessoas virão ao meu casamento! Posso atribuir uma porcentagem a cada pessoa e adicioná-los?

Estou planejando meu casamento. Desejo estimar quantas pessoas virão ao meu casamento. Eu criei uma lista de pessoas e a chance de elas comparecerem em porcentagem. Por exemplo Dad 100% Mom 100% Bob 50% Marc 10% Jacob 25% Joseph 30% Eu tenho uma lista de cerca de 230 pessoas com …

37 probability

2

Como a Análise Fatorial explica a covariância, enquanto o PCA explica a variância?

Aqui está uma citação do livro "Reconhecimento de padrões e aprendizado de máquina" de Bishop, seção 12.2.4 "Análise fatorial": De acordo com a parte destacada, análise de factor de captura entre a covariância variáveis na matrizWWW . Eu me pergunto como ? Aqui está como eu entendo isso. Diga é …

37 pca factor-analysis geometry

6

Interpretações bayesianas versus freqüentistas de probabilidade

Alguém pode dar um bom resumo das diferenças entre a abordagem bayesiana e a abordagem freqüentista da probabilidade? Pelo que entendi: A visão dos freqüentadores é que os dados são uma amostra aleatória repetível (variável aleatória) com uma frequência / probabilidade específica (que é definida como a frequência relativa de …

37 probability bayesian frequentist