Estatísticas e Big Data

Perguntas e respostas para pessoas interessadas em estatística, aprendizado de máquina, análise de dados, mineração de dados e visualização de dados



5
O fato de meu filho italiano frequentar uma escola primária mudará o número esperado de crianças italianas para estar presente em sua classe?
Esta é uma pergunta decorrente de uma situação da vida real, pela qual fiquei genuinamente intrigado com sua resposta. Meu filho deve começar a escola primária em Londres. Como somos italianos, fiquei curioso para saber quantas crianças italianas já estão frequentando a escola. Pedi isso ao Oficial de Admissão durante …



3
Comparando SVM e regressão logística
Alguém pode me dar alguma intuição sobre quando escolher SVM ou LR? Quero entender a intuição por trás da diferença entre os critérios de otimização de aprender o hiperplano dos dois, onde os respectivos objetivos são os seguintes: SVM: tente maximizar a margem entre os vetores de suporte mais próximos …

1
Por que o glmer não atinge a máxima probabilidade (conforme verificado pela aplicação de otimização genérica adicional)?
Numericamente derivar a MLE s de GLMM é difícil e, na prática, eu sei, não devemos usar a otimização de força bruta (por exemplo, usando optimem uma maneira simples). Mas, para meu próprio objetivo educacional, quero experimentá-lo para garantir a compreensão correta do modelo (veja o código abaixo). Descobri que …

2
Intervalo de previsão para o modelo de efeitos mistos lmer () em R
Quero obter um intervalo de previsão em torno de uma previsão de um modelo lmer (). Eu encontrei alguma discussão sobre isso: http://rstudio-pubs-static.s3.amazonaws.com/24365_2803ab8299934e888a60e7b16113f619.html http://glmm.wikidot.com/faq mas eles parecem não levar em consideração a incerteza dos efeitos aleatórios. Aqui está um exemplo específico. Eu estou correndo peixe dourado. Eu tenho dados das …

6
Melhore a classificação com muitas variáveis ​​categóricas
Estou trabalhando em um conjunto de dados com mais de 200.000 amostras e aproximadamente 50 recursos por amostra: 10 variáveis ​​contínuas e as outras ~ 40 são variáveis ​​categóricas (países, idiomas, campos científicos etc.). Para essas variáveis ​​categóricas, você tem, por exemplo, 150 países diferentes, 50 idiomas, 50 campos científicos, …

3
SVM, sobreajuste, maldição da dimensionalidade
Meu conjunto de dados é pequeno (120 amostras), no entanto, o número de recursos é grande varia de (1000 a 200.000). Embora eu esteja fazendo a seleção de recursos para escolher um subconjunto de recursos, ele ainda pode se ajustar demais. Minha primeira pergunta é: como o SVM lida com …






Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.