Estatísticas e Big Data sampling

2

Como escolher os tamanhos de conjunto de treinamento, validação cruzada e teste para pequenos dados de tamanho de amostra?

Suponha que eu tenha um tamanho pequeno de amostra, por exemplo, N = 100 e duas classes. Como devo escolher os tamanhos de treinamento, validação cruzada e conjunto de testes para aprendizado de máquina? Eu escolheria intuitivamente Tamanho do conjunto de treinamento como 50 Conjunto de validação cruzada tamanho 25 …

10 machine-learning sampling svm cross-validation sample-size

3

Como a re-ponderação dos dados de diversidade da Pesquisa da Comunidade Americana afetaria suas margens de erro?

Histórico: minha organização atualmente compara suas estatísticas de diversidade da força de trabalho (por exemplo,% de pessoas com deficiência,% de mulheres,% de veteranas) com a disponibilidade total de força de trabalho para esses grupos com base no American Community Survey (um projeto de pesquisa do US Census Bureau). Essa é …

10 confidence-interval sampling data-transformation diversity

1

Distribuição gaussiana com momentos de ordem superior

Para a distribuição gaussiana com média e variância desconhecidas, as estatísticas suficientes na forma de família exponencial padrão são . I têm uma distribuição que tem T ( x ) = ( x , x 2 , . . . , X 2 N )T( x ) = ( x …

10 normal-distribution sampling exponential-family

1

Por que Anova () e drop1 () forneceram respostas diferentes para os GLMMs?

Eu tenho um GLMM do formulário: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Quando uso drop1(model, test="Chi"), obtenho resultados diferentes dos que utilizo Anova(model, type="III")na embalagem do carro ou summary(model). Estes dois últimos dão as mesmas respostas. Usando um monte de dados fabricados, …

10 r anova glmm r mixed-model bootstrap sample-size cross-validation roc auc sampling stratification random-allocation logistic stata interpretation proportion r regression multiple-regression linear-model lm r cross-validation cart rpart logistic generalized-linear-model econometrics experiment-design causality instrumental-variables random-allocation predictive-models data-mining estimation contingency-tables epidemiology standard-deviation mean ancova psychology statistical-significance cross-validation synthetic-data poisson-distribution negative-binomial bioinformatics sequence-analysis distributions binomial classification k-means distance unsupervised-learning euclidean correlation chi-squared spearman-rho forecasting excel exponential-smoothing binomial sample-size r change-point wilcoxon-signed-rank ranks clustering matlab covariance covariance-matrix normal-distribution simulation random-generation bivariate standardization confounding z-statistic forecasting arima minitab poisson-distribution negative-binomial poisson-regression overdispersion probability self-study markov-process estimation maximum-likelihood classification pca group-differences chi-squared survival missing-data contingency-tables anova proportion

1

Definição de quantil

Dados os N valores amostrados, o que significa o "p-ésimo quantil dos valores amostrados"?

10 sampling

3

Usando o MCMC para avaliar o valor esperado de uma função de alta dimensão

Estou trabalhando em um projeto de pesquisa relacionado à otimização e recentemente tive uma ideia de usar o MCMC nessa configuração. Infelizmente, sou bastante novo nos métodos do MCMC, por isso tive várias perguntas. Começarei descrevendo o problema e depois fazendo minhas perguntas. Nosso problema se resume a estimar o …

10 sampling mcmc matlab expected-value

1

Referência para uma história sobre amostragem da lista telefônica

Eu estava conversando com alguém hoje sobre amostragem e me lembro vagamente de uma história sobre um estatístico muito respeitado recomendando amostragem sistemática da lista telefônica em um caso jurídico específico. Lembro-me da história parecendo um juiz no tribunal dizendo algo para ele como "Não sei muito sobre estatísticas, mas …

10 sampling references history

4

Variação dos resistores em paralelo

Suponha que você tenha um conjunto de resistores R, todos distribuídos com a média μ e a variação σ. Considere uma seção de um circuito com o seguinte layout: (r) || (r + r) || (r + r + r). A resistência equivalente de cada parte é r, 2r e …

10 probability sampling variance

1

Variável categórica de regressão linear R valor "oculto"

Este é apenas um exemplo que encontrei várias vezes, portanto não tenho dados de amostra. Executando um modelo de regressão linear em R: a.lm = lm(Y ~ x1 + x2) x1é uma variável contínua. x2é categórico e possui três valores, por exemplo, "Baixo", "Médio" e "Alto". No entanto, a saída …

10 r regression categorical-data regression-coefficients categorical-encoding machine-learning random-forest anova spss r self-study bootstrap monte-carlo r multiple-regression partitioning neural-networks normalization machine-learning svm kernel-trick self-study survival cox-model repeated-measures survey likert correlation variance sampling meta-analysis anova independence sample assumptions bayesian covariance r regression time-series mathematical-statistics graphical-model machine-learning linear-model kernel-trick linear-algebra self-study moments function correlation spss probability confidence-interval sampling mean population r generalized-linear-model prediction offset data-visualization clustering sas cart binning sas logistic causality regression self-study standard-error r distributions r regression time-series multiple-regression python chi-squared independence sample clustering data-mining rapidminer probability stochastic-processes clustering binary-data dimensionality-reduction svd correspondence-analysis data-visualization excel c# hypothesis-testing econometrics survey rating composite regression least-squares mcmc markov-process kullback-leibler convergence predictive-models r regression anova confidence-interval survival cox-model hazard normal-distribution autoregressive mixed-model r mixed-model sas hypothesis-testing mediation interaction

2

Como criar um conjunto de amostras representativo de um grande conjunto de dados geral?

Quais são as técnicas estatísticas para criar um conjunto de amostras representativo de toda a população (com um nível de confiança conhecido)? Além disso, Como validar, se a amostra se encaixa no conjunto de dados geral? É possível, sem analisar todo o conjunto de dados (que pode ser bilhões de …

10 sampling sample-size validation

1

método de amostragem simples para um estimador de densidade de kernel

Eu desenvolvi um estimador de densidade de kernel simples em Java, com base em algumas dezenas de pontos (talvez até cem) ou mais e uma função de kernel gaussiana. A implementação me fornece o PDF e o CDF da minha distribuição de probabilidade a qualquer momento. Agora eu gostaria de …

10 sampling pdf kde

1

Qual modelo de aprendizagem profunda pode classificar categorias que não são mutuamente exclusivas

Exemplos: Eu tenho uma frase na descrição do trabalho: "Java senior engineer in UK". Eu quero usar um modelo de aprendizado profundo para prever em duas categorias: English e IT jobs. Se eu usar o modelo de classificação tradicional, ele poderá prever apenas 1 rótulo com softmaxfunção na última camada. …

9 machine-learning deep-learning natural-language tensorflow sampling distance non-independent application regression machine-learning logistic mixed-model control-group crossover r multivariate-analysis ecology procrustes-analysis vegan regression hypothesis-testing interpretation chi-squared bootstrap r bioinformatics bayesian exponential beta-distribution bernoulli-distribution conjugate-prior distributions bayesian prior beta-distribution covariance naive-bayes smoothing laplace-smoothing distributions data-visualization regression probit penalized estimation unbiased-estimator fisher-information unbalanced-classes bayesian model-selection aic multiple-regression cross-validation regression-coefficients nonlinear-regression standardization naive-bayes trend machine-learning clustering unsupervised-learning wilcoxon-mann-whitney z-score econometrics generalized-moments method-of-moments machine-learning conv-neural-network image-processing ocr machine-learning neural-networks conv-neural-network tensorflow r logistic scoring-rules probability self-study pdf cdf classification svm resampling forecasting rms volatility-forecasting diebold-mariano neural-networks prediction-interval uncertainty

1

Chance de que a amostra de inicialização seja exatamente igual à amostra original

Só quero verificar algum raciocínio. Se minha amostra original é do tamanho e eu a inicializo, meu processo de pensamento é o seguinte:nnn n-11n1n\frac{1}{n} é a chance de qualquer observação extraída da amostra original. Para garantir que o próximo sorteio não seja a observação amostrada anteriormente, restringimos o tamanho da …

9 sampling bootstrap sample-size subsampling

2

Tamanho das amostras de inicialização

Estou aprendendo sobre o bootstrap como meio de estimar a variação de uma estatística de amostra. Eu tenho uma dúvida básica. Citando http://web.stanford.edu/class/psych252/tutorials/doBootstrapPrimer.pdf : • Quantas observações devemos refazer a amostra? Uma boa sugestão é o tamanho da amostra original. Como podemos reamostrar tantas observações quanto na amostra original? Se …

9 sampling bootstrap resampling

2

Como amostrar da distribuição discreta nos números inteiros não negativos?

Eu tenho a seguinte distribuição discreta, onde são constantes conhecidas:α,βα,β\alpha,\beta p(x;α,β)=Beta(α+1,β+x)Beta(α,β)for x=0,1,2,…p(x;α,β)=Beta(α+1,β+x)Beta(α,β)for x=0,1,2,… p(x;\alpha,\beta) = \frac{\text{Beta}(\alpha+1, \beta+x)}{\text{Beta}(\alpha,\beta)} \;\;\;\;\text{for } x = 0,1,2,\dots Quais são algumas das abordagens para obter amostras eficientes dessa distribuição?

9 sampling mcmc computational-statistics importance-sampling rejection-sampling

Perguntas com a marcação «sampling»