Estatísticas e Big Data sample

25

Localizando amostras de dados disponíveis gratuitamente

Eu tenho trabalhado em um novo método para analisar e analisar conjuntos de dados para identificar e isolar subgrupos de uma população sem conhecer as características de nenhum subgrupo. Embora o método funcione bem o suficiente com amostras de dados artificiais (ou seja, conjuntos de dados criados especificamente com o …

98 dataset sample population teaching

5

Qual é a diferença entre uma população e uma amostra?

Qual é a diferença entre uma população e uma amostra? Quais variáveis e estatísticas comuns são usadas para cada uma e como elas se relacionam?

38 standard-deviation variance sample population

3

R: Floresta aleatória lançando NaN / Inf em erro de "chamada de função externa", apesar de nenhum NaN no conjunto de dados [fechado]

Estou usando o sinal de intercalação para executar uma floresta aleatória validada cruzada em um conjunto de dados. A variável Y é um fator. Não há NaN, Inf ou NA no meu conjunto de dados. No entanto, ao executar a floresta aleatória, recebo Error in randomForest.default(m, y, ...) : NA/NaN/Inf …

29 r random-forest caret regression prediction fitting social-science poisson-distribution distributions characteristic-function bayesian prior regression normal-distribution interaction nonparametric skewness svm standard-deviation standard-error regression-coefficients igraph natural-language word2vec word-embeddings regression machine-learning sampling r regression machine-learning random-forest ensemble sampling unbiased-estimator proof estimators mse probability conditional-probability bayes anova missing-data neural-networks recommender-system r confidence-interval sample multiple-imputation r time-series forecasting mase

3

E se a sua amostra aleatória não for claramente representativa?

E se você pegar uma amostra aleatória e puder ver que ela claramente não é representativa, como em uma pergunta recente . Por exemplo, e se a distribuição da população for simétrica em torno de 0 e a amostra que você desenhar aleatoriamente tiver observações positivas e negativas desequilibradas, e …

28 sampling experiment-design inference sample

1

Cálculo da repetibilidade dos efeitos de um modelo mais antigo

Acabei de me deparar com este artigo , que descreve como calcular a repetibilidade (também conhecida como confiabilidade, também conhecida como correlação intraclasse) de uma medição via modelagem de efeitos mistos. O código R seria: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = …

28 mixed-model reliability intraclass-correlation repeatability spss factor-analysis survey modeling cross-validation error curve-fitting mediation correlation clustering sampling machine-learning probability classification metric r project-management optimization svm python dataset quality-control checking clustering distributions anova factor-analysis exponential poisson-distribution generalized-linear-model deviance machine-learning k-nearest-neighbour r hypothesis-testing t-test r variance levenes-test bayesian software bayesian-network regression repeated-measures least-squares change-scores variance chi-squared variance nonlinear-regression regression-coefficients multiple-comparisons p-value r statistical-significance excel sampling sample r distributions interpretation goodness-of-fit normality-assumption probability self-study distributions references theory time-series clustering econometrics binomial hypothesis-testing variance t-test paired-comparisons statistical-significance ab-test r references hypothesis-testing t-test normality-assumption wilcoxon-mann-whitney central-limit-theorem t-test data-visualization interactive-visualization goodness-of-fit

1

Os graus de liberdade podem ser um número não inteiro?

Quando uso o GAM, o DF residual é (última linha do código). O que isso significa? Indo além do exemplo do GAM, em geral, o número de graus de liberdade pode ser um número não inteiro?26,626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance …

27 r degrees-of-freedom gam machine-learning pca lasso probability self-study bootstrap expected-value regression machine-learning linear-model probability simulation random-generation machine-learning distributions svm libsvm classification pca multivariate-analysis feature-selection archaeology r regression dataset simulation r regression time-series forecasting predictive-models r mean sem lavaan machine-learning regularization regression conv-neural-network convolution classification deep-learning conv-neural-network regression categorical-data econometrics r confirmatory-factor scale-invariance self-study unbiased-estimator mse regression residuals sampling random-variable sample probability random-variable convergence r survival weibull references autocorrelation hypothesis-testing distributions correlation regression statistical-significance regression-coefficients univariate categorical-data chi-squared regression machine-learning multiple-regression categorical-data linear-model pca factor-analysis factor-rotation classification scikit-learn logistic p-value regression panel-data multilevel-analysis variance bootstrap bias probability r distributions interquartile time-series hypothesis-testing normal-distribution normality-assumption kurtosis arima panel-data stata clustered-standard-errors machine-learning optimization lasso multivariate-analysis ancova machine-learning cross-validation

9

Como faço para descobrir que tipo de distribuição representa esses dados nos tempos de resposta do ping?

Eu experimentei um processo do mundo real, tempos de ping da rede. O "tempo de ida e volta" é medido em milissegundos. Os resultados são plotados em um histograma: Os tempos de ping têm um valor mínimo, mas uma cauda superior longa. Quero saber qual é a distribuição estatística e …

22 distributions sample-size sample normality-assumption distribution-identification

3

Bootstrap: a questão do overfitting

Suponha que se execute a chamada inicialização não-paramétrica, desenhando BBB amostras de tamanho nnn cada uma das nnn observações originais com substituição. Eu acredito que este procedimento é equivalente a estimar a função de distribuição cumulativa pelo cdf empírico: http://en.wikipedia.org/wiki/Empirical_distribution_function e, em seguida, obtendo as amostras de autoinicialização simulando nnn …

14 bootstrap sample-size sample small-sample finite-population

2

Qual é a diferença entre variação de amostra e variação de amostra?

Qual é a diferença entre variação de amostra e variação de amostra? Eles parecem iguais. Não são?

14 sampling variance sample

3

Usando comprimento e peso médios para calcular o IMC médio?

É válido usar o comprimento médio ( hhh ) e o peso médio ( www )) de uma determinada população para calcular o Índice de Massa Corporal médio ( ) para essa população?BMI=wh2BMI=wh2BMI = \frac{w}{h^2}

13 mean sample population

4

Alguma propriedade quantitativa da população é um "parâmetro"?

Estou relativamente familiarizado com a distinção entre os termos estatística e parâmetro. Vejo uma estatística como o valor obtido da aplicação de uma função aos dados da amostra. No entanto, a maioria dos exemplos de parâmetros está relacionada à definição de uma distribuição paramétrica. Um exemplo comum é a média …

13 estimation terminology sample population

1

Amostra grande assintótica / teoria - Por que se preocupar?

Espero que essa pergunta não seja marcada como "geral demais" e espero que comece uma discussão que beneficie a todos. Nas estatísticas, gastamos muito tempo aprendendo grandes teorias de amostra. Estamos profundamente interessados em avaliar as propriedades assintóticas de nossos estimadores, incluindo se são assintoticamente imparciais, assintoticamente eficientes, sua distribuição …

13 sample asymptotics

1

LARS vs descida coordenada para o laço

Quais são os prós e os contras do uso do LARS [1] versus o uso da descida de coordenadas para ajustar a regressão linear regularizada por L1? Estou interessado principalmente em aspectos de desempenho (meus problemas tendem a ter Nentre centenas e milhares e p<20.) No entanto, quaisquer outras idéias …

13 regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

2

Qual é a diferença entre variável aleatória e amostra aleatória?

Essas duas expressões me confundiram muito quando eu estava aprendendo estatística. Parece-me que são coisas totalmente diferentes. Uma amostra aleatória é coletar aleatoriamente uma amostra de uma população, enquanto uma variável aleatória é como uma função que mapeia o conjunto de todos os resultados possíveis de um experimento para um …

13 mathematical-statistics random-variable terminology sample

2

As competições do Kaggle são vencidas por acaso?

As competições da Kaggle determinam a classificação final com base em um conjunto de testes realizado. Um conjunto de teste retido é uma amostra; pode não ser representativo da população que está sendo modelada. Como cada envio é como uma hipótese, o algoritmo que venceu a competição pode, por acaso, …

12 machine-learning probability hypothesis-testing sample kaggle

Perguntas com a marcação «sample»