Estatísticas e Big Data normality-assumption

1

Existem processos naturais distribuídos exatamente normais?

Muito se tem falado sobre a importância das distribuições normais na natureza. Muitas medidas, como altura ou peso, são distribuídas aproximadamente normal. Mas nenhum deles é exatamente normal, pelo que entendi. Considerando que a distribuição normal é uma das distribuições máximas de entropia , parece plausível que a natureza "goste". …

9 normal-distribution normality-assumption

1

Pergunta sobre a suposição de normalidade do teste t

Para testes t, de acordo com a maioria dos textos, há uma suposição de que os dados da população são normalmente distribuídos. Não vejo por que isso é. Um teste t não exige apenas que a distribuição amostral da média amostral seja normalmente distribuída, e não a população? Se o …

9 hypothesis-testing t-test assumptions normality-assumption central-limit-theorem

2

Por que uma correlação de postos de Pearson é válida, apesar da suposição de normalidade?

Atualmente, estou lendo suposições para correlações de Pearson. Uma suposição importante para o teste t subsequente parece ser que ambas as variáveis provêm de distribuições normais; se não o fizerem, é recomendável o uso de medidas alternativas, como o Spearman rho. A correlação de Spearman é calculada como a correlação …

9 correlation normality-assumption spearman-rho ranks

3

Avaliando a potência de um teste de normalidade (em R)

Quero avaliar a precisão dos testes de normalidade em diferentes tamanhos de amostra em R (percebo que os testes de normalidade podem ser enganosos ). Por exemplo, para examinar o teste de Shapiro-Wilk, estou realizando a seguinte simulação (bem como plotando os resultados) e esperaria que, à medida que o …

9 r simulation power-analysis normality-assumption

2

Calcular curva ROC para dados

Portanto, tenho 16 ensaios em que estou tentando autenticar uma pessoa de uma característica biométrica usando a Distância de Hamming. Meu limite está definido como 3,5. Meus dados estão abaixo e apenas o teste 1 é um verdadeiro positivo: Trial Hamming Distance 1 0.34 2 0.37 3 0.34 4 0.29 …

9 mathematical-statistics roc classification cross-validation pac-learning r anova survival hazard machine-learning data-mining hypothesis-testing regression random-variable non-independent normal-distribution approximation central-limit-theorem interpolation splines distributions kernel-smoothing r data-visualization ggplot2 distributions binomial random-variable poisson-distribution simulation kalman-filter regression lasso regularization lme4-nlme model-selection aic r mcmc dlm particle-filter r panel-data multilevel-analysis model-selection entropy graphical-model r distributions quantiles qq-plot svm matlab regression lasso regularization entropy inference r distributions dataset algorithms matrix-decomposition regression modeling interaction regularization expected-value exponential gamma-distribution mcmc gibbs probability self-study normality-assumption naive-bayes bayes-optimal-classifier standard-deviation classification optimization control-chart engineering-statistics regression lasso regularization regression references lasso regularization elastic-net r distributions aggregation clustering algorithms regression correlation modeling distributions time-series standard-deviation goodness-of-fit hypothesis-testing statistical-significance sample binary-data estimation random-variable interpolation distributions probability chi-squared predictor outliers regression modeling interaction

7

Distribuição normal e transformações monotônicas

Ouvi dizer que muitas quantidades que ocorrem na natureza são normalmente distribuídas. Isso normalmente é justificado usando o teorema do limite central, que diz que, quando você calcula a média de um grande número de variáveis aleatórias de iid, obtém uma distribuição normal. Assim, por exemplo, uma característica que é …

9 data-transformation normality-assumption

1

Como posso determinar se os dados categóricos são normalmente distribuídos?

É verdade que uma verificação de normalidade deve ser usada apenas para dados contínuos (razão, nível de intervalo de medição) e não para dados categóricos (nominal, ordinal)? Existe alguma maneira de verificar a normalidade dos dados categóricos?

9 assumptions normality-assumption

4

Calculando o erro do classificador Bayes analiticamente

Se duas classes e têm distribuição normal com parâmetros conhecidos ( , como os seus meios e , são as suas covariâncias) como podemos calcular erro do classificador Bayes para eles teoricamente?w1w1w_1w2w2w_2M1M1M_1M2M2M_2Σ1Σ1\Sigma_1Σ2Σ2\Sigma_2 Suponha também que as variáveis estejam no espaço N-dimensional. Nota: Uma cópia desta pergunta também está disponível em …

9 probability self-study normality-assumption naive-bayes bayes-optimal-classifier

1

Quão robusto é o estimador de máxima verossimilhança na modelagem de equações estruturais para uma falta de normalidade multivariada?

Em um modelo de equações estruturais, geralmente se usa o estimador de ML. No caso em que as variáveis não são normais multivariadas, o ML pode ser usado? Muitas vezes, os indicadores com os quais você está disponível para trabalhar não são normais multivariados. Não tenho certeza de como proceder …

8 maximum-likelihood sem normality-assumption multivariate-normal

1

Por que eu gostaria de inicializar ao calcular um teste t de amostra independente? (como justificar, interpretar e relatar um teste t com bootstrap)

Digamos que eu tenho duas condições, e meu tamanho de amostra para as duas condições é extremamente baixo. Digamos que só tenho 14 observações na primeira condição e 11 na outra. Eu quero usar o teste t para testar se as diferenças médias são significativamente diferentes umas das outras. Primeiro, …

8 confidence-interval t-test bootstrap normality-assumption reporting

1

Análise Discriminante Linear e dados não normalmente distribuídos

Se bem entendi, uma Análise Discriminante Linear (LDA) assume dados distribuídos normais, recursos independentes e covariâncias idênticas para todas as classes, para o critério de otimização. Como a média e a variação são estimadas a partir dos dados de treinamento, isso já não é uma violação? Encontrei uma citação em …

8 dimensionality-reduction normality-assumption discriminant-analysis

2

Por que um modelo estatístico superajustaria se recebesse um grande conjunto de dados?

Meu projeto atual pode exigir que eu construa um modelo para prever o comportamento de um determinado grupo de pessoas. o conjunto de dados de treinamento contém apenas 6 variáveis (id é apenas para fins de identificação): id, age, income, gender, job category, monthly spend em que monthly spendé a …

8 modeling large-data overfitting clustering algorithms error spatial r regression predictive-models linear-model average measurement-error weighted-mean error-propagation python standard-error weighted-regression hypothesis-testing time-series machine-learning self-study arima regression correlation anova statistical-significance excel r regression distributions statistical-significance contingency-tables regression optimization measurement-error loss-functions image-processing java panel-data probability conditional-probability r lme4-nlme model-comparison time-series probability probability conditional-probability logistic multiple-regression model-selection r regression model-based-clustering svm feature-selection feature-construction time-series forecasting stationarity r distributions bootstrap r distributions estimation maximum-likelihood garch references probability conditional-probability regression logistic regression-coefficients model-comparison confidence-interval r regression r generalized-linear-model outliers robust regression classification categorical-data r association-rules machine-learning distributions posterior likelihood r hypothesis-testing normality-assumption missing-data convergence expectation-maximization regression self-study categorical-data regression simulation regression self-study self-study gamma-distribution modeling microarray synthetic-data

2

Como testar a normalidade em uma ANOVA 2x2?

Desenho do estudo: mostrei aos participantes algumas informações sobre a elevação do nível do mar, concentrando as informações de diferentes maneiras, tanto em termos de escala de tempo quanto na magnitude de potencial aumento. Assim, eu tinha um design de 2 (Tempo: 2050 ou 2100) por 2 (Magnitude: Média ou …

8 anova spss residuals assumptions normality-assumption

1

Parâmetro inicializado e estimativas de ajuste com não normalidade para modelos de equações estruturais

Contexto: No contexto da modelagem de equações estruturais, não tenho normalidade de acordo com o teste de Mardia, mas os índices univariados de assimetria e curtose são menores que 2,0. Questões: As estimativas de parâmetro (estimativas de coeficiente) devem ser avaliadas usando bootstrapping (1000 repetições) com métodos corrigidos de viés? …

8 bootstrap normality-assumption sem

1

O teste Shapiro Wilk W é um tamanho de efeito?

Eu quero evitar o uso indevido de testes de normalidade, onde um tamanho de amostra grande o suficiente destacará qualquer leve não normalidade. Eu quero poder dizer que uma distribuição é "suficientemente normal". Quando a população não é normal, o valor de p para o teste Shapiro-Wilk tende a 0 …

8 hypothesis-testing normality-assumption effect-size

Perguntas com a marcação «normality-assumption»