Estatísticas e Big Data mean

2

Existe uma versão de amostra da desigualdade unilateral de Chebyshev?

Estou interessado na seguinte versão unilateral de Cantelli da desigualdade de Chebyshev : P(X−E(X)≥t)≤Var(X)Var(X)+t2.P(X−E(X)≥t)≤Var(X)Var(X)+t2. \mathbb P(X - \mathbb E (X) \geq t) \leq \frac{\mathrm{Var}(X)}{\mathrm{Var}(X) + t^2} \,. Basicamente, se você conhece a média e a variação da população, pode calcular o limite superior da probabilidade de observar um determinado valor. …

32 probability mathematical-statistics probability-inequalities mean

4

Quais são os méritos relativos dos dados de Winsorizing vs. Recorte?

Winsorizing data significa substituir os valores extremos de um conjunto de dados por um determinado valor percentual de cada extremidade, enquanto Recortar ou Truncar envolve remover esses valores extremos. Eu sempre vejo os dois métodos discutidos como uma opção viável para diminuir o efeito de valores discrepantes ao calcular estatísticas …

31 standard-deviation mean truncation trimmed-mean winsorizing

8

Substituindo os valores discrepantes pela média

Esta pergunta foi feita pelo meu amigo que não é conhecedor da Internet. Não tenho antecedentes estatísticos e tenho pesquisado na Internet esta questão. A questão é: é possível substituir os valores discrepantes pelo valor médio? se for possível, existe alguma referência / periódicos para apoiar esta declaração?

31 mean outliers robust winsorizing

5

Qual é a diferença entre "valor médio" e "média"?

A Wikipedia explica: Para um conjunto de dados, a média é a soma dos valores divididos pelo número de valores. Essa definição, no entanto, corresponde ao que chamo de "média" (pelo menos é o que me lembro de aprender). No entanto, a Wikipedia mais uma vez cita: Existem outras medidas …

31 mean interpretation average

2

Existe um intervalo de confiança não paramétrico confiável para a média de uma distribuição distorcida?

Distribuições muito distorcidas, como o log-normal, não resultam em intervalos precisos de confiança na inicialização. Aqui está um exemplo que mostra que as áreas da cauda esquerda e direita estão longe do valor ideal de 0,025, independentemente do método de inicialização que você tenta no R: require(boot) n <- 25 …

30 confidence-interval nonparametric mean bootstrap median

4

O modo mean = implica uma distribuição simétrica?

Sei que essa pergunta foi feita com o caso mean = median, mas não encontrei nada relacionado ao mean = mode. Se o modo for igual à média, posso sempre concluir que esta é uma distribuição simétrica? Serei obrigado a conhecer também a mediana dessa maneira?

30 distributions mean skewness mode symmetry

5

Como lidar com dados hierárquicos / aninhados no aprendizado de máquina

Vou explicar meu problema com um exemplo. Suponha que você queira prever a renda de um indivíduo, com alguns atributos: {Idade, Sexo, País, Região, Cidade}. Você tem um conjunto de dados de treinamento como esse train <- data.frame(CountryID=c(1,1,1,1, 2,2,2,2, 3,3,3,3), RegionID=c(1,1,1,2, 3,3,4,4, 5,5,5,5), CityID=c(1,1,2,3, 4,5,6,6, 7,7,7,8), Age=c(23,48,62,63, 25,41,45,19, 37,41,31,50), Gender=factor(c("M","F","M","F", …

29 regression machine-learning multilevel-analysis correlation dataset spatial paired-comparisons cross-correlation clustering aic bic dependent-variable k-means mean standard-error measurement-error errors-in-variables regression multiple-regression pca linear-model dimensionality-reduction machine-learning neural-networks deep-learning conv-neural-network computer-vision clustering spss r weighted-data wilcoxon-signed-rank bayesian hierarchical-bayesian bugs stan distributions categorical-data variance ecology r survival regression r-squared descriptive-statistics cross-section maximum-likelihood factor-analysis likert r multiple-imputation propensity-scores distributions t-test logit probit z-test confidence-interval poisson-distribution deep-learning conv-neural-network residual-networks r survey wilcoxon-mann-whitney ranking kruskal-wallis bias loss-functions frequentist decision-theory risk machine-learning distributions normal-distribution multivariate-analysis inference dataset factor-analysis survey multilevel-analysis clinical-trials

10

Regressão à falácia média versus jogador

Por um lado, tenho a regressão à média e, por outro, tenho a falácia do jogador . A falácia de Gambler é definida por Miller e Sanjurjo (2019) como “a crença equivocada de que sequências aleatórias têm uma tendência sistemática à reversão, ou seja, que faixas de resultados semelhantes têm …

29 regression mean fallacy gambling

1

Os graus de liberdade podem ser um número não inteiro?

Quando uso o GAM, o DF residual é (última linha do código). O que isso significa? Indo além do exemplo do GAM, em geral, o número de graus de liberdade pode ser um número não inteiro?26,626.626.6 > library(gam) > summary(gam(mpg~lo(wt),data=mtcars)) Call: gam(formula = mpg ~ lo(wt), data = mtcars) Deviance …

27 r degrees-of-freedom gam machine-learning pca lasso probability self-study bootstrap expected-value regression machine-learning linear-model probability simulation random-generation machine-learning distributions svm libsvm classification pca multivariate-analysis feature-selection archaeology r regression dataset simulation r regression time-series forecasting predictive-models r mean sem lavaan machine-learning regularization regression conv-neural-network convolution classification deep-learning conv-neural-network regression categorical-data econometrics r confirmatory-factor scale-invariance self-study unbiased-estimator mse regression residuals sampling random-variable sample probability random-variable convergence r survival weibull references autocorrelation hypothesis-testing distributions correlation regression statistical-significance regression-coefficients univariate categorical-data chi-squared regression machine-learning multiple-regression categorical-data linear-model pca factor-analysis factor-rotation classification scikit-learn logistic p-value regression panel-data multilevel-analysis variance bootstrap bias probability r distributions interquartile time-series hypothesis-testing normal-distribution normality-assumption kurtosis arima panel-data stata clustered-standard-errors machine-learning optimization lasso multivariate-analysis ancova machine-learning cross-validation

3

Qual a diferença entre encontrar o centróide e encontrar a média?

Ao executar o cluster hierárquico, é possível usar muitas métricas para medir a distância entre os clusters. Duas dessas métricas implicam o cálculo dos centróides e meios de pontos de dados nos clusters. Qual é a diferença entre a média e o centróide? Estes não são o mesmo ponto no …

26 clustering mean

3

Como calcular o intervalo de confiança da razão de duas médias normais

Eu quero derivar os limites para o intervalo de confiança de para a razão de duas médias. Suponha que e sejam independentes, a razão média . Tentei resolver: mas essa equação não pôde ser resolvida em muitos casos (sem raízes). Estou fazendo algo errado? Existe uma abordagem melhor? obrigadoX 1 …

26 normal-distribution mean

3

O que se pode concluir sobre os dados quando a média aritmética está muito próxima da média geométrica?

Existe algo significativo sobre uma média geométrica e aritmética que caem muito próximas umas das outras, digamos ~ 0,1%? Que conjecturas podem ser feitas sobre esse conjunto de dados? Eu tenho trabalhado na análise de um conjunto de dados e percebo que, ironicamente, os valores são muito, muito próximos. Não …

24 descriptive-statistics mean geometric-mean

4

Como saber se minha distribuição de dados é simétrica?

Sei que se a mediana e a média são aproximadamente iguais, isso significa que há uma distribuição simétrica, mas neste caso em particular não tenho certeza. A média e a mediana estão bem próximas (apenas 0,487 m / gal de diferença), o que me levaria a dizer que há uma …

23 distributions mean skewness median qq-plot

4

Por que a média tende a ser mais estável em amostras diferentes do que a mediana?

A Seção 1.7.2 de Descobrindo estatísticas usando R por Andy Fields, et all, ao listar virtudes de média versus mediana, declara: ... a média tende a ser estável em diferentes amostras. Depois de explicar as muitas virtudes da mediana, por exemplo, ... A mediana não é afetada por pontuações extremas …

22 mean median

5

O que torna indefinida a média de algumas distribuições?

Muitos PDFs variam de menos a infinito positivo, mas alguns meios são definidos e outros não. Que característica comum torna computável?

21 distributions mean

Perguntas com a marcação «mean»