Como comparar eventos observados x eventos esperados?


9

Suponha que eu tenha uma amostra de frequências de 4 eventos possíveis:

Event1 - 5
E2 - 1
E3 - 0
E4 - 12

e tenho as probabilidades esperadas de meus eventos ocorrerem:

p1 - 0.2
p2 - 0.1
p3 - 0.1
p4 - 0.6

Com a soma das frequências observadas dos meus quatro eventos (18), posso calcular as frequências esperadas dos eventos, certo?

expectedE1 - 18 * 0.2 = 3.6
expectedE2 - 18 * 0.1 = 1.8
expectedE1 - 18 * 0.1 = 1.8
expectedE1 - 18 * 0.6 = 10.8

Como posso comparar valores observados vs valores esperados? testar se minhas probabilidades calculadas são bons preditores?

Pensei em um teste do qui-quadrado, mas o resultado muda com o tamanho da amostra (n = 18), quero dizer, se eu multiplicar os valores observados por 1342 e usar o mesmo método, o resultado será diferente. Talvez um teste emparelhado com wilcox funcione, mas o que você sugere?

Se puder sugerir em R, seria melhor.

r  statistical-significance  chi-squared  multivariate-analysis  exponential  joint-distribution  statistical-significance  self-study  standard-deviation  probability  normal-distribution  spss  interpretation  assumptions  cox-model  reporting  cox-model  statistical-significance  reliability  method-comparison  classification  boosting  ensemble  adaboost  confidence-interval  cross-validation  prediction  prediction-interval  regression  machine-learning  svm  regularization  regression  sampling  survey  probit  matlab  feature-selection  information-theory  mutual-information  time-series  forecasting  simulation  classification  boosting  ensemble  adaboost  normal-distribution  multivariate-analysis  covariance  gini  clustering  text-mining  distance-functions  information-retrieval  similarities  regression  logistic  stata  group-differences  r  anova  confidence-interval  repeated-measures  r  logistic  lme4-nlme  inference  fiducial  kalman-filter  classification  discriminant-analysis  linear-algebra  computing  statistical-significance  time-series  panel-data  missing-data  uncertainty  probability  multivariate-analysis  r  classification  spss  k-means  discriminant-analysis  poisson-distribution  average  r  random-forest  importance  probability  conditional-probability  distributions  standard-deviation  time-series  machine-learning  online  forecasting  r  pca  dataset  data-visualization  bayes  distributions  mathematical-statistics  degrees-of-freedom 

Respostas:


4

Você menciona que obtém resultados diferentes se multiplicar todos os valores por . Isso não é um problema. Você deve obter resultados muito diferentes. Se você jogar uma moeda e ela aparecer cara, isso não diz muito. Se você jogar uma moeda 1342 vezes e ganhar cara sempre, terá muito mais informações sugerindo que a moeda não é justa.13421342

Geralmente, você deseja usar alternativas para um teste do quando o número esperado de ocorrências é tão baixo (digamos, abaixo de 5 ) em uma grande porcentagem de suas categorias (digamos, pelo menos 20 % ). Uma possibilidade é o teste exato de Fisher , que é implementado em R . Você pode visualizar o teste do χ 2 como uma aproximação ao teste exato de Fisher, e a aproximação só é boa quando mais contagens esperadas forem grandes.χ2520%χ2


Obrigado, qual é o melhor para isso: apenas o teste de Fisher? ou o teste de Fisher com p valor simulado? e porque?
Juan

kn(n+k-1 1n)107
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.