Perguntas com a marcação «data-imputation»

Refere-se a uma classe geral de métodos usados ​​para "preencher" dados ausentes. Os métodos usados ​​para fazer isso normalmente estão relacionados à interpolação (http://en.wikipedia.org/wiki/Interpolation) e exigem suposições sobre o motivo da falta de dados (por exemplo, "falta aleatória")

3
Um exemplo: regressão do LASSO usando glmnet para resultado binário
Estou começando a se envolver com o uso de glmnetcom LASSO Regressão onde meu desfecho de interesse é dicotômica. Criei um pequeno quadro de dados simulado abaixo: age <- c(4, 8, 7, 12, 6, 9, 10, 14, 7) gender <- c(1, 0, 1, 1, 1, 0, 1, 0, 0) bmi_p …
78 r  self-study  lasso  regression  interpretation  anova  statistical-significance  survey  conditional-probability  independence  naive-bayes  graphical-model  r  time-series  forecasting  arima  r  forecasting  exponential-smoothing  bootstrap  outliers  r  regression  poisson-distribution  zero-inflation  genetic-algorithms  machine-learning  feature-selection  cart  categorical-data  interpretation  descriptive-statistics  variance  multivariate-analysis  covariance-matrix  r  data-visualization  generalized-linear-model  binomial  proportion  pca  matlab  svd  time-series  correlation  spss  arima  chi-squared  curve-fitting  text-mining  zipf  probability  categorical-data  distance  group-differences  bhattacharyya  regression  variance  mean  data-visualization  variance  clustering  r  standard-error  association-measure  somers-d  normal-distribution  integral  numerical-integration  bayesian  clustering  python  pymc  nonparametric-bayes  machine-learning  svm  kernel-trick  hyperparameter  poisson-distribution  mean  continuous-data  univariate  missing-data  dag  python  likelihood  dirichlet-distribution  r  anova  hypothesis-testing  statistical-significance  p-value  rating  data-imputation  censoring  threshold 

3
R circunflexo e NAs
Eu prefiro o sinal de intercalação por sua capacidade de ajuste de parâmetros e interface uniforme, mas observei que ele sempre exige conjuntos de dados completos (ou seja, sem NAs), mesmo que o modelo "nu" aplicado permita NAs. Isso é muito incômodo, pois é necessário aplicar métodos de imputação trabalhosos, …

4
Imputação de valores ausentes para PCA
Eu usei a prcomp()função para executar um PCA (análise de componentes principais) em R. No entanto, há um erro nessa função, de modo que o na.actionparâmetro não funciona. Eu pedi ajuda no stackoverflow ; dois usuários ofereceram duas maneiras diferentes de lidar com NAvalores. No entanto, o problema com as …

3
Como combinar intervalos de confiança para um componente de variação de um modelo de efeitos mistos ao usar imputação múltipla
A lógica da imputação múltipla (MI) é imputar os valores ausentes não uma vez, mas várias (normalmente M = 5) vezes, resultando em M conjuntos de dados concluídos. Os conjuntos de dados completos M são então analisados ​​com métodos de dados completos nos quais as estimativas M e seus erros …



1
Agrupando gráficos de calibração após imputação múltipla
Gostaria de obter conselhos sobre como agrupar os gráficos / estatísticas de calibração após imputação múltipla. No cenário do desenvolvimento de modelos estatísticos para prever um evento futuro (por exemplo, usando dados de registros hospitalares para prever a sobrevivência ou eventos após a alta hospitalar), pode-se imaginar que há algumas …

3
Métodos para solucionar o problema de falta de dados no aprendizado de máquina
Praticamente qualquer banco de dados que desejamos fazer previsões usando algoritmos de aprendizado de máquina encontrará valores ausentes para algumas das características. Existem várias abordagens para resolver esse problema, para excluir linhas que possuem valores ausentes até que sejam preenchidas com os valores médios das características. Gostaria de usar para …

5
Pacotes R de imputação KNN
Estou procurando um pacote de imputação KNN. Eu estive analisando o pacote de imputação ( http://cran.r-project.org/web/packages/imputation/imputation.pdf ), mas por algum motivo a função de imputação do KNN (mesmo quando segue o exemplo da descrição) parece apenas imputar valores zero (conforme abaixo). Eu tenho procurado, mas não consigo encontrar algo ainda, …

2
usando informações de vizinhos em dados de imputação ou localizando dados externos (em R)
Eu tenho um conjunto de dados supondo que os vizinhos mais próximos são os melhores preditores. Apenas um exemplo perfeito de gradiente bidirecional visualizado- Suponha que tenhamos um caso em que faltam poucos valores, podemos prever facilmente com base em vizinhos e tendências. Matriz de dados correspondente em R (exemplo …

5
Como executar a imputação de valores em um número muito grande de pontos de dados?
Eu tenho um conjunto de dados muito grande e faltam cerca de 5% de valores aleatórios. Essas variáveis ​​estão correlacionadas entre si. O exemplo a seguir do conjunto de dados R é apenas um exemplo de brinquedo com dados correlatos simulados. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, …
12 r  random-forest  missing-data  data-imputation  multiple-imputation  large-data  definition  moving-window  self-study  categorical-data  econometrics  standard-error  regression-coefficients  normal-distribution  pdf  lognormal  regression  python  scikit-learn  interpolation  r  self-study  poisson-distribution  chi-squared  matlab  matrix  r  modeling  multinomial  mlogit  choice  monte-carlo  indicator-function  r  aic  garch  likelihood  r  regression  repeated-measures  simulation  multilevel-analysis  chi-squared  expected-value  multinomial  yates-correction  classification  regression  self-study  repeated-measures  references  residuals  confidence-interval  bootstrap  normality-assumption  resampling  entropy  cauchy  clustering  k-means  r  clustering  categorical-data  continuous-data  r  hypothesis-testing  nonparametric  probability  bayesian  pdf  distributions  exponential  repeated-measures  random-effects-model  non-independent  regression  error  regression-to-the-mean  correlation  group-differences  post-hoc  neural-networks  r  time-series  t-test  p-value  normalization  probability  moments  mgf  time-series  model  seasonality  r  anova  generalized-linear-model  proportion  percentage  nonparametric  ranks  weighted-regression  variogram  classification  neural-networks  fuzzy  variance  dimensionality-reduction  confidence-interval  proportion  z-test  r  self-study  pdf 





Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.