Estatísticas e Big Data missing-data

5

Como executar a imputação de valores em um número muito grande de pontos de dados?

Eu tenho um conjunto de dados muito grande e faltam cerca de 5% de valores aleatórios. Essas variáveis estão correlacionadas entre si. O exemplo a seguir do conjunto de dados R é apenas um exemplo de brinquedo com dados correlatos simulados. set.seed(123) # matrix of X variable xmat <- matrix(sample(-1:1, …

12 r random-forest missing-data data-imputation multiple-imputation large-data definition moving-window self-study categorical-data econometrics standard-error regression-coefficients normal-distribution pdf lognormal regression python scikit-learn interpolation r self-study poisson-distribution chi-squared matlab matrix r modeling multinomial mlogit choice monte-carlo indicator-function r aic garch likelihood r regression repeated-measures simulation multilevel-analysis chi-squared expected-value multinomial yates-correction classification regression self-study repeated-measures references residuals confidence-interval bootstrap normality-assumption resampling entropy cauchy clustering k-means r clustering categorical-data continuous-data r hypothesis-testing nonparametric probability bayesian pdf distributions exponential repeated-measures random-effects-model non-independent regression error regression-to-the-mean correlation group-differences post-hoc neural-networks r time-series t-test p-value normalization probability moments mgf time-series model seasonality r anova generalized-linear-model proportion percentage nonparametric ranks weighted-regression variogram classification neural-networks fuzzy variance dimensionality-reduction confidence-interval proportion z-test r self-study pdf

3

STL em séries temporais com valores ausentes para detecção de anomalias

Estou tentando detectar valores anômalos em uma série temporal de dados climáticos com algumas observações ausentes. Pesquisando na web, encontrei muitas abordagens disponíveis. Dessas, a decomposição do stl parece atraente, no sentido de remover componentes de tendência e sazonais e estudar o restante. Lendo STL: um procedimento de decomposição de …

12 r time-series outliers missing-data

2

80% dos dados ausentes em uma única variável

Há uma variável nos meus dados que possui 80% dos dados ausentes. Os dados estão ausentes devido à inexistência (ou seja, quanto empréstimo bancário a empresa deve). Me deparei com um artigo dizendo que o método de ajuste de variável fictícia é a solução para esse problema. O que significa …

12 missing-data

3

Técnicas para lidar com dados incompletos / ausentes

My question is directed to techniques to deal with incomplete data during the classifier/model training/fitting. For instance, in a dataset w/ a few hundred rows, each row having let's say five dimensions and a class label as the last item, most data points will look like this: [0.74, 0.39, 0.14, …

12 missing-data

3

Existe um problema sério com a remoção de observações com valores ausentes ao calcular a matriz de correlação?

Eu tenho esse enorme conjunto de dados com 2500 variáveis e 142 observações. Eu quero executar uma correlação entre a variável X e o resto das variáveis. Mas para muitas colunas, há entradas ausentes. Tentei fazer isso no R usando o argumento "pairwise-complete" ( use=pairwise.complete.obs) e ele gerou várias correlações. …

12 r correlation missing-data correlation-matrix

3

Como lidar com valores de NA no método de encolhimento (Lasso) usando glmnet

Estou usando o "glmnet" para regressão do laço no GWAS. Algumas variantes e indivíduos têm valores ausentes e parece que o glmnet não pode lidar com valores ausentes. Existe alguma solução para isso? ou existe outro pacote que possa lidar com valores ausentes na regressão do laço? Aqui estão meus …

12 missing-data lasso glmnet

3

Como lidar com dados inexistentes ou ausentes?

Tentei um método de previsão e quero verificar se meu método está correto ou não. Meu estudo está comparando diferentes tipos de fundos mútuos. Quero usar o índice GCC como referência para um deles, mas o problema é que o índice GCC parou em setembro de 2011 e meu estudo …

12 time-series forecasting missing-data

2

Como lidar com dados inexistentes (não faltando)?

Eu realmente nunca encontrei um bom texto ou exemplos sobre como lidar com dados 'inexistentes' para entradas para qualquer tipo de classificador. Eu li muito sobre dados ausentes, mas o que pode ser feito sobre dados que não podem ou não existem em relação às entradas multivariadas. Entendo que esta …

11 missing-data

2

Probabilidade de alguém gostar da imagem

Eu tenho o seguinte problema: - Temos um conjunto de N pessoas - Temos um conjunto de imagens K - Cada pessoa classifica um certo número de imagens. Uma pessoa pode gostar ou não de uma imagem (essas são as duas únicas possibilidades). - O problema é como calcular a …

11 missing-data rating

1

O XGBoost pode lidar com dados ausentes na fase de previsão

Recentemente, analisei o algoritmo XGBoost e notei que esse algoritmo pode manipular dados ausentes (sem exigir imputação) na fase de treinamento. Eu queria saber se o XGboost pode lidar com dados ausentes (sem exigir imputação) quando é usado para prever novas observações ou é necessário imputá-los. Desde já, obrigado.

11 machine-learning missing-data data-imputation xgboost

1

R / mgcv: Por que os produtos tensores te () e ti () produzem superfícies diferentes?

O mgcvpacote para Rpossui duas funções para ajustar as interações do produto tensorial: te()e ti(). Entendo a divisão básica do trabalho entre os dois (ajustando uma interação não linear versus decompondo essa interação em efeitos principais e uma interação). O que não entendo é o porquê te(x1, x2)e ti(x1) + …

11 r gam mgcv conditional-probability mixed-model references bayesian estimation conditional-probability machine-learning optimization gradient-descent r hypothesis-testing wilcoxon-mann-whitney time-series bayesian inference change-point time-series anova repeated-measures statistical-significance bayesian contingency-tables regression prediction quantiles classification auc k-means scikit-learn regression spatial circular-statistics t-test effect-size cohens-d r cross-validation feature-selection caret machine-learning modeling python optimization frequentist correlation sample-size normalization group-differences heteroscedasticity independence generalized-least-squares lme4-nlme references mcmc metropolis-hastings optimization r logistic feature-selection separation clustering k-means normal-distribution gaussian-mixture kullback-leibler java spark-mllib data-visualization categorical-data barplot hypothesis-testing statistical-significance chi-squared type-i-and-ii-errors pca scikit-learn conditional-expectation statistical-significance meta-analysis intuition r time-series multivariate-analysis garch machine-learning classification data-mining missing-data cart regression cross-validation matrix-decomposition categorical-data repeated-measures chi-squared assumptions contingency-tables prediction binary-data trend test-for-trend matrix-inverse anova categorical-data regression-coefficients standard-error r distributions exponential interarrival-time copula log-likelihood time-series forecasting prediction-interval mean standard-error meta-analysis meta-regression network-meta-analysis systematic-review normal-distribution multiple-regression generalized-linear-model poisson-distribution poisson-regression r sas cohens-kappa

1

Erro "o menor menor da ordem 1 não é positivo definitivo" usando 2l.norm em ratos

Estou tendo um problema ao usar o 2l.normmétodo de imputação em vários níveis no Windows mice. Infelizmente, não posso postar um exemplo reproduzível por causa do tamanho dos meus dados - quando reduzo o tamanho, o problema desaparece. Para uma variável específica, miceproduz os seguintes erros e avisos: Error in …

11 r missing-data multiple-imputation mice

2

A ponderação baseada em precisão (isto é, variação inversa) é parte integrante da metanálise?

A ponderação baseada em precisão é central para a metanálise? Borenstein et al. (2009) escrevem que, para que a meta-análise seja possível, tudo o que é necessário é: Os estudos relatam uma estimativa pontual que pode ser expressa como um único número. A variação pode ser calculada para essa estimativa …

10 variance sample-size missing-data meta-analysis

3

Qual é a vantagem da imputação sobre a construção de vários modelos em regressão?

Gostaria de saber se alguém poderia fornecer algumas dicas sobre se uma imputação de dados ausentes é melhor do que simplesmente criar modelos diferentes para casos com dados ausentes. Especialmente no caso de modelos lineares [generalizados] (talvez eu possa ver em casos não lineares as coisas são diferentes) Suponha que …

10 regression missing-data data-imputation

1

Por que Anova () e drop1 () forneceram respostas diferentes para os GLMMs?

Eu tenho um GLMM do formulário: lmer(present? ~ factor1 + factor2 + continuous + factor1*continuous + (1 | factor3), family=binomial) Quando uso drop1(model, test="Chi"), obtenho resultados diferentes dos que utilizo Anova(model, type="III")na embalagem do carro ou summary(model). Estes dois últimos dão as mesmas respostas. Usando um monte de dados fabricados, …

10 r anova glmm r mixed-model bootstrap sample-size cross-validation roc auc sampling stratification random-allocation logistic stata interpretation proportion r regression multiple-regression linear-model lm r cross-validation cart rpart logistic generalized-linear-model econometrics experiment-design causality instrumental-variables random-allocation predictive-models data-mining estimation contingency-tables epidemiology standard-deviation mean ancova psychology statistical-significance cross-validation synthetic-data poisson-distribution negative-binomial bioinformatics sequence-analysis distributions binomial classification k-means distance unsupervised-learning euclidean correlation chi-squared spearman-rho forecasting excel exponential-smoothing binomial sample-size r change-point wilcoxon-signed-rank ranks clustering matlab covariance covariance-matrix normal-distribution simulation random-generation bivariate standardization confounding z-statistic forecasting arima minitab poisson-distribution negative-binomial poisson-regression overdispersion probability self-study markov-process estimation maximum-likelihood classification pca group-differences chi-squared survival missing-data contingency-tables anova proportion

Perguntas com a marcação «missing-data»