Estatísticas e Big Data missing-data

1

Como os valores de 'NA' são tratados em glm em R

Eu tenho uma tabela de dados T1, que contém quase mil variáveis (V1) e cerca de 200 milhões de pontos de dados. Os dados são escassos e a maioria das entradas é NA. Cada ponto de dados possui um par único de identificação e data para distinguir um do outro. …

19 r generalized-linear-model missing-data

3

Probabilidade máxima de informações completas para a falta de dados em R

Contexto : Regressão hierárquica com alguns dados ausentes. Pergunta : Como uso a estimativa de máxima verossimilhança de informações completas (FIML) para tratar dos dados ausentes no R? Existe um pacote que você recomendaria e quais são as etapas típicas? Recursos e exemplos online também seriam muito úteis. PS : …

18 r maximum-likelihood missing-data

2

Imputação múltipla para variáveis de resultado

Eu tenho um conjunto de dados sobre ensaios agrícolas. Minha variável de resposta é uma taxa de resposta: log (tratamento / controle). Estou interessado no que medeia a diferença, por isso estou executando meta-regressões de ER (sem ponderação, porque parece bastante claro que o tamanho do efeito não está correlacionado …

17 missing-data meta-analysis multiple-imputation meta-regression

2

Como executo a análise de Regressão Logística Ordinal em R com valores numéricos / categóricos?

Dados básicos : Eu tenho ~ 1.000 pessoas marcadas com avaliações: '1,' [bom] '2,' [meio] ou '3' [ruim] - esses são os valores que estou tentando prever para as pessoas no futuro . Além disso, tenho algumas informações demográficas: gênero (categórico: M / F), idade (numérico: 17-80) e raça (categórica: …

17 r regression logistic missing-data ordered-logit

2

Como calcular o tempo médio de adesão ao vegetarianismo quando temos apenas dados de pesquisas sobre vegetarianos atuais?

Uma amostra populacional aleatória foi pesquisada. Eles foram perguntados se eles comem dieta vegetariana. Se eles responderam que sim, também foram solicitados a especificar por quanto tempo eles seguem a dieta vegetariana sem interrupção. Eu quero usar esses dados para calcular o tempo médio de adesão ao vegetarianismo. Em outras …

16 survival mean missing-data survey weighted-mean

2

Como preencher dados ausentes em séries temporais?

Eu tenho um grande conjunto de dados de poluição que foram registrados a cada 10 minutos durante 2 anos, no entanto, existem várias lacunas nos dados (incluindo algumas que duram algumas semanas por vez). Os dados parecem bastante sazonais e há uma grande variação durante o dia em comparação com …

16 time-series missing-data data-imputation

3

Usando o pacote de previsão R com valores ausentes e / ou séries temporais irregulares

Estou impressionado com o forecastpacote R , bem como, por exemplo, o zoopacote para séries temporais irregulares e interpolação de valores ausentes. Meu aplicativo é na área de previsão de tráfego de call center; portanto, os dados nos finais de semana estão (quase) sempre ausentes, o que pode ser bem …

16 r time-series forecasting missing-data unevenly-spaced-time-series

4

A precisão da máquina de aumento de gradiente diminui à medida que o número de iterações aumenta

Estou experimentando o algoritmo da máquina de aumento de gradiente através do caretpacote em R. Usando um pequeno conjunto de dados de admissões de faculdade, executei o seguinte código: library(caret) ### Load admissions dataset. ### mydata <- read.csv("http://www.ats.ucla.edu/stat/data/binary.csv") ### Create yes/no levels for admission. ### mydata$admit_factor[mydata$admit==0] <- "no" mydata$admit_factor[mydata$admit==1] <- …

15 machine-learning caret boosting gbm hypothesis-testing t-test panel-data psychometrics intraclass-correlation generalized-linear-model categorical-data binomial model intercept causality cross-correlation distributions ranks p-value z-test sign-test time-series references terminology cross-correlation definition probability distributions beta-distribution inverse-gamma missing-data paired-comparisons paired-data clustered-standard-errors cluster-sample time-series arima logistic binary-data odds-ratio medicine hypothesis-testing wilcoxon-mann-whitney unsupervised-learning hierarchical-clustering neural-networks train clustering k-means regression ordinal-data change-scores machine-learning experiment-design roc precision-recall auc stata multilevel-analysis regression fitting nonlinear jmp r data-visualization gam gamm4 r lme4-nlme many-categories regression causality instrumental-variables endogeneity controlling-for-a-variable

1

Qual é a intuição por trás de amostras intercambiáveis sob a hipótese nula?

Os testes de permutação (também chamados de teste de randomização, teste de re-randomização ou teste exato) são muito úteis e úteis quando a suposição de distribuição normal exigida por, por exemplo, t-testnão é atendida e quando a transformação dos valores pela classificação do teste não-paramétrico como Mann-Whitney-U-testlevaria a mais informações …

15 hypothesis-testing permutation-test exchangeability r statistical-significance loess data-visualization normal-distribution pdf ggplot2 kernel-smoothing probability self-study expected-value normal-distribution prior correlation time-series regression heteroscedasticity estimation estimators fisher-information data-visualization repeated-measures binary-data panel-data mathematical-statistics coefficient-of-variation normal-distribution order-statistics regression machine-learning one-class probability estimators forecasting prediction validation finance measurement-error variance mean spatial monte-carlo data-visualization boxplot sampling uniform chi-squared goodness-of-fit probability mixture theory gaussian-mixture regression statistical-significance p-value bootstrap regression multicollinearity correlation r poisson-distribution survival regression categorical-data ordinal-data ordered-logit regression interaction time-series machine-learning forecasting cross-validation binomial multiple-comparisons simulation false-discovery-rate r clustering frequency wilcoxon-mann-whitney wilcoxon-signed-rank r svm t-test missing-data excel r numerical-integration r random-variable lme4-nlme mixed-model weighted-regression power-law errors-in-variables machine-learning classification entropy information-theory mutual-information

3

Posso reconstruir uma distribuição normal do tamanho da amostra e dos valores mínimo e máximo? Eu posso usar o ponto médio para proxy da média

Eu sei que isso pode ser um pouco complicado, estatisticamente, mas esse é o meu problema. Eu tenho muitos dados de intervalo, ou seja, o tamanho mínimo, máximo e amostral de uma variável. Para alguns desses dados, também tenho uma média, mas não muitos. Quero comparar esses intervalos entre si …

14 r normal-distribution estimation missing-data order-statistics

1

Lidando com dados ausentes em um modelo de suavização exponencial

Não parece haver uma maneira padrão de lidar com dados ausentes no contexto da família de modelos de suavização exponencial. Em particular, a implementação R chamada ets no pacote de previsão parece levar a subsequência mais longa sem a falta de dados, e o livro "Forecasting with Exponential Smoothing" de …

14 time-series forecasting missing-data

2

Lidando com conjuntos de dados com um número variável de recursos

Quais são algumas abordagens para classificar dados com um número variável de recursos? Como exemplo, considere um problema em que cada ponto de dados é um vetor de pontos xey, e não temos o mesmo número de pontos para cada instância. Podemos tratar cada par de pontos xey como uma …

14 machine-learning missing-data

3

Distinguir falta aleatória (MAR) de falta completamente aleatória (MCAR)

Eu tive esses dois explicados várias vezes. Eles continuam a cozinhar meu cérebro. Faltar não ao acaso faz sentido, e Faltar completamente ao acaso faz sentido ... é o Desaparecimento ao acaso que não faz tanto. O que gera dados que seriam MAR, mas não MCAR?

13 missing-data

5

Imputação múltipla para valores ausentes

Eu gostaria de usar a imputação para substituir valores ausentes no meu conjunto de dados sob certas restrições. Por exemplo, eu gostaria que a variável imputada x1fosse maior ou igual à soma das minhas outras duas variáveis, digamos x2e x3. Eu também quero x3ser imputado por um 0ou outro >= …

13 r spss missing-data multiple-imputation

1

Como os dados ausentes podem ser tratados ao usar splines ou polinômios fracionários?

Estou lendo Multivariable Model Building: Uma Abordagem Pragmática à Análise de Regressão Baseada em Polinômios Fracionários para Modelagem de Variáveis Contínuas de Patrick Royston e Willie Sauerbrei. Até agora, estou impressionado e é uma abordagem interessante que não havia considerado antes. Mas os autores não lidam com dados ausentes. De …

12 regression missing-data fractional-polynomial

Perguntas com a marcação «missing-data»