Estatísticas e Big Data resampling

3

Como reamostrar em R sem repetir permutações?

Em R, se eu definir.seed () e usar a função de amostra para randomizar uma lista, posso garantir que não gerarei a mesma permutação? ie ... set.seed(25) limit <- 3 myindex <- seq(0,limit) for (x in seq(1,factorial(limit))) { permutations <- sample(myindex) print(permutations) } Isso produz [1] 1 2 0 3 …

12 r sampling combinatorics resampling

1

A inicialização é apropriada para esses dados contínuos?

Eu sou um novato completo :) Estou fazendo um estudo com uma amostra de 10.000 de uma população de cerca de 745.000. Cada amostra representa uma "similaridade percentual". A grande maioria das amostras está em torno de 97% a 98%, mas algumas estão entre 60% e 90%, ou seja, a …

11 bootstrap sample-size resampling

1

Metodologia de inicialização. Por que reamostrar "com substituição" em vez de subamostragem aleatória?

O método bootstrap tem visto uma grande difusão nos últimos anos, eu também o uso muito, especialmente porque o raciocínio por trás é bastante intuitivo. Mas isso é uma coisa que eu não entendo. Por que a Efron optou por realizar uma nova amostra com substituição, em vez de simplesmente …

11 bootstrap resampling subsampling

1

Coeficiente de Gini e limites de erro

Eu tenho uma série temporal de dados com N = 14 contagens em cada ponto do tempo e quero calcular o coeficiente de Gini e um erro padrão para essa estimativa em cada ponto do tempo. Como tenho apenas N = 14 contagens em cada momento, procedi calculando a variação …

11 r variance econometrics resampling gini

4

Por que os testes de hipótese em conjuntos de dados reamostrados rejeitam o nulo com muita frequência?

tl; dr: Começando com um conjunto de dados gerado sob o valor nulo, fiz uma nova amostragem de casos com substituição e conduzi um teste de hipótese em cada conjunto de dados reamostrado. Esses testes de hipótese rejeitam o nulo mais de 5% do tempo. Na simulação abaixo, muito simples, …

10 r bootstrap simulation resampling

2

Devo inicializar no nível do cluster ou no nível individual?

Eu tenho um modelo de sobrevivência com pacientes aninhados em hospitais que inclui um efeito aleatório para os hospitais. O efeito aleatório é distribuído por gama, e estou tentando relatar a 'relevância' desse termo em uma escala que é facilmente compreendida. Encontrei as seguintes referências que usam a Median Hazard …

10 stata bootstrap multilevel-analysis resampling frailty

2

Bom texto para reamostragem?

O grupo pode recomendar um bom texto / recurso de introdução às técnicas de reamostragem aplicadas? Especificamente, estou interessado em alternativas aos testes paramétricos clássicos (por exemplo, testes t, ANOVA, ANCOVA) para comparar grupos quando suposições como normalidade são claramente violadas. Um exemplo de tipo de problema que eu gostaria …

10 references bootstrap resampling

1

Qual modelo de aprendizagem profunda pode classificar categorias que não são mutuamente exclusivas

Exemplos: Eu tenho uma frase na descrição do trabalho: "Java senior engineer in UK". Eu quero usar um modelo de aprendizado profundo para prever em duas categorias: English e IT jobs. Se eu usar o modelo de classificação tradicional, ele poderá prever apenas 1 rótulo com softmaxfunção na última camada. …

9 machine-learning deep-learning natural-language tensorflow sampling distance non-independent application regression machine-learning logistic mixed-model control-group crossover r multivariate-analysis ecology procrustes-analysis vegan regression hypothesis-testing interpretation chi-squared bootstrap r bioinformatics bayesian exponential beta-distribution bernoulli-distribution conjugate-prior distributions bayesian prior beta-distribution covariance naive-bayes smoothing laplace-smoothing distributions data-visualization regression probit penalized estimation unbiased-estimator fisher-information unbalanced-classes bayesian model-selection aic multiple-regression cross-validation regression-coefficients nonlinear-regression standardization naive-bayes trend machine-learning clustering unsupervised-learning wilcoxon-mann-whitney z-score econometrics generalized-moments method-of-moments machine-learning conv-neural-network image-processing ocr machine-learning neural-networks conv-neural-network tensorflow r logistic scoring-rules probability self-study pdf cdf classification svm resampling forecasting rms volatility-forecasting diebold-mariano neural-networks prediction-interval uncertainty

2

Tamanho das amostras de inicialização

Estou aprendendo sobre o bootstrap como meio de estimar a variação de uma estatística de amostra. Eu tenho uma dúvida básica. Citando http://web.stanford.edu/class/psych252/tutorials/doBootstrapPrimer.pdf : • Quantas observações devemos refazer a amostra? Uma boa sugestão é o tamanho da amostra original. Como podemos reamostrar tantas observações quanto na amostra original? Se …

9 sampling bootstrap resampling

1

Sobre-amostragem com variáveis categóricas

Gostaria de executar uma combinação de superamostragem e subamostragem para equilibrar meu conjunto de dados com aproximadamente 4000 clientes divididos em dois grupos, onde um dos grupos tem uma proporção de aproximadamente 15%. Examinei o SMOTE ( http://www.inside-r.org/packages/cran/DMwR/docs/SMOTE ) e o ROSE ( http://cran.r-project.org/web/packages/ROSE/ ROSE.pdf ), mas ambos criam novas …

9 unbalanced-classes resampling oversampling

1

A reamostragem de autoinicialização pode ser usada para calcular um intervalo de confiança para a variação de um conjunto de dados?

Sei que se você fizer uma nova amostragem de um conjunto de dados várias vezes e calcular a média a cada vez, esses meios seguirão uma distribuição normal (pelo CLT). Portanto, você pode calcular um intervalo de confiança na média do conjunto de dados sem fazer nenhuma suposição sobre a …

9 distributions confidence-interval bootstrap resampling

1

Abordagem da função de controle e inicialização

Vamos começar assumindo que eu tenho dados transversais em , , (veja abaixo , , ).yyyx1x1x_1x2x2x_2yyyx1x1x_1x2x2x_2 Quero estimar o efeito das variáveis e e sua interação ( ) na variável usando a abordagem da função de controle, e é altamente provável que e sejam endógenas. Eu tenho dois instrumentos, e …

8 econometrics bootstrap instrumental-variables resampling errors-in-variables

1

Número necessário de permutações para um valor p baseado em permutação

Se eu precisar calcular um valor baseado em permutação com nível de significância α , quantas permutações eu preciso?pppαα\alpha No artigo "Testes de permutação para estudar o desempenho do classificador" , página 5: Na prática, o limite superior é normalmente usado para determinar o número de amostras necessárias para alcançar …

8 hypothesis-testing p-value permutation-test resampling

1

Qual método está simulando pvalues a partir da nova amostragem dos dados

Há um tempo atrás, fiz uma pergunta sobre a correlação dos tempos entre os carimbos de data e hora e recebi uma resposta de Peter Ellis que dizia que eu podia calcular as distâncias médias entre os códigos ... Isso já lhe dará uma noção de quais comportamentos estão agrupados, …

8 bootstrap monte-carlo resampling quasi-monte-carlo

2

Subamostra de uma amostra aleatória: amostra aleatória?

Digamos que você tenha uma grande amostra aleatória de jogadores de futebol na Europa, mas você só está interessado no que acontece na Espanha. Você poderia reduzir sua amostra para jogadores da Espanha e ainda chamá-la de amostra aleatória (mas de uma população diferente)? Caso contrário, como você chamaria essa …

8 sampling sample resampling

Perguntas com a marcação «resampling»