Estatísticas e Big Data cross-validation

2

A regularização pode ser útil se estivermos interessados apenas na modelagem, não na previsão?

A regularização pode ser útil se estivermos interessados apenas em estimar (e interpretar) os parâmetros do modelo, e não em previsão ou previsão? Vejo como a regularização / validação cruzada é extremamente útil se seu objetivo é fazer boas previsões sobre novos dados. Mas e se você estiver fazendo economia …

19 cross-validation econometrics model-selection interpretation regularization

1

Intervalo de previsão com base na validação cruzada (CV)

Nos livros de texto e nas palestras do youtube, aprendi muito sobre modelos iterativos, como impulsionar, mas nunca vi nada sobre derivar um intervalo de previsão. A validação cruzada é usada para o seguinte: Seleção de modelo : experimente diferentes modelos e escolha o que melhor se adapta. No caso …

19 cross-validation boosting prediction-interval

2

Estabilidade da validação cruzada em modelos bayesianos

Estou ajustando um HLM Bayesiano no JAGS usando a validação cruzada em dobra k (k = 5). Gostaria de saber se as estimativas do parâmetro são estáveis em todas as dobras. Qual é a melhor forma de fazer isso?ββ\beta Uma idéia é encontrar as diferenças dos posteriores de e ver …

19 bayesian cross-validation

6

O ajuste do hiperparâmetro na amostra do conjunto de dados é uma má idéia?

Eu tenho um conjunto de dados de 140000 exemplos e 30 recursos para os quais estou treinando vários classificadores para uma classificação binária (SVM, Regressão Logística, Floresta Aleatória etc.) Em muitos casos, o ajuste de hiperparâmetros em todo o conjunto de dados usando a pesquisa em grade ou aleatória é …

19 machine-learning cross-validation hyperparameter

4

Por que dividir os dados no conjunto de treinamento e teste não é suficiente

Eu sei que, para acessar o desempenho do classificador, tenho que dividir os dados em conjunto de treinamento / teste. Mas lendo isso : Ao avaliar configurações diferentes ("hiperparâmetros") para estimadores, como a configuração C que deve ser definida manualmente para um SVM, ainda existe o risco de sobreajuste no …

18 machine-learning cross-validation

1

Como a matriz de confusão é relatada a partir da validação cruzada K-fold?

Suponha que eu faça validação cruzada com dobra K com K = 10 dobras. Haverá uma matriz de confusão para cada dobra. Ao relatar os resultados, devo calcular qual é a matriz de confusão média ou somar as matrizes de confusão?

18 machine-learning cross-validation accuracy

1

Prova da fórmula LOOCV

De Uma Introdução à Aprendizagem Estatística de James et al., A estimativa de validação cruzada de saída única (LOOCV) é definida por que .cv( N )= 1n∑i = 1nMSEEucv(n)=1n∑Eu=1nMSEEu\text{CV}_{(n)} = \dfrac{1}{n}\sum\limits_{i=1}^{n}\text{MSE}_iMSEEu= ( yEu- y^Eu)2MSEEu=(yEu-y^Eu)2\text{MSE}_i = (y_i-\hat{y}_i)^2 Sem prova, a equação (5.2) afirma que, para mínimos quadrados ou regressão polinomial (se …

18 regression self-study cross-validation least-squares

5

Variabilidade nos resultados do cv.glmnet

Estou usando cv.glmnetpara encontrar preditores. A configuração que eu uso é a seguinte: lassoResults<-cv.glmnet(x=countDiffs,y=responseDiffs,alpha=1,nfolds=cvfold) bestlambda<-lassoResults$lambda.min results<-predict(lassoResults,s=bestlambda,type="coefficients") choicePred<-rownames(results)[which(results !=0)] Garantir que os resultados sejam reprodutíveis set.seed(1). Os resultados são altamente variáveis. Corri exatamente o mesmo código 100 para ver como os resultados eram variáveis. Nas corridas 98/100, sempre havia um preditor …

18 r cross-validation feature-selection glmnet

3

Imputação antes ou depois da divisão no trem e no teste?

Eu tenho um conjunto de dados com N ~ 5000 e faltando cerca de 1/2 em pelo menos uma variável importante. O principal método analítico serão os riscos proporcionais de Cox. Eu pretendo usar várias imputações. Também estarei me dividindo em um trem e um conjunto de testes. Devo dividir …

18 cross-validation survival multiple-imputation train

2

Quantas vezes devemos repetir um CV K-fold?

Me deparei com este tópico, olhando para as diferenças entre inicialização e validação cruzada - ótimas respostas e referências a propósito. O que estou me perguntando agora é: se eu deveria executar um CV repetido de 10 vezes, para calcular a precisão de um classificador, quantas vezes n devo repeti-lo? …

18 cross-validation

1

Podemos usar um desvio médio e desvio padrão para revelar os valores extremos?

Suponha que eu tenha distribuído dados normalmente. Para cada elemento dos dados, quero verificar quantos SDs estão longe da média. Pode haver um erro nos dados (provavelmente apenas um, mas também pode haver dois ou três) ou não, mas esse erro é basicamente o que estou procurando. Faz sentido excluir …

17 cross-validation standard-deviation mean outliers

4

Validação cruzada e ajuste de parâmetros

Alguém pode me dizer o que exatamente uma análise de validação cruzada fornece como resultado? É apenas a precisão média ou fornece algum modelo com parâmetros ajustados? Porque, ouvi em algum lugar que a validação cruzada é usada para ajuste de parâmetros.

17 cross-validation

5

Método rápido para encontrar os melhores metaparameters do SVM (que é mais rápido que a pesquisa em grade)

Estou usando modelos SVM para fazer previsões de curto prazo de poluentes do ar. Para treinar um novo modelo, preciso encontrar metaparameters apropriados para um modelo SVM (refiro-me a C, gama e assim por diante). A documentação do Libsvm (e muitos outros livros que li) sugere o uso da pesquisa …

17 cross-validation svm

2

Por que usar o dimensionamento de Platt?

Para calibrar um nível de confiança para uma probabilidade de aprendizado supervisionado (digamos, mapear a confiança de um SVM ou de uma árvore de decisão usando dados superamostrados), um método é usar o Escala de Platt (por exemplo, Obtendo Probabilidades Calibradas do Impulso ). Basicamente, utiliza-se regressão logística para mapear …

17 logistic cross-validation calibration

1

Como criar o modelo final e ajustar o limite de probabilidade após validação cruzada aninhada?

Em primeiro lugar, desculpas por postar uma pergunta que já foi discutida extensivamente aqui , aqui , aqui , aqui , aquie para reaquecer um tópico antigo. Eu sei que o @DikranMarsupial já escreveu sobre esse tópico em posts e artigos de periódicos, mas ainda estou confuso e, a julgar …

17 machine-learning cross-validation model-selection glmnet hyperparameter

Perguntas com a marcação «cross-validation»