Estatísticas e Big Data

2

Como faz sentido executar o OLS após a seleção de variáveis do LASSO?

Recentemente, descobri que na literatura econométrica aplicada, ao lidar com problemas de seleção de características, não é incomum executar o LASSO seguido de uma regressão OLS usando as variáveis selecionadas. Fiquei me perguntando como podemos qualificar a validade de tal procedimento. Causará problemas como variáveis omitidas? Alguma prova mostrando que …

20 regression feature-selection econometrics least-squares lasso

4

Diferença entre feedback RNN e LSTM / GRU

Estou tentando entender diferentes arquiteturas de redes neurais recorrentes (RNN) a serem aplicadas a dados de séries temporais e estou ficando um pouco confuso com os diferentes nomes que são frequentemente usados ao descrever RNNs. A estrutura da Memória de Longo Prazo (LSTM) e da Unidade Recorrente Fechada (GRU) é …

20 neural-networks lstm rnn

2

Da distribuição uniforme à distribuição exponencial e vice-versa

Esta é provavelmente uma questão trivial, mas minha busca foi infrutífera até agora, incluindo este artigo wikipedia , e o "Compêndio de Distribuições" documento . Se tem uma distribuição uniforme, significa que segue uma distribuição exponencial?XXXeXeXe^X Da mesma forma, se segue uma distribuição exponencial, significa que segue uma distribuição uniforme?YYYln(Y)ln(Y)ln(Y)

20 distributions data-transformation exponential uniform

3

Como usar a parada precoce corretamente para treinar redes neurais profundas?

Eu tenho um modelo de rede neural profunda e preciso treiná-lo no meu conjunto de dados, que consiste em cerca de 100.000 exemplos, meus dados de validação contêm cerca de 1000 exemplos. Como leva tempo para treinar cada exemplo (cerca de 0,5s para cada exemplo) e para evitar o excesso …

20 neural-networks deep-learning

2

O que há em um nome: Precisão (inversa de variação)

Intuitivamente, a média é apenas a média das observações. A variação é o quanto essas observações variam em relação à média. Gostaria de saber por que o inverso da variância é conhecido como precisão. Que intuição podemos fazer disso? E por que a matriz de precisão é tão útil quanto …

20 normal-distribution multivariate-analysis terminology intuition

2

Nas redes neurais, por que usar métodos de gradiente em vez de outras metaheurísticas?

No treinamento de redes neurais profundas e rasas, por que os métodos de gradiente (por exemplo, descida de gradiente, Nesterov, Newton-Raphson) são comumente usados, em oposição a outras metaheurísticas? Por metaheurísticas, refiro-me a métodos como recozimento simulado, otimização de colônias de formigas etc., que foram desenvolvidos para evitar o empate …

20 neural-networks optimization deep-learning gradient-descent backpropagation

2

Noções básicas sobre derivação de troca de polarização e desvio

Estou lendo o capítulo da troca de viés e variação de Os elementos do aprendizado estatístico e tenho dúvidas na fórmula da página 29. Deixe os dados surgirem de um modelo tal que onde é aleatório número com valor esperado e variância . Seja o valor esperado do erro do …

20 machine-learning unbiased-estimator mse bias-variance-tradeoff

2

Quais métodos de otimização funcionam melhor para LSTMs?

Eu tenho usado o theano para experimentar LSTMs e queria saber quais métodos de otimização (SGD, Adagrad, Adadelta, RMSprop, Adam, etc) funcionam melhor para LSTMs? Existem trabalhos de pesquisa sobre esse assunto? Além disso, a resposta depende do tipo de aplicativo para o qual estou usando o LSTM? Nesse caso, …

20 machine-learning neural-networks optimization lstm

2

Gráficos residuais: por que plotagem versus valores ajustados, valores

No contexto da regressão OLS, entendo que um gráfico residual (vs valores ajustados) é convencionalmente visto para testar a variação constante e avaliar a especificação do modelo. Por que os resíduos são plotados contra os ajustes, e não os valores de ? Como as informações diferem desses dois gráficos?YYY Estou …

20 regression residuals

4

Agrupando uma Matriz de Correlação

Eu tenho uma matriz de correlação que indica como cada item é correlacionado com o outro item. Portanto, para um N itens, eu já tenho uma matriz de correlação N * N. Usando essa matriz de correlação, como agrupo os N itens nos compartimentos M para que eu possa dizer …

20 clustering python k-means

3

Por que o fator de normalização é necessário no teorema de Bayes?

O teorema de Bayes vai P( modelo | dados ) = P( modelo ) × P( dados | modelo )P( dados )P(modelo|dados)=P(modelo)×P(dados|modelo)P(dados) P(\textrm{model}|\textrm{data}) = \frac{P(\textrm{model}) \times P(\textrm{data}|\textrm{model})}{P(\textrm{data})} Está tudo bem. Mas eu li em algum lugar: Basicamente, P (dados) nada mais é do que uma constante normalizadora, ou seja, uma …

20 probability bayesian conditional-probability bayes

4

"A área total abaixo de uma função de densidade de probabilidade é 1" - em relação a quê?

Conceitualmente, entendo o significado da frase "a área total sob um PDF é 1". Isso significa que as chances de o resultado estar no intervalo total de possibilidades são de 100%. Mas eu realmente não consigo entender do ponto de vista "geométrico". Se, por exemplo, em um PDF o eixo …

20 probability pdf integral

2

Escolhendo entre teste e teste

Antecedentes: estou fazendo uma apresentação para colegas de trabalho no teste de hipóteses e entendo muito bem, mas há um aspecto que estou me atrapalhando tentando entender e explicar aos outros. Isso é o que eu acho que sei (corrija se estiver errado!) Estatísticas que seriam normais se a variação …

20 hypothesis-testing normal-distribution t-test assumptions z-test

2

Especificando uma Diferença no Modelo de Diferenças com Vários Períodos

Quando eu estimo uma diferença no modelo de diferenças com dois períodos, o modelo de regressão equivalente seria uma. Yist=α+γs∗Treatment+λdt+δ∗(Treatment∗dt)+ϵistYist=α+γs∗Treatment+λdt+δ∗(Treatment∗dt)+ϵistY_{ist} = \alpha +\gamma_s*Treatment + \lambda d_t + \delta*(Treatment*d_t)+ \epsilon_{ist} onde é um manequim que é igual a 1 se a observação é a partir do grupo de tratamentoTreatmentTreatmentTreatment e é …

20 regression modeling econometrics panel-data difference-in-difference

2

O trem de interpolação funciona para glmnet com validação cruzada para alfa e lambda?

O caretpacote R é validado cruzadamente sobre alphae lambdapara o glmnetmodelo? Executando esse código, eGrid <- expand.grid(.alpha = (1:10) * 0.1, .lambda = (1:10) * 0.1) Control <- trainControl(method = "repeatedcv",repeats = 3,verboseIter =TRUE) netFit <- train(x =train_features, y = y_train, method = "glmnet", tuneGrid = eGrid, trControl = Control) …

20 r machine-learning cross-validation caret glmnet