Estatísticas e Big Data

5

Quão pequena deve ser adicionada uma quantidade a x para evitar tomar o logaritmo zero?

Analisei meus dados como eles são. Agora, quero examinar minhas análises depois de registrar o log de todas as variáveis. Muitas variáveis contêm muitos zeros. Portanto, adiciono uma pequena quantidade para evitar assumir o log de zero. Até agora, adicionei 10 ^ -10, sem nenhuma justificativa, apenas porque eu achava …

57 data-transformation chemometrics

17

Livro de receitas de aprendizado de máquina / cartão de referência / folha de dicas?

Acho recursos como o Livro de Receitas de Probabilidades e Estatísticas e o Cartão de Referência R para Mineração de Dados incrivelmente úteis. Obviamente, eles servem bem como referências, mas também me ajudam a organizar meus pensamentos sobre um assunto e obter a configuração da terra. P: Existe algum desses …

57 machine-learning references

8

Faz sentido tratar dados categóricos como contínuos?

Ao responder a essa pergunta sobre dados discretos e contínuos, afirmei com clareza que raramente faz sentido tratar os dados categóricos como contínuos. Em face disso, isso parece óbvio, mas a intuição costuma ser um péssimo guia para estatísticas, ou pelo menos a minha. Então agora eu estou me perguntando: …

57 categorical-data data-transformation ordinal-data continuous-data

2

Regressão de Bayes: como é feita em comparação com a regressão padrão?

Eu tenho algumas perguntas sobre a regressão bayesiana: Dada uma regressão padrão como . Se eu quiser mudar isso para uma regressão bayesiana, preciso de distribuições anteriores para e (ou não funciona dessa maneira)?y=β0+β1x+εy=β0+β1x+εy = \beta_0 + \beta_1 x + \varepsilonβ0β0\beta_0β1β1\beta_1 Na regressão padrão, tentaria-se minimizar os resíduos para obter …

57 regression bayesian

3

Quando as escalas de log são apropriadas?

Eu li que o uso de escalas de log quando gráficos / gráficos é apropriado em determinadas circunstâncias, como o eixo y em um gráfico de séries temporais. No entanto, não consegui encontrar uma explicação definitiva sobre por que esse é o caso, ou quando mais seria apropriado. Lembre-se de …

57 data-visualization data-transformation

3

As variáveis são frequentemente ajustadas (por exemplo, padronizadas) antes de criar um modelo - quando é uma boa ideia e quando é ruim?

Em que circunstâncias você deseja ou não deseja dimensionar ou padronizar uma variável antes do ajuste do modelo? E quais são as vantagens / desvantagens de escalar uma variável?

57 modeling predictive-models feature-selection theory standardization

3

Por que o desvio padrão da amostra é um estimador enviesado de

De acordo com o artigo da Wikipedia sobre estimativa imparcial do desvio padrão, a amostra DP s=1n−1∑i=1n(xi−x¯¯¯)2−−−−−−−−−−−−−−−√s=1 1n-1 1∑Eu=1 1n(xEu-x¯)2s = \sqrt{\frac{1}{n-1} \sum_{i=1}^n (x_i - \overline{x})^2} é um estimador tendencioso do DP da população. Ele afirma que E(s2−−√)≠E(s2)−−−−−√E(s2)≠E(s2)E(\sqrt{s^2}) \neq \sqrt{E(s^2)} . NB Variáveis aleatórias são independentes e cada xi∼N(μ,σ2)xi∼N(μ,σ2)x_{i} \sim …

57 estimation standard-deviation

9

É errado reformular "1 em 80 mortes é causada por um acidente de carro", pois "1 em cada 80 pessoas morrem como resultado de um acidente de carro?"

Declaração 1 (S1): "Uma em cada 80 mortes é causada por um acidente de carro". Declaração Dois (S2): "Uma em cada 80 pessoas morre como resultado de um acidente de carro". Agora, pessoalmente, não vejo muita diferença entre essas duas afirmações. Ao escrever, eu os consideraria intercambiáveis para um público …

56 interpretation risk

7

Desafios da indústria versus Kaggle. A coleta de mais observações e o acesso a mais variáveis são mais importantes que a modelagem extravagante?

Eu espero que o título seja auto-explicativo. No Kaggle, a maioria dos vencedores usa o empilhamento com algumas vezes centenas de modelos de base, para extrair alguns% extra de MSE, precisão ... Em geral, na sua experiência, o quão importante é a modelagem sofisticada, como empilhar versus simplesmente coletar mais …

56 large-data stacking collecting-data kaggle

4

Quais são as diferenças entre PCA e autoencoder?

O PCA e o autoencoder podem reduzir a demension, então, qual é a diferença entre eles? Em que situação devo usar um sobre o outro?

56 machine-learning pca neural-networks autoencoders

6

A regularização de L2 é equivalente a Gaussian Prior

Eu continuo lendo isso e intuitivamente eu posso ver isso, mas como se passa da regularização L2 para dizer que este é um prior gaussiano analiticamente? O mesmo vale para dizer que L1 é equivalente a um anterior do Laplacean. Quaisquer outras referências seriam ótimas.

56 regression references regularization

1

A regressão logística em R resultou em separação perfeita (fenômeno de Hauck-Donner). O que agora?

Estou tentando prever um resultado binário usando 50 variáveis explicativas contínuas (o intervalo da maioria das variáveis é a ). Meu conjunto de dados tem quase 24.000 linhas. Quando corro no R, recebo:−∞−∞-\infty∞∞\inftyglm Warning messages: 1: glm.fit: algorithm did not converge 2: glm.fit: fitted probabilities numerically 0 or 1 occurred …

56 r regression logistic separation

4

Todos os valores dentro de um intervalo de confiança de 95% são igualmente prováveis?

Encontrei informações discordantes sobre a questão: " Se alguém constrói um intervalo de confiança de 95% (IC) de uma diferença de médias ou proporções, todos os valores dentro do IC são igualmente prováveis? Ou é a estimativa pontual a mais provável?" , com valores próximos às "caudas" do IC menos …

56 confidence-interval

8

Bibliotecas R para aprendizado profundo

Eu queria saber se existem boas bibliotecas R por aí para redes neurais de aprendizado profundo? Eu sei que existe o nnet,, neuralnete RSNNS, mas nenhum deles parece implementar métodos de aprendizado profundo. Estou especialmente interessado em não supervisionado, seguido de aprendizado supervisionado e no uso da evasão para impedir …

56 r neural-networks deep-learning rbm deep-belief-networks

9

Como obter o valor p (verificar a significância) de um efeito em um modelo misto lme4?

Eu uso lme4 em R para ajustar o modelo misto lmer(value~status+(1|experiment))) onde o valor é contínuo, status e experimento são fatores, e eu entendo Linear mixed model fit by REML Formula: value ~ status + (1 | experiment) AIC BIC logLik deviance REMLdev 29.1 46.98 -9.548 5.911 19.1 Random effects: …

56 r hypothesis-testing mixed-model p-value lme4-nlme