Estatísticas e Big Data

Perguntas e respostas para pessoas interessadas em estatística, aprendizado de máquina, análise de dados, mineração de dados e visualização de dados




2
Diagnósticos para modelos lineares generalizados (mistos) (especificamente resíduos)
Atualmente, estou lutando para encontrar o modelo certo para dados de contagem difícil (variável dependente). Eu tentei vários modelos diferentes (modelos de efeitos mistos são necessários para o meu tipo de dados) como lmere lme4(com uma transformação de log), bem como modelos de efeitos mistos lineares generalizados com várias famílias, …

2
Estimador de polarização do momento da distribuição lognormal
Estou fazendo um experimento numérico que consiste em amostrar uma distribuição lognormal X∼LN(μ,σ)X∼LN(μ,σ)X\sim\mathcal{LN}(\mu, \sigma) e tentar estimar os momentos E[Xn]E[Xn]\mathbb{E}[X^n] por dois métodos: Olhando para a média amostral do XnXnX^n Estimando μμ\mu e σ2σ2\sigma^2 usando as médias da amostra para log(X),log2(X)log⁡(X),log2⁡(X)\log(X), \log^2(X) e depois usando o fato de que, para …

1
Aprendizado de streaming de última geração
Ultimamente, tenho trabalhado com grandes conjuntos de dados e encontrei muitos documentos sobre métodos de streaming. Para nomear alguns: Líder seguidor-regularizado e descida espelhada: teoremas de equivalência e regularização L1 ( http://jmlr.org/proceedings/papers/v15/mcmahan11b/mcmahan11b.pdf ) Aprendizado em fluxo contínuo: SVMs de uma passagem ( http://www.umiacs.umd.edu/~hal/docs/daume09onepass.pdf ) Pegasos: Primal estimado sub-GrAdient SOlver para …

0
Distribuição de Jaynes '
No livro de Jaynes "Teoria da Probabilidade: A Lógica da Ciência" , Jaynes tem um capítulo (Capítulo 18) intitulado "A distribuição e regra de sucessão", no qual ele introduz a idéia das distribuições , que esta passagem ajuda a ilustrar:A pUMApUMApA_pUMApUMApA_p [...] Para ver isso, imagine o efeito de obter …


5
Estimativa de máxima verossimilhança - por que é usada, apesar de ser tendenciosa em muitos casos
A estimativa de máxima verossimilhança geralmente resulta em estimadores enviesados ​​(por exemplo, sua estimativa para a variação da amostra é enviesada para a distribuição gaussiana). O que o torna tão popular? Por que exatamente é usado tanto? Além disso, o que em particular o torna melhor do que a abordagem …

4
Visualizando muitas variáveis ​​em um gráfico
Gostaria de mostrar como os valores de certas variáveis ​​(~ 15) mudam ao longo do tempo, mas também gostaria de mostrar como as variáveis ​​diferem umas das outras a cada ano. Então eu criei esse enredo: Mas mesmo ao alterar o esquema de cores ou adicionar diferentes tipos de linha …




5
Como os principais componentes principais podem reter o poder preditivo de uma variável dependente (ou até levar a melhores previsões)?
Suponha que eu estou correndo uma regressão . Por seleccionando top principais componentes do , é que o modelo de manter o seu poder preditivo em ?k X YY∼XY∼XY \sim XkkkXXXYYY Eu entendo que a partir de-redução de dimensionalidade / ponto de recurso de seleção de vista, se são os …

4
Quando evitar a Random Forest?
Sabe-se que as florestas aleatórias têm um desempenho razoavelmente bom em uma variedade de tarefas e são conhecidas como o homem de couro dos métodos de aprendizagem . Existem tipos de problemas ou condições específicas nas quais se deve evitar o uso de uma floresta aleatória?

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.