Estatísticas e Big Data

Perguntas e respostas para pessoas interessadas em estatística, aprendizado de máquina, análise de dados, mineração de dados e visualização de dados


1
Cálculo da repetibilidade dos efeitos de um modelo mais antigo
Acabei de me deparar com este artigo , que descreve como calcular a repetibilidade (também conhecida como confiabilidade, também conhecida como correlação intraclasse) de uma medição via modelagem de efeitos mistos. O código R seria: #fit the model fit = lmer(dv~(1|unit),data=my_data) #obtain the variance estimates vc = VarCorr(fit) residual_var = …
28 mixed-model  reliability  intraclass-correlation  repeatability  spss  factor-analysis  survey  modeling  cross-validation  error  curve-fitting  mediation  correlation  clustering  sampling  machine-learning  probability  classification  metric  r  project-management  optimization  svm  python  dataset  quality-control  checking  clustering  distributions  anova  factor-analysis  exponential  poisson-distribution  generalized-linear-model  deviance  machine-learning  k-nearest-neighbour  r  hypothesis-testing  t-test  r  variance  levenes-test  bayesian  software  bayesian-network  regression  repeated-measures  least-squares  change-scores  variance  chi-squared  variance  nonlinear-regression  regression-coefficients  multiple-comparisons  p-value  r  statistical-significance  excel  sampling  sample  r  distributions  interpretation  goodness-of-fit  normality-assumption  probability  self-study  distributions  references  theory  time-series  clustering  econometrics  binomial  hypothesis-testing  variance  t-test  paired-comparisons  statistical-significance  ab-test  r  references  hypothesis-testing  t-test  normality-assumption  wilcoxon-mann-whitney  central-limit-theorem  t-test  data-visualization  interactive-visualization  goodness-of-fit 


6
Vídeos de estatística / probabilidade para iniciantes
Já havia uma solicitação de vídeos de estatística matemática , mas solicitava explicitamente às pessoas vídeos que fornecem uma apresentação matemática rigorosa das estatísticas. ou seja, vídeos que podem acompanhar um curso que usa um livro mencionado nesta discussão sobre ... Então, ao mesmo tempo, estou me perguntando, que recomendação …
28 references 

4
Uma adaptação da distância Kullback-Leibler?
Olhe para essa foto: Se extrairmos uma amostra da densidade vermelha, espera-se que alguns valores sejam menores que 0,25, ao passo que é impossível gerar essa amostra a partir da distribuição azul. Como conseqüência, a distância Kullback-Leibler da densidade vermelha à densidade azul é infinito. No entanto, as duas curvas …


26
Quais pacotes R você considera mais úteis no seu trabalho diário?
Encadeamento duplicado: Acabei de instalar a versão mais recente do R. Quais pacotes devo obter? Quais são os pacotes R que você não imaginava seu trabalho diário com dados? Por favor, liste as ferramentas gerais e específicas. ATUALIZAÇÃO: Quanto a 24.10.10 ggplot2parece ser o vencedor com 7 votos. Outros pacotes …
28 r 

6
Quais são as alternativas para eixos quebrados?
Os usuários geralmente são tentados a quebrar os valores dos eixos para apresentar dados de diferentes ordens de magnitude no mesmo gráfico (veja aqui ). Embora isso possa ser conveniente, nem sempre é a maneira preferida de exibir os dados (pode ser enganosa, na melhor das hipóteses). Quais são as …

2
Por que o erro quadrático médio é a entropia cruzada entre a distribuição empírica e um modelo gaussiano?
Em 5.5, Deep Learning (de Ian Goodfellow, Yoshua Bengio e Aaron Courville), afirma que Qualquer perda que consiste em uma probabilidade logarítmica negativa é uma entropia cruzada entre a distribuição empírica definida pelo conjunto de treinamento e a distribuição de probabilidade definida pelo modelo. Por exemplo, erro quadrático médio é …

4
Por que usar o colormap viridis sobre jato?
Conforme anunciado em https://www.youtube.com/watch?v=xAoljeRJ3lU , o Matplotlib altera o mapa de cores padrão de jet para viridis. No entanto, eu não entendo muito bem. Talvez porque eu sou daltônico? O jato original do colormap parece muito forte, posso sentir o contraste: Enquanto o novo mapa de cores viridis não tem …

5
Por que a variação da caminhada aleatória aumenta?
A caminhada aleatória definida como , em que é ruído branco. Indica que a posição atual é a soma da posição anterior + um termo imprevisível.Yt=Yt−1+etYt=Yt−1+etY_{t} = Y_{t-1} + e_tetete_t Você pode provar que a função média , poisμt=0μt=0\mu_t = 0 E(Yt)=E(e1+e2+...+et)=E(e1)+E(e2)+...+E(et)=0+0+...+0E(Yt)=E(e1+e2+...+et)=E(e1)+E(e2)+...+E(et)=0+0+...+0E(Y_{t}) = E(e_1+ e_2+ ... +e_t) = E(e_1) + …

1
Papéis belamente escritos
Do livro de David Salsburg A senhora que prova o chá : Embora o leitor possa não acreditar, o estilo literário desempenha um papel importante na pesquisa matemática. Alguns escritores matemáticos parecem incapazes de produzir artigos fáceis de entender. Outros parecem ter um prazer perverso ao gerar muitas linhas de …

6
Por que precisamos de regressão multivariada (em oposição a várias regressões univariadas)?
Acabei de ler este livro maravilhoso: Análise estatística multivariada aplicada por Johnson e Wichern . A ironia é que ainda não sou capaz de entender a motivação para o uso de modelos multivariados (regressão), em vez de modelos univariados separados (regressão). Passei pelas postagens stats.statexchange 1 e 2 que explicam …



Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.