Estatísticas e Big Data

Perguntas e respostas para pessoas interessadas em estatística, aprendizado de máquina, análise de dados, mineração de dados e visualização de dados

14
Software para exploração de dados fácil, porém robusta
Nas minhas tentativas de combater o caos das planilhas, sou freqüentemente evangélico ao pressionar por ferramentas mais robustas, como o software de estatística verdadeira (R, Stata e similares). Recentemente, fui desafiado por essa visão por alguém que declarou claramente que simplesmente não aprenderá a programar. Eu gostaria de fornecer a …

4
Algoritmos de Metropolis-Hastings usados ​​na prática
Eu estava lendo o Blog de Christian Robert hoje e gostei bastante do novo algoritmo de Metropolis-Hastings que ele estava discutindo. Parecia simples e fácil de implementar. Sempre que codifico o MCMC, costumo seguir algoritmos MH muito básicos, como movimentos independentes ou passeios aleatórios na escala de log. Quais algoritmos …

6
Bom recurso para entender ANOVA e ANCOVA?
Estou realizando experimentos para um artigo e estou procurando um livro / site interessante para entender corretamente como ANOVA e ANCOVA funcionam. Eu tenho uma boa formação matemática, então não preciso necessariamente de uma explicação vulgarizada. Eu também gostaria de saber como determinar quando usar ANOVA em vez de ANCOVA.

3
Aplicando o "truque do kernel" a métodos lineares?
O truque do kernel é usado em vários modelos de aprendizado de máquina (por exemplo, SVM ). Foi introduzido pela primeira vez no artigo "Fundamentos teóricos do método da função potencial no aprendizado de reconhecimento de padrões" em 1964. A definição da Wikipedia diz que é um método para usar …

3
Como combinar intervalos de confiança para um componente de variação de um modelo de efeitos mistos ao usar imputação múltipla
A lógica da imputação múltipla (MI) é imputar os valores ausentes não uma vez, mas várias (normalmente M = 5) vezes, resultando em M conjuntos de dados concluídos. Os conjuntos de dados completos M são então analisados ​​com métodos de dados completos nos quais as estimativas M e seus erros …

4
Quais são os valores corretos para precisão e rechamada em casos extremos?
Precisão é definida como: p = true positives / (true positives + false positives) É verdade que, como true positivese false positivesabordagem 0, a precisão se aproxima de 1? Mesma pergunta para recall: r = true positives / (true positives + false negatives) No momento, estou implementando um teste estatístico …
20 precision-recall  data-visualization  logarithm  references  r  networks  data-visualization  standard-deviation  probability  binomial  negative-binomial  r  categorical-data  aggregation  plyr  survival  python  regression  r  t-test  bayesian  logistic  data-transformation  confidence-interval  t-test  interpretation  distributions  data-visualization  pca  genetics  r  finance  maximum  probability  standard-deviation  probability  r  information-theory  references  computational-statistics  computing  references  engineering-statistics  t-test  hypothesis-testing  independence  definition  r  censoring  negative-binomial  poisson-distribution  variance  mixed-model  correlation  intraclass-correlation  aggregation  interpretation  effect-size  hypothesis-testing  goodness-of-fit  normality-assumption  small-sample  distributions  regression  normality-assumption  t-test  anova  confidence-interval  z-statistic  finance  hypothesis-testing  mean  model-selection  information-geometry  bayesian  frequentist  terminology  type-i-and-ii-errors  cross-validation  smoothing  splines  data-transformation  normality-assumption  variance-stabilizing  r  spss  stata  python  correlation  logistic  logit  link-function  regression  predictor  pca  factor-analysis  r  bayesian  maximum-likelihood  mcmc  conditional-probability  statistical-significance  chi-squared  proportion  estimation  error  shrinkage  application  steins-phenomenon 

6
Meu meteorologista é preciso?
Uma pergunta que me incomodou por algum tempo, que não sei como resolver: Todos os dias, meu meteorologista oferece uma porcentagem de chance de chuva (vamos supor que seja calculado em 9000 dígitos e ele nunca repetiu um número). Todos os dias subsequentes, chove ou não chove. Tenho anos de …


4
O que é um limite inferior apertado no tempo do coletor de cupons?
No problema clássico do colecionador de cupons , é sabido que o tempo necessário para concluir um conjunto de cupons escolhidos aleatoriamente satisfaz , e .TTTnnnE[T]∼nlnnE[T]∼nln⁡nE[T] \sim n \ln n Var(T)∼n2Var(T)∼n2Var(T) \sim n^2Pr(T&gt;nlnn+cn)&lt;e−cPr(T&gt;nln⁡n+cn)&lt;e−c\Pr(T > n \ln n + cn) < e^{-c} Esse limite superior é melhor que o dado pela …



4
Um modelo é ajustado aos dados ou dados são ajustados a um modelo?
Existe uma diferença conceitual ou processual entre ajustar um modelo aos dados e ajustar os dados ao modelo? Um exemplo da primeira redação pode ser visto em https://courses.washington.edu/matlab1/ModelFitting.html , e da segunda em https://reference.wolfram.com/applications/eda/FittingDataToLinearModelsByLeast-SquaresTechniques.html .

2
Pensamento bayesiano sobre superajuste
Dediquei muito tempo ao desenvolvimento de métodos e softwares para validar modelos preditivos no domínio estatístico freqüentista tradicional. Ao colocar mais idéias bayesianas em prática e ensinar, vejo algumas diferenças importantes a serem adotadas. Primeiro, a modelagem preditiva bayesiana pede ao analista que pense muito sobre distribuições anteriores que podem …


5
Por que a engenharia de recursos funciona?
Recentemente, aprendi que uma das maneiras de encontrar melhores soluções para problemas de ML é através da criação de recursos. Pode-se fazer isso, por exemplo, somando dois recursos. Por exemplo, possuímos dois recursos "ataque" e "defesa" de algum tipo de herói. Em seguida, criamos um recurso adicional chamado "total", que …

Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.