Estatísticas e Big Data

Perguntas e respostas para pessoas interessadas em estatística, aprendizado de máquina, análise de dados, mineração de dados e visualização de dados

2
Extreme Value Theory - Programa: Normal para Gumbel
O máximo de X1,…,Xn.∼X1,…,Xn.∼X_1,\dots,X_n. \sim padrão Normal Normal converge para a Distribuição Gumbel Padrão de acordo com a Teoria dos Valores Extremos . Como podemos mostrar isso? Nós temos P(maxXi≤x)=P(X1≤x,…,Xn≤x)=P(X1≤x)⋯P(Xn≤x)=F(x)nP(maxXi≤x)=P(X1≤x,…,Xn≤x)=P(X1≤x)⋯P(Xn≤x)=F(x)nP(\max X_i \leq x) = P(X_1 \leq x, \dots, X_n \leq x) = P(X_1 \leq x) \cdots P(X_n \leq x) = …


4
Como projetar um novo vetor no espaço PCA?
Depois de executar a análise de componentes principais (PCA), quero projetar um novo vetor no espaço do PCA (ou seja, encontrar suas coordenadas no sistema de coordenadas do PCA). Eu calculei o PCA na linguagem R usando prcomp. Agora eu devo poder multiplicar meu vetor pela matriz de rotação PCA. …
21 r  pca  r  variance  heteroscedasticity  misspecification  distributions  time-series  data-visualization  modeling  histogram  kolmogorov-smirnov  negative-binomial  likelihood-ratio  econometrics  panel-data  categorical-data  scales  survey  distributions  pdf  histogram  correlation  algorithms  r  gpu  parallel-computing  approximation  mean  median  references  sample-size  normality-assumption  central-limit-theorem  rule-of-thumb  confidence-interval  estimation  mixed-model  psychometrics  random-effects-model  hypothesis-testing  sample-size  dataset  large-data  regression  standard-deviation  variance  approximation  hypothesis-testing  variance  central-limit-theorem  kernel-trick  kernel-smoothing  error  sampling  hypothesis-testing  normality-assumption  philosophical  confidence-interval  modeling  model-selection  experiment-design  hypothesis-testing  statistical-significance  power  asymptotics  information-retrieval  anova  multiple-comparisons  ancova  classification  clustering  factor-analysis  psychometrics  r  sampling  expectation-maximization  markov-process  r  data-visualization  correlation  regression  statistical-significance  degrees-of-freedom  experiment-design  r  regression  curve-fitting  change-point  loess  machine-learning  classification  self-study  monte-carlo  markov-process  references  mathematical-statistics  data-visualization  python  cart  boosting  regression  classification  robust  cart  survey  binomial  psychometrics  likert  psychology  asymptotics  multinomial 

2
Aviso "O modelo falhou ao convergir" no lmer ()
Com o seguinte conjunto de dados, eu queria ver se a resposta (efeito) muda em relação a sites, temporada, duração e suas interações. Alguns fóruns on-line sobre estatísticas sugeriram que eu continuasse com os Modelos de efeitos mistos lineares, mas o problema é que, como as réplicas são randomizadas em …

2
Qual é a intuição por trás da definição de integridade em uma estatística como sendo impossível formar um estimador imparcial de partir dela?
Nas estatísticas clássicas, existe uma definição de que uma estatística de um conjunto de dados é definida como concluída para um parâmetro , sendo impossível formar um estimador imparcial de partir dele sem trivialidade. Ou seja, a única maneira de ter para todos é ter ser quase certamente.TTTy1,…,yny1,…,yny_1, \ldots, y_nθθ\theta000Eh(T(y))=0Eh(T(y))=0E …

4
Alguém pode esclarecer o conceito de uma "soma de variáveis ​​aleatórias"
Na minha classe de probabilidade, os termos "somas de variáveis ​​aleatórias" são constantemente usados. No entanto, estou preso no que exatamente isso significa? Estamos falando da soma de várias realizações de uma variável aleatória? Se sim, isso não soma um único número? Como uma soma de realizações de variáveis ​​aleatórias …


7
RMSE x coeficiente de determinação
Estou avaliando um modelo físico e gostaria de saber qual dos métodos devo usar aqui (entre RMSE e Coeficiente de determinação R2) O problema é o seguinte: Eu tenho uma função que gera previsões para o valor de entrada x, . Eu também tenho a observação real desse valor que …
21 error 


1
Descartar uma das colunas ao usar a codificação hot-one
Meu entendimento é que no aprendizado de máquina pode ser um problema se o seu conjunto de dados tiver recursos altamente correlacionados, pois codificam efetivamente as mesmas informações. Recentemente, alguém apontou que, quando você codifica uma variável quente em uma variável categórica, você acaba com recursos correlatos; portanto, você deve …

4
Como criar uma matriz de covariância arbitrária
Por exemplo, em R, a MASS::mvrnorm()função é útil para gerar dados para demonstrar várias coisas nas estatísticas. É necessário um Sigmaargumento obrigatório, que é uma matriz simétrica que especifica a matriz de covariância das variáveis. Como eu criaria uma matriz n × simétrica n×nn×nn\times ncom entradas arbitrárias?

2
O PCA pode ser aplicado para dados de séries temporais?
Entendo que a Análise de Componentes Principais (PCA) pode ser aplicada basicamente para dados de seção transversal. O PCA pode ser usado para dados de séries temporais efetivamente, especificando o ano como variável de série temporal e executando o PCA normalmente? Descobri que o PCA dinâmico funciona para dados do …
21 time-series  pca 




Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.