Estatísticas e Big Data kernel-smoothing

2

Existem vários usos distintos: estimativa da densidade do kernel truque do kernel suavização do kernel Por favor, explique o que o "núcleo" neles significa, em inglês simples, com suas próprias palavras.

73 kernel-trick kernel-smoothing

4

Bons métodos para gráficos de densidade de variáveis não negativas em R?

plot(density(rexp(100)) Obviamente, toda a densidade à esquerda de zero representa viés. Estou procurando resumir alguns dados para não estatísticos e quero evitar perguntas sobre por que os dados não negativos têm densidade à esquerda de zero. Os gráficos são para verificação aleatória; Quero mostrar as distribuições de variáveis por grupos …

36 r pdf gamma-distribution kernel-smoothing

2

Escolhendo uma largura de banda para estimadores de densidade de kernel

Para estimadores univariados de densidade de kernel (KDE), eu uso a regra de Silverman para calcular :hhh 0.9min(sd,IQR/1.34)×n−0.20.9min(sd,IQR/1.34)×n−0.2\begin{equation} 0.9 \min(sd, IQR/1.34)\times n^{-0.2} \end{equation} Quais são as regras padrão para o KDE multivariado (assumindo um kernel Normal).

29 smoothing kernel-smoothing

1

"Estimativa da densidade do kernel" é uma convolução do quê?

Estou tentando entender melhor a estimativa da densidade do kernel. Usando a definição da Wikipedia: https://en.wikipedia.org/wiki/Kernel_density_estimation#Definition fh^( x ) = 1n∑ni = 1Kh( x - xEu)= 1n h∑ni = 1K( x - xEuh)fh^(x)=1n∑i=1nKh(x−xi)=1nh∑i=1nK(x−xih) \hat{f_h}(x) = \frac{1}{n}\sum_{i=1}^n K_h (x - x_i) \quad = \frac{1}{nh} \sum_{i=1}^n K\Big(\frac{x-x_i}{h}\Big) Vamos considerar como uma função …

25 r kernel-smoothing convolution

2

Você pode explicar a estimativa de densidade da janela Parzen (kernel) em termos leigos?

A estimativa da densidade da janela de Parzen é descrita como p(x)=1n∑i=1n1h2ϕ(xi−xh)p(x)=1n∑i=1n1h2ϕ(xi−xh) p(x)=\frac{1}{n}\sum_{i=1}^{n} \frac{1}{h^2} \phi \left(\frac{x_i - x}{h} \right) onde é o número de elementos no vetor, x é um vetor, p ( x ) é uma densidade de probabilidade de x , h é a dimensão da janela de …

24 pdf kernel-smoothing intuition density-estimation

4

Como projetar um novo vetor no espaço PCA?

Depois de executar a análise de componentes principais (PCA), quero projetar um novo vetor no espaço do PCA (ou seja, encontrar suas coordenadas no sistema de coordenadas do PCA). Eu calculei o PCA na linguagem R usando prcomp. Agora eu devo poder multiplicar meu vetor pela matriz de rotação PCA. …

21 r pca r variance heteroscedasticity misspecification distributions time-series data-visualization modeling histogram kolmogorov-smirnov negative-binomial likelihood-ratio econometrics panel-data categorical-data scales survey distributions pdf histogram correlation algorithms r gpu parallel-computing approximation mean median references sample-size normality-assumption central-limit-theorem rule-of-thumb confidence-interval estimation mixed-model psychometrics random-effects-model hypothesis-testing sample-size dataset large-data regression standard-deviation variance approximation hypothesis-testing variance central-limit-theorem kernel-trick kernel-smoothing error sampling hypothesis-testing normality-assumption philosophical confidence-interval modeling model-selection experiment-design hypothesis-testing statistical-significance power asymptotics information-retrieval anova multiple-comparisons ancova classification clustering factor-analysis psychometrics r sampling expectation-maximization markov-process r data-visualization correlation regression statistical-significance degrees-of-freedom experiment-design r regression curve-fitting change-point loess machine-learning classification self-study monte-carlo markov-process references mathematical-statistics data-visualization python cart boosting regression classification robust cart survey binomial psychometrics likert psychology asymptotics multinomial

2

Se o kernel Epanechnikov é teoricamente ideal ao fazer a estimativa de densidade do kernel, por que não é mais comumente usado?

Eu li (por exemplo, aqui ) que o núcleo Epanechnikov é ideal, pelo menos em um sentido teórico, ao fazer uma estimativa da densidade do núcleo. Se isso for verdade, por que o Gaussiano aparece com tanta frequência quanto o kernel padrão ou, em muitos casos, o único kernel, nas …

17 nonparametric kernel-smoothing

2

Se larguras variáveis do kernel costumam ser boas para a regressão do kernel, por que geralmente não são boas para a estimativa da densidade do kernel?

Esta questão é motivada por discussões em outros lugares . Núcleos variáveis são frequentemente usados na regressão local. Por exemplo, o loess é amplamente usado e funciona bem como uma regressão mais suave, e é baseado em um kernel de largura variável que se adapta à escassez de dados. Por …

17 nonparametric smoothing kernel-smoothing loess

1

Qual é a intuição por trás de amostras intercambiáveis sob a hipótese nula?

Os testes de permutação (também chamados de teste de randomização, teste de re-randomização ou teste exato) são muito úteis e úteis quando a suposição de distribuição normal exigida por, por exemplo, t-testnão é atendida e quando a transformação dos valores pela classificação do teste não-paramétrico como Mann-Whitney-U-testlevaria a mais informações …

15 hypothesis-testing permutation-test exchangeability r statistical-significance loess data-visualization normal-distribution pdf ggplot2 kernel-smoothing probability self-study expected-value normal-distribution prior correlation time-series regression heteroscedasticity estimation estimators fisher-information data-visualization repeated-measures binary-data panel-data mathematical-statistics coefficient-of-variation normal-distribution order-statistics regression machine-learning one-class probability estimators forecasting prediction validation finance measurement-error variance mean spatial monte-carlo data-visualization boxplot sampling uniform chi-squared goodness-of-fit probability mixture theory gaussian-mixture regression statistical-significance p-value bootstrap regression multicollinearity correlation r poisson-distribution survival regression categorical-data ordinal-data ordered-logit regression interaction time-series machine-learning forecasting cross-validation binomial multiple-comparisons simulation false-discovery-rate r clustering frequency wilcoxon-mann-whitney wilcoxon-signed-rank r svm t-test missing-data excel r numerical-integration r random-variable lme4-nlme mixed-model weighted-regression power-law errors-in-variables machine-learning classification entropy information-theory mutual-information

2

Área sob o “pdf” na estimativa da densidade do kernel em R

Estou tentando usar a função ' densidade ' em R para fazer estimativas de densidade do kernel. Estou tendo alguma dificuldade em interpretar os resultados e comparar vários conjuntos de dados, pois parece que a área sob a curva não é necessariamente 1. Para qualquer função de densidade de probabilidade …

15 r estimation pdf kernel-smoothing auc

3

Como calcular a sobreposição entre densidades empíricas de probabilidade?

Estou procurando um método para calcular a área de sobreposição entre duas estimativas de densidade de kernel em R, como uma medida de similaridade entre duas amostras. Para esclarecer, no exemplo a seguir, eu precisaria quantificar a área da região sobreposta arroxeada: library(ggplot2) set.seed(1234) d <- data.frame(variable=c(rep("a", 50), rep("b", 30)), …

14 r probability pdf kernel-smoothing

1

Como extrair amostras aleatórias de uma distribuição estimada não paramétrica?

Eu tenho uma amostra de 100 pontos que são contínuos e unidimensionais. Estimei sua densidade não paramétrica usando métodos de kernel. Como posso tirar amostras aleatórias dessa distribuição estimada?

14 r sampling kernel-smoothing

1

Existe uma largura de banda ideal para um estimador de densidade de kernel de derivados?

Preciso estimar a função densidade com base em um conjunto de observações usando o estimador de densidade do kernel. Com base no mesmo conjunto de observações, também preciso estimar a primeira e a segunda derivada da densidade usando as derivadas do estimador de densidade do núcleo. A largura de banda …

14 r nonparametric pdf kernel-smoothing

1

Largura de banda do kernel: regras de Scott vs. Silverman

Alguém poderia explicar em inglês simples qual é a diferença entre as regras práticas de Scott e Silverman para a seleção de largura de banda? Especificamente, quando é um melhor que o outro? Está relacionado à distribuição subjacente? Número de amostras? PS Estou me referindo ao código no SciPy .

14 kernel-smoothing

1

Qual é a variação de longo prazo?

Como é definida a variação de longo prazo no domínio da análise de séries temporais? Eu entendo que é utilizado no caso de haver uma estrutura de correlação nos dados. Assim, o nosso processo estocástico não seria uma família de X1,X2…X1,X2…X_1, X_2 \dots iid variáveis aleatórias, mas sim apenas identicamente …

13 time-series variance references kernel-smoothing non-independent

Perguntas com a marcação «kernel-smoothing»