Estatísticas e Big Data self-study

1

Derivando o algoritmo K-means como um limite de Maximização de Expectativas para Misturas Gaussianas

Christopher Bishop define o valor esperado da função de probabilidade do log de dados completos (ou seja, assumindo que recebemos os dados observáveis X e os dados latentes Z) da seguinte maneira: EZ[lnp(X,Z∣μ,Σ,π)]=∑n=1N∑k=1Kγ(znk){lnπk+lnN(xn∣ μk,Σk)}(1)(1)EZ[ln⁡p(X,Z∣μ,Σ,π)]=∑n=1N∑k=1Kγ(znk){ln⁡πk+ln⁡N(xn∣ μk,Σk)} \mathbb{E}_\textbf{Z}[\ln p(\textbf{X},\textbf{Z} \mid \boldsymbol{\mu}, \boldsymbol{\Sigma}, \boldsymbol{\pi})] = \sum_{n=1}^N \sum_{k=1}^K \gamma(z_{nk})\{\ln \pi_k + \ln \mathcal{N}(\textbf{x}_n \mid …

8 self-study maximum-likelihood expected-value convergence expectation-maximization

1

K-means como um caso limite do algoritmo EM para misturas de Gauss com covariâncias indo para

Meu objetivo é ver que o algoritmo K-means é de fato o algoritmo de Expectativa-Maximização para misturas Gaussianas, em que todos os componentes têm covariância no limite como .σ2Iσ2I\sigma^2 Ilimσ→0limσ→0\lim_{\sigma \to 0} Suponha que temos um conjunto de dados {x1,…,xN}{x1,…,xN}\{x_1, \dots ,x_N\} de observações de variável aleatória XXX . A …

8 self-study k-means expectation-maximization gaussian-mixture

1

Bons papéis com análise reproduzível que requerem apenas o básico

Estou procurando artigos ou outros exemplos de pesquisa em que a análise estatística feita esteja ao alcance de alguém que tenha feito um curso introdutório de estatísticas. Idealmente, os conjuntos de dados também estariam disponíveis online. A idéia é passá-los aos alunos e exemplos que eles possam seguir e reproduzir.

8 self-study references

1

Prova de desigualdade de Cantelli

Estou tentando provar a seguinte desigualdade: EDIT: Quase imediatamente depois que postei essa pergunta, descobri que a desigualdade que estou sendo solicitada a provar se chama desigualdade de Cantelli. Quando escrevi isso, não percebi que essa desigualdade em particular tinha um nome. Encontrei várias provas no Google, então, estritamente, não …

8 self-study mathematical-statistics probability-inequalities indicator-function

1

onde e é log distribuído normalmente

Eu estou tentando calcular a expectativa para arbitrário (para a expectativa é infinita) se for normalmente distribuído, ou seja, .c < 0 c > 0 X log ( X ) ∼ N ( μ , σ )E[ ec X]E[ecX]E[e^{cX}]c < 0c<0c<0c > 0c>0c>0XXXregistro( X) ∼ N( μ , σ)log⁡(X)∼N(μ,σ)\log(X) \sim …

8 self-study distributions expected-value lognormal moments

1

Como encontrar uma densidade a partir de uma função característica?

Uma distribuição tem a função característica ϕ ( t ) = ( 1 - t2/ 2)exp( - t2/ 4),-∞<t<∞ ϕ(t)=(1−t2/2)exp⁡(−t2/4), −∞<t<∞\phi(t) = (1-t^2/2)\exp(-t^2/4),\ -\infty \lt t \lt \infty Mostre que a distribuição é absolutamente contínua e escreva a função de densidade da distribuição. Tentativa: ∫∞- ∞| (1- t2/ 2)exp( - …

8 probability distributions self-study characteristic-function

2

Por que um modelo estatístico superajustaria se recebesse um grande conjunto de dados?

Meu projeto atual pode exigir que eu construa um modelo para prever o comportamento de um determinado grupo de pessoas. o conjunto de dados de treinamento contém apenas 6 variáveis (id é apenas para fins de identificação): id, age, income, gender, job category, monthly spend em que monthly spendé a …

8 modeling large-data overfitting clustering algorithms error spatial r regression predictive-models linear-model average measurement-error weighted-mean error-propagation python standard-error weighted-regression hypothesis-testing time-series machine-learning self-study arima regression correlation anova statistical-significance excel r regression distributions statistical-significance contingency-tables regression optimization measurement-error loss-functions image-processing java panel-data probability conditional-probability r lme4-nlme model-comparison time-series probability probability conditional-probability logistic multiple-regression model-selection r regression model-based-clustering svm feature-selection feature-construction time-series forecasting stationarity r distributions bootstrap r distributions estimation maximum-likelihood garch references probability conditional-probability regression logistic regression-coefficients model-comparison confidence-interval r regression r generalized-linear-model outliers robust regression classification categorical-data r association-rules machine-learning distributions posterior likelihood r hypothesis-testing normality-assumption missing-data convergence expectation-maximization regression self-study categorical-data regression simulation regression self-study self-study gamma-distribution modeling microarray synthetic-data

2

Valor esperado da estimativa do parâmetro de moeda com probabilidade máxima

Suponha que eu tenha um experimento de sorteio no qual desejo calcular a estimativa de probabilidade máxima do parâmetro de moeda ppp ao lançar a moeda nnn vezes. Depois de calcular a derivada da função de probabilidade binomial L ( p ) = ( nx) px( 1 - p )n …

8 probability self-study variance maximum-likelihood expected-value

3

Passeio aleatório: reis em um tabuleiro de xadrez

Eu tenho uma pergunta sobre a caminhada aleatória de dois reis em um tabuleiro de xadrez 3 × 3. Cada rei está se movendo aleatoriamente com igual probabilidade neste tabuleiro de xadrez - vertical, horizontal e diagonal. Os dois reis estão se movendo independentemente um do outro no mesmo tabuleiro …

8 self-study markov-chain random-walk

2

Razão de verossimilhança para distribuição exponencial de duas amostras

Sejam e duas variáveis aleatórias independentes com os respectivos PDFs:XXXYYY f(x;θi)={1θie−x/θi0<x<∞,0<θi<∞0elsewheref(x;θi)={1θie−x/θi0<x<∞,0<θi<∞0elsewheref \left(x;\theta_i \right) =\begin{cases} \frac{1}{\theta_i} e^{-x/ {\theta_i}} \quad 0<x<\infty, 0<\theta_i< \infty \\ 0 \quad \text{elsewhere} \end{cases} para . Duas amostras independentes são coletadas para testar contra dos tamanhos e dessas distribuições. Eu preciso mostrar que o LRT pode ser escrito …

8 distributions self-study likelihood-ratio

1

Como posso gerar pontos uniformemente distribuídos em um círculo?

Eu estou olhando para gerar 450 pontos de dados em R. Existem três conjuntos distintos 150 de cada um distribuídos em uma banda circular com raios diferentes (em 1, 2,8 e 5). Em particular, pretendo reproduzir o primeiro gráfico da p546 de Os elementos do aprendizado estatístico. Ficaria muito grato …

8 r self-study random-generation

2

Quando n aumenta, o valor t aumenta em um teste de hipótese, mas a tabela t é exatamente o oposto. Por quê?

A fórmula para em um teste de hipótese é dada por: t = ˉ X - μtttt = X¯- μσ^/ n--√.t=X¯−μσ^/n. t=\frac{\bar{X}-\mu}{\hat \sigma/\sqrt{n}}. Quando aumenta, o valor aumenta de acordo com a fórmula acima. Mas por que o valor crítico diminui na tabela medida que (que é uma função de …

8 hypothesis-testing self-study statistical-significance t-test t-distribution

2

Aproximando as quantidades relativas de moedas no Canadá

Seria possível aproximar com precisão as quantidades relativas de Loonies , Twoonies , moedas, moedas de dez centavos, nickles (e talvez o centavo descontinuado) em circulação, simplesmente obtendo uma amostra suficientemente grande de moedas pelo uso diário? No uso diário, refiro-me às moedas que você troca novamente quando faz uma …

8 self-study application

2

Verificando se uma densidade é uma família exponencial

Tentando provar que isso não pertence à família exponencial. f(y|a)=4(y+a)(1+4a);0<y<1,a>0f(y|a)=4(y+a)(1+4a);0<y<1,a>0f(y|a)=4\frac{(y+a)}{(1+4a)} ; 0 < y < 1 , a>0 Aqui está a minha abordagem: f(y|a)=4(y+a)e−log(1+4a)f(y|a)=4(y+a)e−log(1+4a)f(y|a) = 4(y+a)e^{-log(1+4a)} f(y|a)=(4y)(1+ay)e−log(1+4a)f(y|a)=(4y)(1+ay)e−log(1+4a)f(y|a) = (4y)(1+\frac{a}{y})e^{-log(1+4a)} Comparando isto com a forma padrão, e , que tem de ser uma função de apenas , não pode ser definida …

8 self-study pdf exponential-family

1

Como o beta anterior afeta o posterior sob uma probabilidade binomial

Eu tenho duas perguntas, Pergunta 1: Como posso mostrar que a distribuição posterior é uma distribuição beta se a probabilidade é binomial e a anterior é beta Pergunta 2: Como as escolhas dos parâmetros anteriores afetam a posterior? Eles não deveriam ser todos iguais? É possível responder a essas perguntas …

8 r self-study bayesian prior posterior

Perguntas com a marcação «self-study»