Perguntas com a marcação «fisher-information»

A informação de Fisher mede a curvatura da probabilidade logarítmica e pode ser usada para avaliar a eficiência dos estimadores.


2
Pergunta básica sobre a matriz de informações de Fisher e a relação com erros Hessianos e padrão
Ok, essa é uma pergunta bastante básica, mas estou um pouco confusa. Na minha tese, escrevo: Os erros padrão podem ser encontrados calculando o inverso da raiz quadrada dos elementos diagonais da matriz (observada) de Fisher Information: -logLI(μ,σ2)=H-1sμ^,σ^2=1I(μ^,σ^2)−−−−−−√sμ^,σ^2=1I(μ^,σ^2)\begin{align*} s_{\hat{\mu},\hat{\sigma}^2}=\frac{1}{\sqrt{\mathbf{I}(\hat{\mu},\hat{\sigma}^2)}} \end{align*} Como o comando de otimização em R minimiza a matriz …

3
Que tipo de informação é Fisher?
Suponha que tenhamos uma variável aleatória . Se fosse o parâmetro true, a função de verossimilhança deveria ser maximizada e a derivada igual a zero. Esse é o princípio básico por trás do estimador de probabilidade máxima.X∼f(x|θ)X∼f(x|θ)X \sim f(x|\theta)θ0θ0\theta_0 Pelo que entendi, as informações de Fisher são definidas como I(θ)=E[(∂∂θf(X|θ))2]I(θ)=E[(∂∂θf(X|θ))2]I(\theta) …

3
Conexão entre a métrica de Fisher e a entropia relativa
Alguém pode provar a seguinte conexão entre a métrica de informações de Fisher e a entropia relativa (ou divergência de KL) de maneira rigorosa e puramente matemática? D(p(⋅,a+da)∥p(⋅,a))=12gi,jdaidaj+(O(∥da∥3)D(p(⋅,a+da)∥p(⋅,a))=12gi,jdaidaj+(O(‖da‖3)D( p(\cdot , a+da) \parallel p(\cdot,a) ) =\frac{1}{2} g_{i,j} \, da^i \, da^j + (O( \|da\|^3) onde a=(a1,…,an),da=(da1,…,dan)a=(a1,…,an),da=(da1,…,dan)a=(a^1,\dots, a^n), da=(da^1,\dots,da^n) , gi,j=∫∂i(logp(x;a))∂j(logp(x;a)) p(x;a) …


2
Por que a matriz de informações de Fisher é semidefinida positiva?
Seja θ∈Rnθ∈Rn\theta \in R^{n} . A Matriz de Informações de Fisher é definida como: I(θ)i,j=−E[∂2log(f(X|θ))∂θi∂θj∣∣∣θ]I(θ)i,j=−E[∂2log⁡(f(X|θ))∂θi∂θj|θ]I(\theta)_{i,j} = -E\left[\frac{\partial^{2} \log(f(X|\theta))}{\partial \theta_{i} \partial \theta_{j}}\bigg|\theta\right] Como posso provar que a Matriz de informações de Fisher é semidefinida positiva?


2
Por que exatamente as informações observadas de Fisher são usadas?
Na configuração padrão de máxima verossimilhança (amostra iid Y1,…,YnY1,…,YnY_{1}, \ldots, Y_{n} de alguma distribuição com densidade fy(y|θ0fy(y|θ0f_{y}(y|\theta_{0} )) e no caso de um modelo especificado corretamente, as informações de Fisher são fornecidas por I(θ)=−Eθ0[∂2θ2lnfy(θ)]I(θ)=−Eθ0[∂2θ2ln⁡fy(θ)]I(\theta) = -\mathbb{E}_{\theta_{0}}\left[\frac{\partial^{2}}{\theta^{2}}\ln f_{y}(\theta) \right] onde a expectativa é tomada em relação à densidade real que gerou …

2
A matriz de informações observadas é um estimador consistente da matriz de informações esperadas?
Estou tentando provar que a matriz de informações observada avaliada no estimador de verossimilhança máxima fraca consistentemente consistente (MLE) é um estimador fracamente consistente da matriz de informações esperada. Este é um resultado amplamente citado, mas ninguém fornece uma referência ou uma prova (acabei as 20 primeiras páginas de resultados …

1
Qual é a intuição por trás de amostras intercambiáveis ​​sob a hipótese nula?
Os testes de permutação (também chamados de teste de randomização, teste de re-randomização ou teste exato) são muito úteis e úteis quando a suposição de distribuição normal exigida por, por exemplo, t-testnão é atendida e quando a transformação dos valores pela classificação do teste não-paramétrico como Mann-Whitney-U-testlevaria a mais informações …
15 hypothesis-testing  permutation-test  exchangeability  r  statistical-significance  loess  data-visualization  normal-distribution  pdf  ggplot2  kernel-smoothing  probability  self-study  expected-value  normal-distribution  prior  correlation  time-series  regression  heteroscedasticity  estimation  estimators  fisher-information  data-visualization  repeated-measures  binary-data  panel-data  mathematical-statistics  coefficient-of-variation  normal-distribution  order-statistics  regression  machine-learning  one-class  probability  estimators  forecasting  prediction  validation  finance  measurement-error  variance  mean  spatial  monte-carlo  data-visualization  boxplot  sampling  uniform  chi-squared  goodness-of-fit  probability  mixture  theory  gaussian-mixture  regression  statistical-significance  p-value  bootstrap  regression  multicollinearity  correlation  r  poisson-distribution  survival  regression  categorical-data  ordinal-data  ordered-logit  regression  interaction  time-series  machine-learning  forecasting  cross-validation  binomial  multiple-comparisons  simulation  false-discovery-rate  r  clustering  frequency  wilcoxon-mann-whitney  wilcoxon-signed-rank  r  svm  t-test  missing-data  excel  r  numerical-integration  r  random-variable  lme4-nlme  mixed-model  weighted-regression  power-law  errors-in-variables  machine-learning  classification  entropy  information-theory  mutual-information 



2
Determinante da matriz de informações de Fisher para um modelo superparameterizado
Considere uma variável aleatória Bernoulli com o parâmetro (probabilidade de sucesso). A função de probabilidade e as informações de Fisher (uma matriz ) são:X∈{0,1}X∈{0,1}X\in\{0,1\}θθ\theta1×11×11 \times 1 L1(θ;X)I1(θ)=p(X|θ)=θX(1−θ)1−X=detI1(θ)=1θ(1−θ)L1(θ;X)=p(X|θ)=θX(1−θ)1−XI1(θ)=detI1(θ)=1θ(1−θ) \begin{align} \mathcal{L}_1(\theta;X) &= p(\left.X\right|\theta) = \theta^{X}(1-\theta)^{1-X} \\ \mathcal{I}_1(\theta) &= \det \mathcal{I}_1(\theta) = \frac{1}{\theta(1-\theta)} \end{align} Agora considere uma versão "com excesso de parâmetros" com …

1
Qual modelo de aprendizagem profunda pode classificar categorias que não são mutuamente exclusivas
Exemplos: Eu tenho uma frase na descrição do trabalho: "Java senior engineer in UK". Eu quero usar um modelo de aprendizado profundo para prever em duas categorias: English e IT jobs. Se eu usar o modelo de classificação tradicional, ele poderá prever apenas 1 rótulo com softmaxfunção na última camada. …
9 machine-learning  deep-learning  natural-language  tensorflow  sampling  distance  non-independent  application  regression  machine-learning  logistic  mixed-model  control-group  crossover  r  multivariate-analysis  ecology  procrustes-analysis  vegan  regression  hypothesis-testing  interpretation  chi-squared  bootstrap  r  bioinformatics  bayesian  exponential  beta-distribution  bernoulli-distribution  conjugate-prior  distributions  bayesian  prior  beta-distribution  covariance  naive-bayes  smoothing  laplace-smoothing  distributions  data-visualization  regression  probit  penalized  estimation  unbiased-estimator  fisher-information  unbalanced-classes  bayesian  model-selection  aic  multiple-regression  cross-validation  regression-coefficients  nonlinear-regression  standardization  naive-bayes  trend  machine-learning  clustering  unsupervised-learning  wilcoxon-mann-whitney  z-score  econometrics  generalized-moments  method-of-moments  machine-learning  conv-neural-network  image-processing  ocr  machine-learning  neural-networks  conv-neural-network  tensorflow  r  logistic  scoring-rules  probability  self-study  pdf  cdf  classification  svm  resampling  forecasting  rms  volatility-forecasting  diebold-mariano  neural-networks  prediction-interval  uncertainty 


Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.