Alternativa de distribuição empírica


12

RECOMPENSA:

A recompensa total será concedido a alguém que fornece uma referência a qualquer documento publicado que os usos ou menciona o estimador F~ abaixo.

Motivação:

Esta seção provavelmente não é importante para você e eu suspeito que não ajudará você a receber a recompensa, mas como alguém perguntou sobre a motivação, aqui está o que estou trabalhando.

Estou trabalhando em um problema de teoria estatística de grafos. O objeto limitador de gráfico denso padrão W:[0,1]2[0,1] é uma função simétrica no sentido de que W(u,v)=W(v,u) . A amostragem de um gráfico em n vértices pode ser considerada como amostragem de n valores uniformes no intervalo de unidades ( Ui para i=1,,n) e, em seguida, a probabilidade de uma aresta (i,j) é W(Ui,Uj) . Deixe a matriz de adjacência resultando ser chamado A .

Wf=W/W supondo queW>0 . Se estimarmosf base emA sem quaisquer restrições paraf , não podemos obter uma estimativa consistente. Encontrei um resultado interessante sobre a estimativa consistente def quandof vem de um conjunto restrito de funções possíveis. A partir deste estimador eA , podemos estimarW .

Infelizmente, o método que encontrei mostra consistência quando coletamos amostras da distribuição com densidade f . A maneira como A é construído exige que eu colete uma grade de pontos (em vez de tirar desenhos do original f). Nesta pergunta stats.SE, estou solicitando o problema unidimensional (mais simples) do que acontece quando podemos apenas amostrar Bernoullis em uma grade como essa, em vez de realmente amostrar diretamente da distribuição.

referências para limites de gráficos:

L. Lovasz e B. Szegedy. Limites de sequências gráficas densas ( arxiv ).

C. Borgs, J. Chayes, L. Lovasz, V. Sos e K. Vesztergombi. Sequências convergentes de gráficos densos i: Frequências de subgráficos, propriedades métricas e testes. ( arxiv ).

Notação:

Considere uma distribuição contínua com cdf F e pdf f que tenha um suporte positivo no intervalo [0,1] . Suponha que f não tenha massa de pontos, F seja diferenciável em todos os lugares e também que supz[0,1]f(z)=c< é o supremo de f no intervalo [0,1] . Seja XF significa que a variável aleatóriaX é amostrado a partir da distribuiçãoF . Ui são suas variáveis ​​aleatórias uniformes em[0,1] .

Problema configurado:

Muitas vezes, podemos deixar X1,,Xn variáveis aleatórias com distribuição F e trabalhar com o habitual função de distribuição empírica como F n ( t ) = 1 ondeIé a função do indicador. Note-se que esta distribuição empírica F n(t)é, em si aleatória (em queté fixo).

F^n(t)=1ni=1nI{Xit}
IF^n(t)t

Infelizmente, eu não sou capaz de tirar amostras diretamente do . No entanto, eu sei que f tem suporte positivo apenas em [ 0 , 1 ] , e posso gerar variáveis ​​aleatórias Y 1 , , Y n onde Y i é uma variável aleatória com uma distribuição de Bernoulli com probabilidade de sucesso p i = f ( ( i - 1 + U i ) / n ) / c onde c eFf[0,1]Y1,,YnYi

pi=f((i1+Ui)/n)/c
c são definidos acima. Assim, Y i ~ Berna ( P i ) . Uma maneira óbvia de estimar F a partir dessesvalores Y i é tomando ˜ F n ( t ) = 1UiYiBern(pi)FYi ondeé a função de tecto (isto é, apenas para cima e volta para o inteiro mais próximo), e redesenhar seΣ n i = 1 Yi=0(para evitar dividir por zero e fazer o universo desmoronar). Note-se que ~ F (t)é também uma variável aleatória uma vez que oYisão variáveis aleatórias.
F~n(t)=1i=1nYii=1tnYi
i=1nYi=0F~(t)Yi

Questões:

Do (o que eu acho que deveria ser), do mais fácil ao mais difícil.

  1. Alguém sabe se este (ou algo similar) tem um nome? Você pode fornecer uma referência onde eu possa ver algumas de suas propriedades?F~n

  2. Como , ˜ F n ( t ) é um estimador consistente de F ( t ) (e você pode provar isso)?nF~n(t)F(t)

  3. Qual é a distribuição limitadora de como n ?F~n(t)n

  4. Idealmente, eu gostaria de vincular o seguinte como uma função de - por exemplo, O P ( log ( n ) / n, mas não sei qual é a verdade. OOPsignificaBig S em probabilidadeOP(log(n)/n)OP

supC[0,1]C|F~n(t)F(t)|dt

Algumas idéias e notas:

  1. Isso se parece muito com a amostragem de rejeição de aceitação com uma estratificação baseada em grade. Observe que não é assim, porque não extraímos outra amostra se rejeitarmos a proposta.

  2. Eu tenho certeza que isso é tendenciosa. Eu acho que a alternativa ~ F n ( t ) = cF~n é imparcial, mas tem a propriedade desagradável queP( ~ F * (1)=1)<1.

    F~n(t)=cni=1tnYi
    P(F~(1)=1)<1
  3. Eu estou interessado em usar como um plug-in estimador . Não acho que seja uma informação útil, mas talvez você saiba de alguma razão para isso.F~n

Exemplo em R

Aqui está um código R se você deseja comparar a distribuição empírica com . Desculpe, alguns dos recuos estão errados ... Não vejo como consertar isso.F~n

# sample from a beta distribution with parameters a and b
a <- 4 # make this > 1 to get the mode right
b <- 1.1 # make this > 1 to get the mode right
qD <- function(x){qbeta(x, a, b)} # inverse
dD <- function(x){dbeta(x, a, b)} # density
pD <- function(x){pbeta(x, a, b)} # cdf
mD <- dbeta((a-1)/(a+b-2), a, b) # maximum value sup_z f(z)


# draw samples for the empirical distribution and \tilde{F}
draw <- function(n){ # n is the number of observations
  u <- sort(runif(n)) 
  x <- qD(u) # samples for empirical dist
  z <- 0 # keep track of how many y_i == 1
  # take bernoulli samples at the points s
  s <- seq(0,1-1/n,length=n) + runif(n,0,1/n) 
  p <- dD(s) # density at s
  while(z == 0){ # make sure we get at least one y_i == 1
    y <- rbinom(rep(1,n), 1, p/mD) # y_i that we sampled
    z <- sum(y)
  }
  result <- list(x=x, y=y, z=z)
  return(result)
}

sim <- function(simdat, n, w){
  # F hat -- empirical dist at w
  fh <- mean(simdat$x < w) 
  # F tilde
  ft <- sum(simdat$y[1:ceiling(n*w)])/simdat$z
  # Uncomment this if we want an unbiased estimate.
  # This can take on values > 1 which is undesirable for a cdf.
  ### ft <- sum(simdat$y[1:ceiling(n*w)]) * (mD / n)
  return(c(fh, ft))
}


set.seed(1) # for reproducibility

n <- 50 # number observations
w <- 0.5555 # some value to test this at (called t above)
reps <- 1000 # look at this many values of Fhat(w) and Ftilde(w)
# simulate this data
samps <- replicate(reps, sim(draw(n), n, w))

# compare the true value to the empirical means
pD(w) # the truth 
apply(samps, 1, mean) # sample mean of (Fhat(w), Ftilde(w))
apply(samps, 1, var)  # sample variance of (Fhat(w), Ftilde(w))
apply((samps - pD(w))^2, 1, mean) # variance around truth


# now lets look at what a single realization might look like
dat <- draw(n)
plot(NA, xlim=0:1, ylim=0:1, xlab="t", ylab="empirical cdf",
     main="comparing ECDF (red), Ftilde (blue), true CDF (black)")
s <- seq(0,1,length=1000)
lines(s, pD(s), lwd=3) # truth in black
abline(h=0:1)
lines(c(0,rep(dat$x,each=2),Inf),
     rep(seq(0,1,length=n+1),each=2),
     col="red")
lines(c(0,rep(which(dat$y==1)/n, each=2),1),
      rep(seq(0,1,length=dat$z+1),each=2),
      col="blue")

saída a partir dos dados acima

EDITAR% S:

EDIT 1 -

Eu editei isso para abordar os comentários do @ whuber.

EDIT 2 -

Eu adicionei o código R e o limpei um pouco mais. Alterei ligeiramente a notação para facilitar a leitura, mas é essencialmente a mesma. Estou planejando dar uma recompensa a isso assim que me for permitido, por isso, entre em contato se desejar mais esclarecimentos.

EDIT 3 -

Acho que me dirigi às observações do @ cardeal. Corrigi os erros de digitação na variação total. Estou adicionando uma recompensa.

EDIT 4 -

Adicionada uma seção de "motivação" para o @cardinal.


1
Sua pergunta começou a se tornar ambígua no momento em que você se referiu a objetos indefinidos e a usar alguma notação idiossincrática. Por exemplo, aparece logo no início, mas não tem conexão aparente com F e é apenas lendo muito mais adiante que descobrimos que você está pensando nela como "não uma distribuição discreta" - mas que tipo de objeto é esse? Fundamentalmente, o que " sup z f ( z ) significa?" Sup "geralmente significa supremo, mas talvez tenha algo a ver com o suporte essencial de uma distribuição? Porque tudo na pergunta depende do que esses significam, não consigo entender a perguntafFsupzf(z)sup
whuber

1
Obrigado @whuber pelos seus comentários. Informe-me se a pergunta revisada ainda é confusa.
user1448319

1
nn{i/n}fFF

2
piYi,ni=1,,npif(U)/cU is a uniform random variable. Is that true? (A little more context to your question would likely resolve a lot of these queries.) Cheers.
cardinal

2
This question has been improved so much I didn't even recognize it until I realized I'd seen the comments before. It's now a really interesting and much more well-written question.
Glen_b -Reinstate Monica

Respostas:


1

Embora esta referência

EDIÇÃO: REFERÊNCIA ADICIONADA A ESTATÍSTICA MUITO SIMILAR "Estimativa não paramétrica de observações incompletas" EL Kaplan e Paul Meier, Jornal da Associação Estatística Americana, vol. 53, n. 282 (junho de 1958), pp. 457-481

não é do seu estimador do tipo ECDF em [0 0,1] Eu acredito que é logicamente equivalente ao estimador de Kaplan-Meier (também conhecido como estimador de limite de produto) usado na Análise de Sobrevivência, mesmo que aplicado a um intervalo de tempo [0 0,).

A estimativa do viés seria possível quando você tiver uma estimativa razoável da distribuição via suavização do kernel, se ela se comportar bem o suficiente (consulte, por exemplo, a transformação de Khmaladze na Wikipedia).

No caso bivariado do gráfico, estimar o problema f=W/W a partir de UMAembora com uma restrição trivial de simetria parece semelhante à abordagem de Jean-David Fermanian, Dragan Radulovic e Marten Wegkamp (2004), Fraca convergência de processos de cópula empírica , Bernoulli , vol. 10, n. 5, 847-860, como @cardinal indicou "Método Delta Multivariado".


Welcome to the site, James. I look forward to seeing more of your contributions.
cardinal

0

Isso responde às perguntas 2 e 3 acima. Ainda quero mesmo uma referência (da pergunta 1).

Isso ainda não leva em consideração quando YEu=0 0.

Considerar g(UMA,B)=UMA/(UMA+B), então

gA(A,B)=(A+B)1+A(A+B)2gB(A,B)=A(A+B)2gAA(A,B)=2B(A+B)3gAB(A,B)=(AB)(A+B)3gBB(B,B)=2A(A+B)3
where the subscripts denote the derivatives. Recall pi=f((i1+Ui)/n)/c. Let
R=1ni=1ntYi,μR=E(R)=0tp(u)du=c1F(t)S=1nnt+1nYi,μS=E(S)=t1p(u)du=c1(1F(t))
So note that μR+μS=c1F(t)+c1(1F(t))=c1 and g(μR,μS)=F(t). Also,
 Var(R)=1n2Eu=1nt Var(YEu)=1n0 0tf(você)/c(1-f(você)/c)dvocê=1nc20 0tf(você)(c-f(você))dvocê Var(S)=1nc2t1f(você)(c-f(você))dvocê
Observe que  Cov(R,S)=0 0 pela independência do YEus.

Agora, usamos uma expansão de taylor para obter

E(F~n(t))=E(1i=1nYii=1tnYi)=E(nRnR+nS)=E(RR+S)=E(g(R,S))=g(μR,μS)+12E((RμR)2)gRR(μR,μS)+E((RμR)(SμS))gRS(μR,μS)+12E((SμS)2)gSS(μR,μS)+=F(t)+12E((RμR)2)2μS(μR+μS)3+E((RμR)(SμS))(μRμS)(μR+μS)3+12E((SμS)2)2μR(μR+μS)3+=F(t)+(μR+μS)3(E((RμR)2)μS+E((RμR)(SμS))(μRμS)+E((SμS)2)μR)+=F(t)+c3( Var(R)c(1F(t))+ Cov(R,S)(cF(t)c(1F(t)))+ Var(S)cF(t))+=F(t)+c4((1n0tf(u)(cf(u))du)(1F(t))+(1nt1f(u)(cf(u))du)F(t))+=F(t)+V~F(t)/n+=F(t)+O(n1)
where
V~F(t)=c2(0tf(u)(cf(u))du)(1F(t))+c2(t1f(u)(cf(u))du)F(t)<c2(0tcf(u)du)(1F(t))+c2(t1cf(u)du)F(t)<c32F(t)(1F(t))
In particular, we get
n(F~n(t)-F(t))dN(0 0,VF(t))

Por favor, comente se você vê algo errado com isso.

EDITAR% S:

Editar 1 -

Corrigido um erro de digitação em VF(t). Obrigado @ cardinal pela sua sugestão nos comentários sobre a pergunta 4.

Editar 2 -

Corrigido muitos erros de digitação: eu tinha c-1 onde eu deveria ter cem muitos lugares. Ainda preciso responder à resposta do @ cardeal sobreYEu=0 0.


1
Caro @ usuário: Este está no caminho certo; Aqui estão algumas sugestões. ( 1 ) A média deF~n(t) não existe, pelo menos até que você especifique o que acontece quando EuYEu=0 0, portanto, estritamente falando, a análise na resposta não está correta. Definir um comportamento em zero interromperá a estrutura de independência, mas nem tudo está perdido. ( 2 ) Essencialmente, o que você está fazendo é aplicar o método delta multivariado. Observe que isso não requer a existência da média deF~n(t), será mais limpo (e mais correto) se você seguir esse caminho.
cardeal

2
( 3 ) O item 4 da sua lista é tratado da seguinte forma. Observe que
supC[0 0,1]C|F~-F|sup[0 0,1]|F~-F~|+0 01|F~-EF~|+O(n-1).
O primeiro termo no lado direito, {EuYEu>0 0}, é |1-cn-1EuYEu|, é claramente Op(n-1/2). Você é deixado apenas para lidar com o médio prazo, mas isso sucumbe prontamente à desigualdade de Markov seguida pela de Jensen e também éOp(n-1/2).
cardeal

Caro @ usuário: Seria útil ver um pouco mais de elaboração de sua observação a respeito de não precisar considerar o caso EuYEu=0 0. O que você está descrevendo é amostragem condicional. oYEu condicional em {EuYEu>0 0}não são independentes (ou condicionalmente independentes); portanto, a análise (implícita) na resposta não se aplica. Pode ser útil olhar para on=2 caso para ver isso (basta desenhar o 2×2 mesa).
cardeal

Como um adicional à parte, pode ser interessante notar que supCC|F~-F|=0 01|F~-F|, portanto, essa definição pode ser simplificada.
cardeal
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.