RECOMPENSA:
A recompensa total será concedido a alguém que fornece uma referência a qualquer documento publicado que os usos ou menciona o estimador abaixo.
Motivação:
Esta seção provavelmente não é importante para você e eu suspeito que não ajudará você a receber a recompensa, mas como alguém perguntou sobre a motivação, aqui está o que estou trabalhando.
Estou trabalhando em um problema de teoria estatística de grafos. O objeto limitador de gráfico denso padrão é uma função simétrica no sentido de que . A amostragem de um gráfico em vértices pode ser considerada como amostragem de valores uniformes no intervalo de unidades ( para ) e, em seguida, a probabilidade de uma aresta é . Deixe a matriz de adjacência resultando ser chamado .
supondo que . Se estimarmos base em sem quaisquer restrições para , não podemos obter uma estimativa consistente. Encontrei um resultado interessante sobre a estimativa consistente de quando vem de um conjunto restrito de funções possíveis. A partir deste estimador e , podemos estimar .
Infelizmente, o método que encontrei mostra consistência quando coletamos amostras da distribuição com densidade . A maneira como é construído exige que eu colete uma grade de pontos (em vez de tirar desenhos do original ). Nesta pergunta stats.SE, estou solicitando o problema unidimensional (mais simples) do que acontece quando podemos apenas amostrar Bernoullis em uma grade como essa, em vez de realmente amostrar diretamente da distribuição.
referências para limites de gráficos:
L. Lovasz e B. Szegedy. Limites de sequências gráficas densas ( arxiv ).
C. Borgs, J. Chayes, L. Lovasz, V. Sos e K. Vesztergombi. Sequências convergentes de gráficos densos i: Frequências de subgráficos, propriedades métricas e testes. ( arxiv ).
Notação:
Considere uma distribuição contínua com cdf e pdf que tenha um suporte positivo no intervalo . Suponha que não tenha massa de pontos, seja diferenciável em todos os lugares e também que é o supremo de no intervalo . Seja significa que a variável aleatória é amostrado a partir da distribuição . são suas variáveis aleatórias uniformes em .
Problema configurado:
Muitas vezes, podemos deixar variáveis aleatórias com distribuição e trabalhar com o habitual função de distribuição empírica como F n ( t ) = 1 ondeIé a função do indicador. Note-se que esta distribuição empírica F n(t)é, em si aleatória (em queté fixo).
Infelizmente, eu não sou capaz de tirar amostras diretamente do . No entanto, eu sei que f tem suporte positivo apenas em [ 0 , 1 ] , e posso gerar variáveis aleatórias Y 1 , … , Y n onde Y i é uma variável aleatória com uma distribuição de Bernoulli com probabilidade de sucesso p i = f ( ( i - 1 + U i ) / n ) / c onde c e
Questões:
Do (o que eu acho que deveria ser), do mais fácil ao mais difícil.
Alguém sabe se este (ou algo similar) tem um nome? Você pode fornecer uma referência onde eu possa ver algumas de suas propriedades?
Como , ˜ F n ( t ) é um estimador consistente de F ( t ) (e você pode provar isso)?
Qual é a distribuição limitadora de como n → ∞ ?
Idealmente, eu gostaria de vincular o seguinte como uma função de - por exemplo, O P ( log ( n ) / √, mas não sei qual é a verdade. OOPsignificaBig S em probabilidade
Algumas idéias e notas:
Isso se parece muito com a amostragem de rejeição de aceitação com uma estratificação baseada em grade. Observe que não é assim, porque não extraímos outra amostra se rejeitarmos a proposta.
Eu tenho certeza que isso é tendenciosa. Eu acho que a alternativa ~ F ∗ n ( t ) = c é imparcial, mas tem a propriedade desagradável queP( ~ F * (1)=1)<1.
Eu estou interessado em usar como um plug-in estimador . Não acho que seja uma informação útil, mas talvez você saiba de alguma razão para isso.
Exemplo em R
Aqui está um código R se você deseja comparar a distribuição empírica com . Desculpe, alguns dos recuos estão errados ... Não vejo como consertar isso.
# sample from a beta distribution with parameters a and b
a <- 4 # make this > 1 to get the mode right
b <- 1.1 # make this > 1 to get the mode right
qD <- function(x){qbeta(x, a, b)} # inverse
dD <- function(x){dbeta(x, a, b)} # density
pD <- function(x){pbeta(x, a, b)} # cdf
mD <- dbeta((a-1)/(a+b-2), a, b) # maximum value sup_z f(z)
# draw samples for the empirical distribution and \tilde{F}
draw <- function(n){ # n is the number of observations
u <- sort(runif(n))
x <- qD(u) # samples for empirical dist
z <- 0 # keep track of how many y_i == 1
# take bernoulli samples at the points s
s <- seq(0,1-1/n,length=n) + runif(n,0,1/n)
p <- dD(s) # density at s
while(z == 0){ # make sure we get at least one y_i == 1
y <- rbinom(rep(1,n), 1, p/mD) # y_i that we sampled
z <- sum(y)
}
result <- list(x=x, y=y, z=z)
return(result)
}
sim <- function(simdat, n, w){
# F hat -- empirical dist at w
fh <- mean(simdat$x < w)
# F tilde
ft <- sum(simdat$y[1:ceiling(n*w)])/simdat$z
# Uncomment this if we want an unbiased estimate.
# This can take on values > 1 which is undesirable for a cdf.
### ft <- sum(simdat$y[1:ceiling(n*w)]) * (mD / n)
return(c(fh, ft))
}
set.seed(1) # for reproducibility
n <- 50 # number observations
w <- 0.5555 # some value to test this at (called t above)
reps <- 1000 # look at this many values of Fhat(w) and Ftilde(w)
# simulate this data
samps <- replicate(reps, sim(draw(n), n, w))
# compare the true value to the empirical means
pD(w) # the truth
apply(samps, 1, mean) # sample mean of (Fhat(w), Ftilde(w))
apply(samps, 1, var) # sample variance of (Fhat(w), Ftilde(w))
apply((samps - pD(w))^2, 1, mean) # variance around truth
# now lets look at what a single realization might look like
dat <- draw(n)
plot(NA, xlim=0:1, ylim=0:1, xlab="t", ylab="empirical cdf",
main="comparing ECDF (red), Ftilde (blue), true CDF (black)")
s <- seq(0,1,length=1000)
lines(s, pD(s), lwd=3) # truth in black
abline(h=0:1)
lines(c(0,rep(dat$x,each=2),Inf),
rep(seq(0,1,length=n+1),each=2),
col="red")
lines(c(0,rep(which(dat$y==1)/n, each=2),1),
rep(seq(0,1,length=dat$z+1),each=2),
col="blue")
EDITAR% S:
EDIT 1 -
Eu editei isso para abordar os comentários do @ whuber.
EDIT 2 -
Eu adicionei o código R e o limpei um pouco mais. Alterei ligeiramente a notação para facilitar a leitura, mas é essencialmente a mesma. Estou planejando dar uma recompensa a isso assim que me for permitido, por isso, entre em contato se desejar mais esclarecimentos.
EDIT 3 -
Acho que me dirigi às observações do @ cardeal. Corrigi os erros de digitação na variação total. Estou adicionando uma recompensa.
EDIT 4 -
Adicionada uma seção de "motivação" para o @cardinal.