Bootstrap tendencioso: é correto centralizar o IC em torno da estatística observada?

Isso é semelhante ao Bootstrap: a estimativa está fora do intervalo de confiança

Eu tenho alguns dados que representam contagens de genótipos em uma população. Quero estimar a diversidade genética usando o índice de Shannon e também gerar um intervalo de confiança usando o bootstrapping. Notei, no entanto, que a estimativa via bootstrapping tende a ser extremamente tendenciosa e resulta em um intervalo de confiança que fica fora da minha estatística observada.

Abaixo está um exemplo.

# Shannon's index
H <- function(x){
  x <- x/sum(x)
  x <- -x * log(x, exp(1))
  return(sum(x, na.rm = TRUE))
}
# The version for bootstrapping
H.boot <- function(x, i){
  H(tabulate(x[i]))
}

Geração de dados

set.seed(5000)
X <- rmultinom(1, 100, prob = rep(1, 50))[, 1]

Cálculo

H(X)

## [1] 3.67948

xi <- rep(1:length(X), X)
H.boot(xi)

## [1] 3.67948

library("boot")
types <- c("norm", "perc", "basic")
(boot.out <- boot::boot(xi, statistic = H.boot, R = 1000L))

## 
## CASE RESAMPLING BOOTSTRAP FOR CENSORED DATA
## 
## 
## Call:
## boot::boot(data = xi, statistic = H.boot, R = 1000)
## 
## 
## Bootstrap Statistics :
##     original     bias    std. error
## t1*  3.67948 -0.2456241  0.06363903

Gerando os ICs com correção de viés

boot.ci(boot.out, type = types)

## BOOTSTRAP CONFIDENCE INTERVAL CALCULATIONS
## Based on 1000 bootstrap replicates
## 
## CALL : 
## boot.ci(boot.out = boot.out, type = types)
## 
## Intervals : 
## Level      Normal              Basic              Percentile     
## 95%   ( 3.800,  4.050 )   ( 3.810,  4.051 )   ( 3.308,  3.549 )  
## Calculations and Intervals on Original Scale

Supondo que a variação de t possa ser usada para a variação de t0 .

norm.ci(t0 = boot.out$t0, var.t0 = var(boot.out$t[, 1]))[-1]

## [1] 3.55475 3.80421

Seria correto relatar o IC centrado em torno de t0 ? Existe uma maneira melhor de gerar o bootstrap?

— ZNK
fonte

Respostas:

Na configuração fornecida pelo OP, o parâmetro de interesse é a entropia de Shannon que é uma função do vetor de probabilidade . O estimador baseado em amostras ( na simulação) é o plug-in estimador

θ (p) = - \sum_{Eu = 1}^{50.} p_{Eu} registro p_{Eu},

$\theta(\mathbf{p}) = - \sum_{i = 1}^{50} p_i \log p_i,$

p \in R^{50}

$\mathbf{p} \in \mathbb{R}^{50}$

n

$n$

n = 100

$n = 100$

As amostras foram geradas usando a distribuição uniforme para a qual a entropia de Shannon é

Como a entropia de Shannon é maximizada na distribuição uniforme, o estimador de plug-indeve ser enviesado para baixo. A mostra de simulação que

enquanto que

{\hat{θ}}_{n} = θ ({\hat{p}}_{n}) = - \sum_{Eu = 1}^{50.} {\hat{p}}_{n, Eu} registro {\hat{p}}_{n, Eu} .

$\hat{\theta}_n = \theta(\hat{\mathbf{p}}_n) = - \sum_{i=1}^{50} \hat{p}_{n,i} \log \hat{p}_{n,i}.$

\log (50) = 3.912.

$\log(50) = 3.912.$

b i a s ({\hat{θ}}_{100}) ≃ - 0.28

$\mathrm{bias}(\hat{\theta}_{100}) \simeq -0.28$

. O estimador de plug-in é consistente, mas ométodo

não se aplica a

ser a distribuição uniforme, porque a derivada da entropia de Shannon é 0. Portanto, para essa escolha específica de

, os intervalos de confiança baseados em argumentos assintóticos não são óbvios. .

b i a s ({\hat{θ}}_{500}) ≃ - 0.05

$\mathrm{bias}(\hat{\theta}_{500}) \simeq -0.05$

Δ

$\Delta$

p

$\mathbf{p}$

p

$\mathbf{p}$

O intervalo de percentil baseia-se na distribuição de , onde é o estimador de amostragem obtida a partir de observações a partir de . Especificamente, é o intervalo do quantil de 2,5% ao quantil de 97,5% para a distribuição de . Como mostra a simulação de bootstrap da OP, é também claramente inclinado para baixo como um estimador de $\theta(\mathbf{p}_n^*)$ $\mathbf{p}_n^*$ $n$ $\hat{\mathbf{p}}_n$ $\theta(\mathbf{p}_n^*)$ $\theta(\mathbf{p}_n^*)$ $\theta(\hat{\mathbf{p}}_n)$ , o que resulta no intervalo percentil completamente errado.

Para o intervalo básico (e normal), as funções dos quantis são trocadas. Isso implica que o intervalo parece razoável (abrange 3.912), embora os intervalos que ultrapassem 3.912 não sejam logicamente significativos. Além disso, não sei se o intervalo básico terá a cobertura correta. Sua justificativa é baseada na seguinte identidade distributiva aproximada:

θ (p_{n}^{*}) - θ ({\hat{p}}_{n}) \overset{D}{≃} θ ({\hat{p}}_{n}) - θ (p),

$\theta(\mathbf{p}_n^*) - \theta(\hat{\mathbf{p}}_n) \overset{\mathcal{D}}{\simeq} \theta(\hat{\mathbf{p}}_n) - \theta(\mathbf{p}),$

n

$n$

n = 100

$n = 100$

$\theta(\hat{\mathbf{p}}_n) \pm 1.96\hat{\mathrm{se}}_n$

$\theta(\mathbf{p})$ $\mathbf{p}$ $\theta(\mathbf{p})$

— NRH
fonte

1 / n

$1/n$

@ EdM esta é uma informação muito útil. Eu não conhecia a literatura sobre esse problema específico de preconceito. Pode ser realmente útil se você puder transformar o comentário em uma resposta que explique a correção de viés e como ele pode ser usado com o bootstrap, por exemplo, para obter intervalos de confiança.

— NRH 25/06

Também não conhecia essa literatura, até que essa pergunta e sua resposta surgiram. O que é um pouco embaraçoso, já que a entropia de Shannon é frequentemente usada como uma medida na minha área de ciência biomédica. Vou ver o que posso montar como uma resposta adicional.

— achou

θ (p_{n}^{*})

$\theta(\mathbf{p}_n^*)$

n

$n$

n

$n$

n \to \infty

$n \to \infty$

Como aponta a resposta de @NRH, o problema não é que o bootstrapping deu um resultado tendencioso. É que a estimativa "plug-in" simples da entropia de Shannon, com base nos dados de uma amostra, é enviesada para baixo em relação ao verdadeiro valor da população.

Esse problema foi reconhecido na década de 1950, poucos anos após a definição desse índice. Este artigo discute as questões subjacentes, com referências à literatura associada.

$\hat{p}_{n,i}$ $p_{n,i}$

{\hat{θ}}_{n} = θ ({\hat{p}}_{n}) = - \sum_{Eu = 1}^{M} {\hat{p}}_{n, Eu} registro {\hat{p}}_{n, Eu} .

$\hat{\theta}_n = \theta(\hat{\mathbf{p}}_n) = - \sum_{i=1}^{M} \hat{p}_{n,i} \log \hat{p}_{n,i}.$

a relação não linear significa que o valor resultante é uma subestimação parcial da verdadeira diversidade genética.

$M$ $N$ $(M -1)/2N$

Existem pacotes no R que lidam com esse problema. O simbootpacote, em particular, possui uma função estShannonfque faz essas correções de polarização e uma função sbdivpara calcular os intervalos de confiança. Será melhor usar essas ferramentas de código aberto estabelecidas para sua análise, em vez de tentar começar do zero.

— EdM
fonte

Portanto, o estimador por si só é errado devido ao tamanho da amostra? O simbootpacote parece promissor, mas não parece adequado para meus propósitos, pois precisa de uma amostra de controle para estimar os intervalos de confiança.

— ZNK 25/06

"Errado" não está certo; o estimador é "tendencioso", pois seu valor esperado não é o mesmo que o valor real da população. Isso não significa que é "errado"; estimadores tendenciosos podem ser úteis, conforme ilustrado pelo tradeoff de variação de viés na seleção de estimadores. Se simbootnão atender às suas necessidades, o Google "Shannon entropia viés r" para links para outros pacotes R, como entropy, entropart, e EntropyEstimation.

— EdM

Existem questões adicionais decorrentes do fato de que alguns genótipos presentes na população provavelmente serão perdidos em qualquer amostra específica. Alguns dos pacotes R baseados em população e ecologia parecem ter maneiras de lidar com esse problema.

— EdM