Intervalos de previsão e tolerância

Eu tenho algumas perguntas para intervalos de previsão e tolerância.

Vamos concordar com a definição dos intervalos de tolerância primeiro: recebemos um nível de confiança, digamos 90%, a porcentagem da população a capturar, digamos 99%, e um tamanho de amostra, digamos 20. A distribuição de probabilidade é conhecida, digamos normal Por conveniência. Agora, dados os três números acima (90%, 99% e 20) e o fato de a distribuição subjacente ser normal, podemos calcular o número de tolerância . Dada uma amostra com média e desvio padrão , a tolerância intervalo é $k$ $(x_1,x_2,\ldots,x_{20})$ $\bar{x}$ $s$ $\bar{x}\pm ks$ . Se esse intervalo de tolerância captura 99% da população, a amostra é chamada de sucesso e o requisito é que 90% das amostras sejam bem- sucedidas $(x_1,x_2,\ldots,x_{20})$ .

Comentário: 90% é a priori probabilidade a de uma amostra ser um sucesso. 99% é a probabilidade condicional de que uma observação futura esteja no intervalo de tolerância, dado que a amostra é um sucesso.

Minhas perguntas: podemos ver os intervalos de previsão como intervalos de tolerância? Procurando na web, obtive respostas conflitantes sobre isso, sem mencionar que ninguém realmente definiu cuidadosamente os intervalos de previsão. Portanto, se você tiver uma definição precisa do intervalo de previsão (ou uma referência), eu agradeceria.

O que eu entendi é que um intervalo de previsão de 99%, por exemplo, não captura 99% de todos os valores futuros para todas as amostras. Seria o mesmo que um intervalo de tolerância que captura 99% da população com 100% de probabilidade.

Nas definições que encontrei para um intervalo de predição de 90%, 90% é a probabilidade a priori de uma amostra, digamos (o tamanho é fixo) e uma única observação futura , que estará no intervalo de previsão. Assim, parece que a amostra e o valor futuro são dados ao mesmo tempo, em contraste com o intervalo de tolerância, onde a amostra é fornecida e com uma certa probabilidade, é um sucesso $(x_1,x_2,\ldots,x_{20})$ $y$ $y$ e sob a condição de que a amostra seja um sucesso, um valor futuro é fornecido e com uma certa probabilidade cai no intervalo de tolerância. Não tenho certeza se a definição acima do intervalo de previsão está correta ou não, mas parece contra-intuitiva (pelo menos).

Qualquer ajuda?

prediction prediction-interval tolerance-interval

— Ioannis Souldatos
fonte

Intervalos de tolerância unilaterais para uma amostragem normal podem ajudar a entender essa noção. Um limite superior de tolerância de

não passa de um limite superior de confiança do número de

da distribuição assumida do modelo. Portanto, no caso de uma distribuição normal, esse é um limite superior de confiança do parâmetro

onde

da distribuição gaussiana padrão.

99 %

$99\%$

99 %

$99\%$

μ + k σ

$\mu + k\sigma$

k = z_{99 %}

$k=z_{99\%}$

99 %

$99\%$

— Stéphane Laurent

Esta é uma boa reformulação, Stéphane, porque mostra imediatamente que existem vários tipos de limites de tolerância: pode-se solicitar um limite superior de confiança em

, para um limite inferior de confiança em

, ou para ( digamos) uma estimativa imparcial desse parâmetro. Todos os três são chamados de "limites de tolerância" na literatura.

μ + z_{0.99} σ

$\mu + z_{0.99}\sigma$

μ + z_{0.99} σ

$\mu + z_{0.99}\sigma$

— whuber

Eu acho que você preferiria dizer um limite de confiança menor em

μ - z_{0.99} σ

$\mu - z_{0.99}\sigma$

— Stéphane Laurent

Na verdade, não, Stéphane (por isso, tomei o cuidado de repetir a fórmula do parâmetro). Existem também três definições semelhantes para um limite de tolerância mais baixo . Por exemplo, podemos querer sob -estimate o 99º superior percentil da população, mas para controlar a quantidade de subestimação insistimos haver (digamos) 5% de chance de que a nossa subestimativa ainda será muito alto. Isso nos permitirá dizer coisas como "Os dados mostram, com 95% de confiança, que o percentil 99 da população excede esse valor".

— whuber

Respostas:

Suas definições parecem estar corretas.

O livro a ser consultado sobre esses assuntos é Intervalos estatísticos (Gerald Hahn e William Meeker), 1991. Cito:

Um intervalo de previsão para uma única observação futura é um intervalo que, com um grau especificado de confiança, conterá a próxima (ou alguma outra pré-especificada) observação selecionada aleatoriamente de uma população.

[A] intervalo de tolerância é um intervalo que se pode afirmar conter pelo menos uma proporção especificada, p , da população com um grau de confiança especificado, . $100(1-\alpha)\%$

Aqui estão as reformulações na terminologia matemática padrão. Que os dados sejam considerados uma realização de variáveis aleatórias independentes com a função de distribuição cumulativa comum . ( aparece como um lembrete de que pode ser desconhecido, mas supõe-se que esteja em um determinado conjunto de distribuições ). Let $\mathbf{x}=(x_1,\ldots,x_n)$ $\mathbf{X}=(X_1,\ldots,X_n)$ $F_\theta$ $\theta$ $F$ ${F_\theta \vert \theta \in \Theta}$ $X_0$ outra variável aleatória com a mesma distribuição e independente das primeiras variáveis. $F_\theta$ $n$

Um intervalo de previsão (para uma única observação futura), dado pelos pontos finais , tem a propriedade definidora que $[l(\mathbf{x}), u(\mathbf{x})]$

$inf_{θ} {{Pr}_{θ} (X_{0} \in [l (X), u (X)])} = 100 (1 - α) % .$ $\inf_\theta\{{\Pr}_\theta(X_0 \in [l(\mathbf{X}), u(\mathbf{X})])\}= 100(1-\alpha)\%.$
Especificamente, refere-se à distribuição variável de determinada pela lei . Observe a ausência de probabilidades condicionais: esta é uma probabilidade conjunta completa. Observe também a ausência de qualquer referência a uma sequência temporal: muito bem pode ser observado no tempo antes dos outros valores. Isso não importa. ${\Pr}_\theta$ $n+1$ $(X_0, X_1, \ldots, X_n)$ $F_\theta$ $X_0$

Não tenho certeza de quais aspectos disso podem ser "contra-intuitivos". Se concebermos selecionar um procedimento estatístico como uma atividade a ser exercida antes da coleta de dados, essa é uma formulação natural e razoável de um processo planejado de duas etapas, porque ambos os dados ( ) e o "valor futuro" precisa ser modelado como aleatório. $X_i, i=1,\ldots,n$ $X_0$
Um intervalo de tolerância, dado pelos pontos de extremidade , tem a propriedade definidora que $(L(\mathbf{x}), U(\mathbf{x})]$

$inf_{θ} {{Pr}_{θ} (F_{θ} (U (X)) - F_{θ} (L (X)) \geq p)} = 100 (1 - α) % .$ $\inf_\theta\{{\Pr}_\theta\left(F_\theta(U(\mathbf{X})) - F_\theta(L(\mathbf{X})\right) \ge p)\} = 100(1-\alpha)\%.$
Observe a ausência de qualquer referência a : ele não desempenha nenhum papel. $X_0$

Quando é o conjunto de distribuições Normais, existem intervalos de previsão no formato $\{F_\theta\}$

l (x) = \bar{x} - k (α, n) s, u (x) = \bar{x} + k (α, n) s

$l(\mathbf{x}) = \bar{x} - k(\alpha, n) s, \quad u(\mathbf{x}) = \bar{x} + k(\alpha, n) s$

( é a média da amostra é o desvio padrão da amostra). Os valores da função , que Hahn & Meeker tabulam, não dependem dos dados . Existem outros procedimentos de intervalo de previsão, mesmo no caso Normal: esses não são os únicos. $\bar{x}$ $s$ $k$ $\mathbf{x}$

Da mesma forma, existem intervalos de tolerância na forma

L (x) = \bar{x} - K (α, n, p) s, U (x) = \bar{x} + K (α, n, p) s .

$L(\mathbf{x}) = \bar{x} - K(\alpha, n, p) s, \quad U(\mathbf{x}) = \bar{x} + K(\alpha, n, p) s.$

Existem outros procedimentos de intervalo de tolerância : esses não são os únicos.

Observando a semelhança entre esses pares de fórmulas, podemos resolver a equação

k (α, n) = K (α^{'}, n, p) .

$k(\alpha, n) = K(\alpha', n, p).$

Isso permite reinterpretar um intervalo de previsão como um intervalo de tolerância (de várias maneiras possíveis, variando e ) ou reinterpretar um intervalo de tolerância como um intervalo de previsão (somente agora geralmente é determinado exclusivamente por e ). Esta pode ser uma origem da confusão. $\alpha'$ $p$ $\alpha$ $\alpha'$ $p$

— whuber
fonte

A confusão entre esses intervalos é real. Há uma década, tive várias conversas difíceis com um estatístico do governo que ignorava a diferença e (virulentamente) incapaz de reconhecer que existe uma. Seu papel proeminente na criação de orientação, revisão de relatórios, aconselhamento de responsáveis pelo caso, distribuição de software e até publicação revisada por pares promoveu a continuidade desses conceitos errôneos. Então cuidado!

— whuber

p = 50 %

$p=50\%$

k (α, n) = K (α, n, 0.5)

$k(\alpha,n)=K(\alpha,n,0.5)$

n

$n$

p = 50 %

$p=50\%$

X_{0}

$X_0$

k (α, n) \approx K (50 %, n, 1 - α)

$\boxed{k(\alpha,n) \approx K(50\%,n,1-\alpha)}$

n

$n$

K

$K$

50 %

$50\%$

z_{1 - α} / \sqrt{n}

$z_{1-\alpha}/\sqrt{n}$

@whuber. Obrigado pela resposta. Vou ter que ter certeza de que entendi antes de marcar como correto. Dê-me algum tempo para "digeri-lo".

— Ioannis Souldatos

$K(\alpha,p)$

— Scott P.
fonte