Seleção de anteriores com base no erro de medição

Como você calcula o apropriado antes se você tem o erro de medição de um instrumento? Este parágrafo é do livro de Cressie "Statistics for Spatio-Temporal Data":

Geralmente, algumas informações anteriores estão disponíveis sobre a variação do erro de medição, permitindo que um modelo de parâmetro bastante informativo seja especificado. Por exemplo, se estivermos assumindo erros de medição condicionalmente independentes que são iid , devemos especificar um prévio informativo para . Digamos que estavam interessados em temperatura do ar ambiente, e vimos que as especificações do fabricante do instrumento indicado um “erro” de . Supondo que esse “erro” corresponda a 2 desvios padrão (uma suposição que deve ser verificada!), Poderíamos especificar como tendo uma média anterior de $Gau(0, \sigma_{\epsilon}^2)$ $\sigma_{\epsilon}^2$ $±0.1°C$ $\sigma_{\epsilon}^{2}$ $(0.1/2)^2 = 0.0025$ . Devido à especificação do fabricante do instrumento, assumiríamos uma distribuição que tivesse um pico claramente definido e bastante estreito em 0,0025 (por exemplo, gama inversa). De fato, podemos apenas fixar em 0,0025; no entanto, o erro do modelo de dados também pode ter outros componentes de incerteza (Seção 7.1). Para evitar possíveis problemas de identificabilidade com erro de modelo de processo, é muito importante que os modeladores reduzam a incerteza o máximo que a Science permitir, incluindo estudos paralelos projetados para replicar dados.

Alguém sabe qual é o procedimento geral para obter os valores de um prior como descrito acima (embora o parágrafo se refira apenas à obtenção da média anterior)?

— Robert Smith
fonte

Dois métodos padrão são

Consulte as "especificações do fabricante do instrumento", conforme indicado na cotação. Isso geralmente é um retorno bruto a ser usado quando nenhuma outra informação está disponível, porque (a) o que o fabricante do instrumento realmente entende por "precisão" e "precisão" geralmente é indeterminado e (b) como o instrumento respondeu quando novo em um laboratório de teste provavelmente era muito melhor do que o desempenho quando usado em campo.
Colete amostras replicadas. Na amostragem ambiental, existem cerca de meia dúzia de níveis nos quais as amostras são replicadas rotineiramente (e muitas outras nas quais poderiam ser replicadas), com cada nível usado para controlar uma fonte atribuível de variação. Tais fontes podem incluir:
- Identidade da pessoa que colhe a amostra.
- Procedimentos preliminares, como resgate de poços, realizados antes da obtenção de uma amostra.
- Variabilidade no processo de amostragem física.
- Heterogeneidade dentro do próprio volume de amostra.
- Alterações que podem ocorrer ao preservar e enviar uma amostra para um laboratório.
- Variações nos procedimentos preliminares de laboratório, como homogeneizar uma amostra física ou digeri-la para análise.
- A identificação do (s) analista (s) de laboratório.
- Diferenças entre laboratórios.
- Diferenças entre instrumentos fisicamente distintos, como dois cromatógrafos a gás.
- Desvio na calibração do instrumento ao longo do tempo.
- Variação diaria. (Isso pode ser natural e sistemático, mas pode parecer aleatório quando os tempos de amostragem são arbitrários.)

Uma avaliação quantitativa completa dos componentes da variabilidade só pode ser obtida variando sistematicamente cada um desses fatores de acordo com um projeto experimental adequado.

Normalmente, apenas as fontes que se acredita contribuírem com maior variabilidade são estudadas. Por exemplo, muitos estudos dividem sistematicamente uma determinada porção das amostras, uma vez obtidas e as enviam para dois laboratórios diferentes. Um estudo das diferenças entre os resultados dessas divisões pode quantificar sua contribuição para a variabilidade da medição. Se tais divisões forem obtidas o suficiente, a distribuição completa da variabilidade da medição poderá ser estimada como anteriormente em um modelo espaço-temporal hierárquico bayesiano. Como muitos modelos que assumem distribuições gaussianas (para cada um dos cálculos), a obtenção de um gaussiano anterior se resume a estimar a média e a variação das diferenças entre as divisões. Em estudos mais complicados, que visam identificar mais de um componente da variância,

Um dos benefícios de pensar nessas questões é que elas ajudam a identificar maneiras de reduzir ou até eliminar alguns desses componentes de erro (sem precisar quantificá-los), aproximando-se assim do ideal de "reduzir a incerteza" de Cressie & Wikle. tanto quanto a ciência permitir. "

Para um exemplo estendido de trabalho (em amostragem de solo), consulte

Van Ee, Blume e Starks, uma justificativa para a avaliação de erros na amostragem de solos. EPA dos EUA, maio de 1990: EPA / 600 / 4-90 / 013.

— whuber
fonte

O problema aqui, Robert, é que às vezes alguém informa um desvio padrão para a estimativa; outras vezes eles reportarão o dobro (de onde a divisão por dois) ou um intervalo de confiança bilateral; e às vezes até outra coisa; portanto, não existe uma regra definida para converter declarações de exatidão e precisão em anteriores: você deve consultar as notas de rodapé e outros detalhes técnicos para descobrir exatamente o que os números representam. O erro padrão de uma estimativa, sendo uma função do tamanho da amostra utilizada, é irrelevante para esse propósito.

— whuber

Entendi. Deixe-me mudar o foco para o seu segundo caso. Se eu repetir um experimento algumas vezes e obter as medidas e , como posso usar essas informações para informar a média e a variação de uma distribuição anterior? Você sugeriu algo como para várias divisões, certo? Portanto, eu teria uma média de um erro de medição e um desvio padrão de amostra . Isso é suficiente para incluí-lo em um anterior ?

m_{1}

$m_{1}$

m_{2}

$m_{2}$

m_{1} - m_{2}

$m_{1}- m_{2}$

m_{ϵ}

$m_{\epsilon}$

σ_{ϵ}

$\sigma_{\epsilon}$

N (m_{ϵ}, σ_{ϵ}^{2})

$N(m_{\epsilon}, \sigma_{\epsilon}^{2})$

— Robert Smith

Você não pode avaliar a precisão com divisões: para isso, é necessário medir amostras de valores conhecidos. ( Picos de laboratório e duplicatas com picos são usados para isso.) Isso determinará a média. Normalmente, isso é tratado ao calibrar o processo de medição, de modo que a média é considerada zero. A variação é estimada com as fórmulas ANOVA usuais. Você pode usar isso para especificar um prior no componente correspondente do sistema de medição.

— whuber

Não é assim: a referência que dei é a orientação da EPA dos EUA, que existe há um quarto de século e muitas orientações mais recentes se baseiam em suas idéias. Certa vez, usei essa abordagem em um caso do tribunal federal para avaliar o efeito do erro de medição nas linhas de contorno traçadas (com base em um preditor geoestatístico) para delinear uma pluma contaminante: o erro de medição era maior que a concentração usada para prender a pluma! (Em outras palavras, a incerteza no delineamento da pluma era essencialmente infinita.)

— whuber

Muito legal. A propósito, eu quis dizer que os priores geralmente são definidos sem muito cuidado. Eu já vi isso de forma mais proeminente na modelagem bayesiana e no aprendizado de máquina, talvez porque um palpite é suficiente para produzir resultados decentes.

— Robert Smith