Visualização para fluxo de trabalho de inferência

Presto apoio estatístico a um departamento de saúde pública. Como você pode imaginar, montamos muitos mapas regularmente. Para mim, os mapas são apenas outro tipo de visualização de dados - útil para ter uma ideia dos dados, gerar e verificar hipóteses etc. Mas, muitas vezes, não seguimos a modelagem real e o teste de hipóteses .

Como você / sua organização faz isso? Como é um fluxo de trabalho que inclui inferência? Quem está envolvido? Quais ferramentas você usa? O que seria ideal se parece, se você tivesse o seu caminho?

Obrigado!

EDITAR

Para deixar claro, estou curioso sobre diferentes estratégias para passar de dados espaciais a testes estatísticos formais e estatísticos de hipóteses sobre o que está acontecendo no mundo. Por exemplo, digamos que estou tentando direcionar uma campanha educacional para aumentar os testes de tuberculose. Eu (pessoalmente) mapeava os casos de tuberculose contra covariáveis de interesse (digamos, renda mediana ou porcentagem de residentes estrangeiros) e tentava ver se havia algum padrão.

Eu posso ou não encontrar nenhum; mas acabaria construindo um modelo para estimar a associação entre essas covariáveis e o número de dados demográficos. Este é um passo crítico devido à qualidade dos seres humanos em encontrar padrões onde não existem, ou encontrar padrões desinteressantes. Eu sei como fazer isso sozinho, mas estou curioso sobre como diferentes organizações o institucionalizam (se é que existem).

spatial-statistics workflow

— Matt Parker
fonte

Ótima pergunta!

— whuber

Você está dizendo que precisa ter um fluxo de trabalho para que, se houver um surto de alguma doença para a qual haja um suprimento limitado de vacina, você precise mostrar que está distribuindo a vacina da melhor forma possível?

— Kirk Kuykendall

Em geral, estou interessado apenas em como as pessoas incorporam inferência estatística em seus processos de mapeamento. O que você descreve é certamente um cenário possível, mas existem muitos outros e nem sequer estou especialmente interessado em respostas da epidemiologia.

— Matt Parker

Pergunta muito interessante!

Em primeiro lugar, sua pergunta se refere ao que eu chamo de 'mineração de dados' e acho que vale a pena reafirmar o problema explicitamente, já que algumas pessoas aqui podem não ter entendido: com qualquer conjunto de dados (não precisa ser espacial) para obter uma estatística válida relação a convenção é que ela deve ter uma probabilidade igual ou superior a 95%. No entanto, se você fizer 20 testes, há uma chance alta de que pelo menos um dos resultados 'estatisticamente válidos' que você obtém seja devido ao acaso. Portanto, é uma má prática brincar com um conjunto de dados (no GIS seria o mapeamento) para visualizar muitas relações possíveis entre variáveis, encontrar uma interessante e conectar as estatísticas e citar o resultado como se este fosse o único teste que você feito. Ainda é possível usar o resultado, mas é necessário levar em consideração o número de testes que você fez.

Era para isso que você estava dirigindo?

Sua pergunta parece perguntar como as pessoas se formalizam para evitar esse problema. Minha resposta é que a opção "nada" que você mencionou é comum. Os estatísticos médicos (por exemplo, minha namorada), em minha experiência, aplicam um padrão de rigor muito mais alto a esse tipo de processo do que o encontrado em outras áreas. Suspeito que todo tipo de mapeamento de dados fora da saúde pública seja feito sem qualquer consideração formal da problema com a aplicação cega das fórmulas estatísticas, sem entender o processo corretamente. Um exemplo geológico vem à mente:

Eu li um artigo revisado por pares, onde os autores analisaram como o rendimento do poço (quantidade de água que poderia ser bombeada) se relacionava com influências geológicas e espaciais na África, por exemplo, espessura da camada de cascalho que foi escavada antes da rocha ser atingida. A idéia era ajudar as perfuradoras de poços para que elas pudessem atingir os melhores locais para perfurações. Os autores minaram descaradamente os dados combinando todos os tipos de variáveis para ver quais apresentaram um nível de confiança de 95% e (presumo) nenhum dos revisores questionou a validade dos resultados. Suas conclusões eram, portanto, completamente indignas de confiança.

Espero que seja de interesse

— Trevesy
fonte

Você pode explicar um pouco mais por que o artigo que você descreve não é confiável? Não é óbvio para mim por que esse é o caso. Se o relacionamento existe estatisticamente, importa qual modelo mental você usou para identificá-lo? Entendo que ele não explica o mecanismo, mas isso é uma questão separada.

— DJQ