Em [1, §3.2], David Freedman sugere uma resposta essencialmente negativa à sua pergunta. Ou seja, nenhum (mero) modelo estatístico ou algoritmo poderia resolver o problema de John Snow. O problema de Snow era desenvolver um argumento crítico que apóia sua teoria de que o cólera é uma doença infecciosa transmitida pela água, contra a teoria predominante do miasma de seus dias. (O capítulo 3 de [1], intitulado “Modelos estatísticos e couro de sapato”, também está disponível no formulário publicado anteriormente [2] aqui .)
Nestas poucas páginas curtas [1, pp.47-53], grande parte das quais é uma citação extensa do próprio John Snow, Freedman argumenta que "o que Snow realmente fez em 1853-54 é ainda mais interessante do que a fábula [do Broad Street Pump]. " No que se refere à coleta de evidências estatísticas (outras preliminares, como identificação de casos de índice etc.), Snow explorou a variação natural para efetuar um quase-experimento verdadeiramente notável.
Acontece que, em um período anterior, havia uma vigorosa competição entre as empresas de abastecimento de água em Londres, e isso resultou na mistura espacial do suprimento de água que era (nas palavras de Snow) "do tipo mais íntimo".
Os canos de cada empresa descem todas as ruas e quase todos os tribunais e becos. Algumas casas são fornecidas por uma empresa e outras pela outra, de acordo com a decisão do proprietário ou ocupante no momento em que as companhias de água estavam em competição ativa.
...
Como não há diferença alguma nas casas ou nas pessoas que recebem o suprimento das duas Companhias de Água, ou em qualquer uma das condições físicas com as quais estão cercadas, é óbvio que não poderia ter sido planejado nenhum experimento que testaria mais detalhadamente a situação. efeito do suprimento de água sobre o progresso da cólera, que circunstâncias colocadas prontas diante do observador.
- John Snow
Outra parte criticamente importante da "variação natural" que John Snow explorou nesse quase experimento foi que uma empresa de água teve sua ingestão de água no Tamisa a jusante das descargas de esgoto , enquanto a outra havia alguns anos antes de realocar sua ingestão a montante . Vou deixar você adivinhar qual era a tabela de dados de John Snow!
| Número de | Cólera Mortes por
Empresa | casas mortes | 10.000 casas
-------------------------------------------------- --------
Southwark e Vauxhall | 40,046 | 1263 315
Lambeth 26,107 | 98 37.
Resto de Londres | 256,423 | 1422 59.
Como Freedman observa secamente,
Como uma peça de tecnologia estatística, [a tabela acima] não é de forma alguma notável. Mas a história que conta é muito persuasiva. A força do argumento resulta da clareza do raciocínio anterior, da reunião de várias linhas de evidência diferentes e da quantidade de couro de sapato que Snow estava disposta a usar para obter os dados. [1, p.51]
Um outro ponto de variação natural explorada por Snow ocorreu na dimensão temporal : a referida mudança de ingestão de água ocorreu entre duas epidemias, permitindo à Snow comparar a água da mesma empresa com e sem adição de esgoto. (Obrigado a Philip B. Stark, um autor de [1], por esta informação via Twitter . Veja esta palestra on-line dele).
Esse assunto também fornece um estudo instrutivo sobre o contraste entre dedutivismo e indutivismo , conforme discutido nesta resposta .
Freedman D, Collier D, Sekhon JS, Stark PB. Modelos estatísticos e inferência causal: um diálogo com as ciências sociais. Cambridge; Nova York: Cambridge University Press; 2010.
Freedman DA. Modelos Estatísticos e Calçados de Couro. Metodologia Sociológica . 1991; 21: 291-313. doi: 10.2307 / 270939. Texto completo