Respostas:
Penso que o seu significado é melhor analisado, analisando-o em duas partes:
"Todos os modelos estão errados", isto é, todo modelo está errado porque é uma simplificação da realidade. Alguns modelos, especialmente nas ciências "difíceis", estão apenas um pouco errados. Eles ignoram coisas como atrito ou o efeito gravitacional de corpos minúsculos. Outros modelos estão muito errados - eles ignoram coisas maiores. Nas ciências sociais, ignoramos muito.
"Mas alguns são úteis" - simplificações da realidade podem ser bastante úteis. Eles podem nos ajudar a explicar, prever e entender o universo e todos os seus vários componentes.
Isso não é verdade apenas nas estatísticas! Os mapas são um tipo de modelo; eles estão errados. Mas bons mapas são muito úteis. São exemplos de outros modelos úteis, mas errados.
Isso significa que idéias úteis podem ser fornecidas a partir de modelos que não representam perfeitamente os fenômenos que modelam.
Um modelo estatístico é uma descrição de um sistema usando conceitos matemáticos. Como tal, em muitos casos, você adiciona uma certa camada de abstração para facilitar seu procedimento inferencial (por exemplo, normalidade dos erros de medição, simetria composta em estruturas de correlação etc.). É quase impossível para um único modelo descrever perfeitamente um fenômeno do mundo real, dado que temos uma visão subjetiva do mundo (nosso sistema sensorial não é perfeito); não obstante, a inferência estatística bem-sucedida acontece porque nosso mundo tem um certo grau de consistência que exploramos. Portanto, nossos modelos quase sempre errados são úteis .
(Tenho certeza de que em breve você receberá uma grande resposta em negrito, mas tentei ser conciso quanto a essa!)
An approximate answer to the right problem is worth a good deal more than an exact answer to an approximate problem.
(na verdade, acho que a citação de JT é incrivelmente esclarecedora.)
Encontrei essa palestra de Thad Tarpey na JSA de 2009 para fornecer uma explicação e um comentário úteis sobre a passagem da Caixa. Ele argumenta que, se considerarmos os modelos como aproximações da verdade, poderíamos facilmente chamar todos os modelos de maneira correta.
Aqui está o resumo:
Os estudantes de estatística são frequentemente apresentados à famosa citação de George Box: "todos os modelos estão errados, alguns são úteis". Nesta palestra, argumento que essa citação, embora útil, está errada. Uma perspectiva diferente e mais positiva é reconhecer que um modelo é simplesmente um meio de extrair informações de interesse dos dados. A verdade é infinitamente complexa e um modelo é meramente uma aproximação à verdade. Se a aproximação for ruim ou enganosa, o modelo será inútil. Nesta palestra, dou exemplos de modelos corretos que não são verdadeiros. Ilustro como a noção de um modelo "errado" pode levar a conclusões erradas.
Para mim, o insight real está no seguinte aspecto:
Um modelo não precisa estar correto para ser útil.
Infelizmente, em muitas ciências, esquece-se frequentemente que os modelos não precisam necessariamente ser representações exatas da realidade para permitir novas descobertas e previsões!
Portanto, não perca seu tempo construindo um modelo complicado que precisa de medições precisas de uma infinidade de variáveis. O verdadeiro gênio inventa um modelo simples que faz o trabalho.
Um modelo não pode fornecer previsões 100% precisas se houver alguma aleatoriedade nos resultados. Se não houvesse incerteza, aleatoriedade e erro, isso seria considerado um fato e não um modelo. O primeiro é muito importante, porque os modelos são freqüentemente usados para modelar expectativas de eventos que não ocorreram. Isso quase garante que haja alguma incerteza sobre os eventos reais.
Dada a informação perfeita, em teoria pode ser possível criar um modelo que dê previsões perfeitas para eventos precisamente conhecidos. No entanto, mesmo dadas essas circunstâncias improváveis, esse modelo pode ser tão complexo a ponto de ser computacionalmente inviável de usar, e pode ser preciso apenas em um momento específico, enquanto outros fatores mudam a forma como os valores mudam com os eventos.
Como a incerteza e a aleatoriedade estão presentes na maioria dos dados do mundo real, os esforços para obter um modelo perfeito são um exercício fútil. Em vez disso, é mais valioso procurar obter um modelo suficientemente preciso, simples o suficiente para ser utilizado em termos de dados e computação necessários para seu uso. Embora esses modelos sejam imperfeitos, algumas dessas falhas são bem conhecidas e podem ser consideradas para tomada de decisão com base nos modelos.
Modelos mais simples podem ser imperfeitos, mas também são mais fáceis de raciocinar, comparar um com o outro e podem ser mais fáceis de trabalhar, porque provavelmente são menos exigentes em termos de computação.
Se eu puder, apenas mais um comentário pode ser útil. A versão do prase que eu prefiro é
(...) todos os modelos são aproximações. Essencialmente, todos os modelos estão errados, mas alguns são úteis (...)
retirado das superfícies de resposta, misturas e análises de cume de Box e Draper (2007, p. 414, Wiley). Olhando para a citação estendida, fica mais claro o que Box quis dizer - modelagem estatística é sobre aproximar a realidade e a aproximação nunca é exata, portanto, é sobre encontrar a aproximação mais apropriada . O que é apropriado para seu objetivo é uma coisa subjetiva, por isso não é um dos modelos que é útil, mas possivelmente alguns deles são, dependendo do objetivo da modelagem.
Como ninguém o adicionou, George Box usou a fase citada para introduzir a seção a seguir em um livro. Eu acredito que ele faz o melhor trabalho para explicar o que ele quis dizer:
Para esse modelo, não há necessidade de fazer a pergunta "O modelo é verdadeiro?". Se a "verdade" deve ser a "verdade completa", a resposta deve ser "Não". A única questão de interesse é "O modelo é esclarecedor e útil?".
Box, GEP (1979), "Robustez na estratégia de construção de modelos científicos", em Launer, RL; Wilkinson, GN, Robustez em Estatística , Academic Press, pp. 201-236.
Você pode pensar dessa maneira. a complexidade máxima (isto é, entropia) de um objeto obedece a alguma forma do limite de Bekenstein :
Esse é um grande número, na maioria dos casos:
Então você quer usar "o melhor mapa", ou seja, o próprio território, com todas as equações de onda para todas as partículas em todas as células? Absolutamente não. Não apenas seria um desastre computacional, mas você modelaria coisas que podem não ter nada a ver com o que você gosta. Se tudo o que você deseja é identificar, digamos, se estou acordado ou não, não precisa saber o que o elétron # 32458 está fazendo no neurônio # 844030 ribossomo # 2305 molécula # 2. Se você não modela isso, seu modelo está realmente "errado", mas se você pode identificar se estou acordado ou não, seu modelo é definitivamente útil.
Acho que Peter e user11852 deram ótimas respostas. Eu também acrescentaria (por negação) que, se um modelo fosse realmente bom, provavelmente seria inútil por causa do ajuste excessivo (portanto, não generalizável).
Minha interpretação ácida é: acreditar que um modelo matemático descreve exatamente todos os fatores e suas interações, governando um fenômeno de interesse, seria simplista e arrogante demais. Nem sabemos se a lógica que usamos é suficiente para entender nosso universo. No entanto, alguns modelos matemáticos representam uma aproximação suficientemente boa (em termos do método científico) que são úteis para tirar conclusões sobre esse fenômeno.
Como astrostatístico (talvez uma raça rara), considero infeliz a fama do ditado de Box. Nas ciências físicas, geralmente temos um forte consenso para entender os processos subjacentes a um fenômeno observado, e esses processos podem ser expressos por modelos matemáticos decorrentes das leis da gravitação, mecânica quântica, termodinâmica etc. Os objetivos estatísticos são estimar as propriedades físicas dos parâmetros do modelo de melhor ajuste, bem como a seleção e validação do modelo. Um caso dramático recente surgiu a partir da publicação de março de 2013 de documentos do satélite Planck da Agência Espacial Europeiamedições do fundo cósmico de microondas que de forma convincente estabelece um modelo simples de `` LambdaCDM '' de 6 parâmetros para o Big Bang. Duvido que o ditado de Box se aplique em qualquer lugar dentro da ampla gama de métodos estatísticos avançados usados nesses 29 artigos.
Acabei de reformular a resposta acima considerando os modelos de processo como ponto de foco. A declaração pode ser interpretada da seguinte maneira:
"Todos os modelos estão errados", isto é, todo modelo está errado porque é uma simplificação da realidade. Alguns modelos estão apenas um pouco errados. Eles ignoram algumas coisas, por exemplo: -> alteração de requisitos, -> ignorando a conclusão do projeto dentro do prazo, -> não considerando o nível de qualidade desejado pelo cliente, etc ... Outros modelos estão muito errados - eles ignoram coisas maiores. Os modelos clássicos de processos de software ignoram muito em comparação com os modelos de processos ágeis que ignoram menos.
"Mas alguns são úteis" - simplificações da realidade podem ser bastante úteis. Eles podem nos ajudar a explicar, prever e entender o projeto geral e todos os seus vários componentes. Os modelos são usados porque seus recursos correspondem à maioria dos programas de desenvolvimento de software.
Eu gostaria de dar outra interpretação do termo "útil". Provavelmente não foi o que Box pensou.
Quando você tiver que tomar decisões, e é para isso que todas as informações serão finalmente usadas, será necessário medir seu sucesso de alguma forma. Ao falar sobre decisões com informações incertas, essa medida geralmente é chamada de utilidade.
Portanto, também podemos pensar em modelos úteis como aqueles que nos permitem tomar decisões mais informadas; para alcançar nossos objetivos de forma mais eficaz.
Isso adiciona outra dimensão sobre os critérios usuais, como a capacidade de um modelo de prever algo corretamente: nos permite avaliar os diferentes aspectos que um modelo tem sobre o outro.
"Todos os modelos estão errados, mas alguns são úteis". Talvez isso signifique: Deveríamos estar fazendo o melhor possível com o que sabemos + buscar novas aprendizagens?
Remember that all models are wrong; the practical question is how wrong do they have to be to not be useful.
Talvez isso seja mais útil.