Todos os modelos são inúteis? Existe algum modelo exato possível - ou útil?


45

Esta pergunta vem à mente há mais de um mês. A edição de fevereiro de 2015 da Amstat News contém um artigo do professor Mark van der Laan, de Berkeley, que censura as pessoas por usarem modelos inexatos. Ele afirma que, usando modelos, a estatística é então uma arte e não uma ciência. Segundo ele, sempre se pode usar "o modelo exato" e que nossa falha ao fazê-lo contribui para uma "falta de rigor ... receio que nossa representação na ciência de dados esteja se marginalizando".

Concordo que corremos o risco de ser marginalizados, mas a ameaça geralmente vem daqueles que afirmam (parecendo muito com o professor van der Laan, ao que parece) que eles não estão usando algum método aproximado, mas cujos métodos são de fato muito menos rigorosos do que os modelos estatísticos cuidadosamente aplicados - mesmo os errados.

Eu acho que é justo dizer que o Prof van der Laan é bastante desdenhoso daqueles que repetem a citação frequentemente usada de Box, "todos os modelos estão errados, mas alguns são úteis". Basicamente, como eu li, ele diz que todos os modelos estão errados e todos são inúteis. Agora, quem sou eu para discordar de um professor de Berkeley? Por outro lado, quem é ele para descartar tão descaradamente a visão de um dos gigantes reais em nosso campo?

Ao elaborar, o Dr. van der Laan afirma que "é um completo absurdo afirmar que todos os modelos estão errados ... Por exemplo, um modelo estatístico que não faz suposições é sempre verdadeiro". Ele continua: "Mas, muitas vezes, podemos fazer muito melhor que isso: podemos saber que os dados são o resultado de experiências idênticas independentes". Não vejo como se pode saber disso, exceto em amostragens aleatórias muito restritas ou em ambientes experimentais controlados. O autor aponta para o seu trabalho em aprendizado de máxima verossimilhança direcionado e aprendizado baseado em perdas mínimo, que "integra o estado da arte em aprendizado de máquina / estimativa adaptativa a dados, todos os incríveis avanços em inferência causal, dados censurados, eficiência e empírica teoria dos processos enquanto ainda fornece inferência estatística formal ".n

Existem também algumas afirmações com as quais concordo. Ele diz que precisamos levar nosso trabalho, nosso papel como estatístico e nossos colaboradores científicos a sério. Ouça ouça! Certamente é uma má notícia quando as pessoas usam rotineiramente um modelo de regressão logística, ou o que for, sem considerar cuidadosamente se é adequado para responder à pergunta científica ou se ele se encaixa nos dados. E eu vejo muitos desses abusos nas perguntas postadas neste fórum. Mas também vejo usos eficazes e valiosos de modelos inexatos, mesmo paramétricos. E, ao contrário do que ele diz, raramente estou "entediado até a morte por outro modelo de regressão logística". Essa é a minha ingenuidade, eu acho.

Então, aqui estão as minhas questões:

  1. Que inferências estatísticas úteis podem ser feitas usando um modelo que não faz nenhuma suposição?
  2. Existe um estudo de caso, com dados importantes e reais no uso da probabilidade máxima direcionada? Esses métodos são amplamente utilizados e aceitos?
  3. Todos os modelos inexatos são realmente inúteis?
  4. É possível saber que você tem o modelo exato, exceto em casos triviais?
  5. Se isso é muito baseado em opiniões e, portanto, fora de tópico, onde pode ser discutido? Porque o artigo do Dr. van der Laan definitivamente precisa de alguma discussão.

13
Eu diria que um modelo sem suposições é quase sempre inútil, mas van der Laan certamente está fazendo suposições sem admiti-lo. Realmente não sabemos muitas coisas com certeza, de modo que seu "Podemos saber que os dados são o resultado de n experiências independentes idênticas" é de fato uma suposição , ou pelo menos parcialmente. Podemos ter bons motivos para supor que eles são idênticos e independentes, mas, na prática, vemos que muitas vezes acontece que não era realmente o caso (e se descobrimos que algumas vezes isso deve ser descoberto algumas vezes, presumivelmente com muito mais frequência) )
Glen_b

19
Um modelo sem suposições é apenas uma replicação da sua matriz de dados. É verdade, mas também uma duplicação inútil de esforço. Também se poderia argumentar que esse modelo não é um modelo: uma definição de modelo é que é uma simplificação da realidade. Portanto, um modelo que não simplifica não é, por definição, um modelo. Essa simplificação tem um objetivo: nos ajuda a entender de maneira substantiva o que está acontecendo; isso nos dá uma história principal. Se você não se importa em entender por que as coisas acontecem e apenas deseja prever, essa história principal é irrelavante. No entanto, alguns querem fazer mais do que criar uma bola de cristal ...
Maarten Buis

8
Um modelo sem premissas não é um modelo. O modelo é uma coleção de suposições. Além disso, como @Glen_b diz, a suposição de iid é bastante forte e não consigo pensar em um exemplo em que seja "verdadeiro". Mesmo ao lançar uma moeda repetidamente, há correlações (veja o trabalho de Diaconis). Eu apenas passei o mouse sobre o artigo, mas ele parece míope.
P.Windridge

11
O primeiro exemplo do autor sobre voar para Marte é falso. A mecânica newtoniana (que é usada em muitos aspectos das missões espaciais) é um modelo errado , mas confiamos nela e é útil.
precisa saber é o seguinte

6
Sim, a mecânica newtoniana é um ótimo exemplo do argumento de George Box.
Glen_b

Respostas:


15

O artigo citado parece basear-se no medo de que os estatísticos "não sejam uma parte intrínseca da equipe científica, e os cientistas naturalmente terão suas dúvidas sobre os métodos utilizados" e que "os colaboradores nos verão como técnicos que eles podem orientar para obter". seus resultados científicos publicados ". Meus comentários sobre as perguntas colocadas pelo @rvl vêm da perspectiva de um cientista biológico não estatístico que foi forçado a lidar com questões estatísticas cada vez mais complicadas à medida que eu passava da pesquisa de banco para a pesquisa translacional / clínica nos últimos anos. A pergunta 5 é claramente respondida pelas múltiplas respostas agora nesta página; Eu vou na ordem inversa a partir daí.

4) Realmente não importa se existe um "modelo exato", porque, mesmo que exista, provavelmente não poderei me dar ao luxo de fazer o estudo. Considere esta questão no contexto da discussão: Nós realmente precisamos incluir “todos os preditores relevantes?” Mesmo que possamos identificar “todos os preditores relevantes”, ainda haverá o problema de coletar dados suficientes para fornecer os graus de liberdade para incorporar todos eles de forma confiável no modelo. Isso já é bastante difícil em estudos experimentais controlados, sem falar em estudos retrospectivos ou populacionais. Talvez em alguns tipos de "Big Data" isso seja menos problemático, mas é para mim e meus colegas. Sempre haverá a necessidade de "ser esperto", como o @Aksakal colocou uma resposta nessa página.

Para ser justo com o professor van der Laan, ele não usa a palavra "exato" no artigo citado, pelo menos na versão atualmente disponível on-line no link . Ele fala sobre modelos "realistas". Essa é uma distinção importante.

Por outro lado, o professor van der Laan reclama que "a estatística é agora uma arte, não uma ciência", o que é mais do que um pouco injusto da parte dele. Considere a maneira como ele se propõe a trabalhar com colaboradores:

... precisamos levar os dados, nossa identidade como estatístico e nossos colaboradores científicos a sério. Precisamos aprender o máximo possível sobre como os dados foram gerados. Depois de propormos um modelo estatístico realista, precisamos extrair de nossos colaboradores o que estimar melhor representa a resposta para sua pergunta científica de interesse. Isto é muito trabalho. É difícil. Requer uma compreensão razoável da teoria estatística. É uma empresa acadêmica digna!

A aplicação desses princípios científicos a problemas do mundo real parece exigir uma grande quantidade de "arte", como ocorre em qualquer empreendimento científico. Conheci alguns cientistas muito bem-sucedidos, muitos mais que deram certo e algumas falhas. Na minha experiência, a diferença parece estar na "arte" de buscar objetivos científicos. O resultado pode ser ciência, mas o processo é algo mais.

3) Novamente, parte da questão é terminológica; há uma grande diferença entre um modelo "exato" e os modelos "realistas" que o Prof. van der Laan procura. Ele afirma que muitos modelos estatísticos padrão são suficientemente irreais para produzir resultados "não confiáveis". Em particular: "Estimadores de uma estimativa definida em um modelo estatístico honesto não podem ser sensivelmente estimados com base em modelos paramétricos". Essas são questões para teste, não opinião.

Seu próprio trabalho reconhece claramente que modelos exatos nem sempre são possíveis. Considere este manuscrito em estimadores de máxima verossimilhança direcionada (TMLE) no contexto de variáveis ​​de resultado ausentes. É baseado em uma suposição de resultados perdidos aleatoriamente, o que pode nunca ser testável na prática: "... assumimos que não há fatores de confusão não observados da relação entre falta e o resultado". Este é outro exemplo da dificuldade em incluir "todos os preditores relevantes". Um ponto forte do TMLE, no entanto, é que ele parece ajudar a avaliar a "suposição de positividade" de suporte adequado nos dados para estimar o parâmetro de destino neste contexto. O objetivo é chegar o mais próximo possível de um modelo realista dos dados.

2) O TMLE foi discutido anteriormente em Validação Cruzada . Não tenho conhecimento do uso generalizado de dados reais. O Google Scholar mostrou hoje 258 citações do que parece ser o relatório inicial , mas, à primeira vista, nenhuma parecia estar em grandes conjuntos de dados do mundo real. O artigo do Journal of Statistical Software no pacote R associado mostra apenas 27 citações do Google Scholar hoje. No entanto, isso não deve ser tomado como evidência sobre o valor do TMLE. Seu foco na obtenção de estimativas imparciais imparciais da "estimativa" de interesse real, geralmente um problema com estimativas de plug-in derivadas de modelos estatísticos padrão, parece potencialmente valioso.

1) A afirmação: "um modelo estatístico que não faz suposições é sempre verdadeiro" parece pretender ser um homem de palha, uma tautologia. Os dados são os dados. Eu assumo que existem leis do universo que permanecem consistentes dia após dia. O método TMLE presumivelmente contém suposições sobre convexidade no espaço de pesquisa e, conforme observado acima de sua aplicação em um contexto específico, pode exigir suposições adicionais.

Até o professor van der Laan concordaria que algumas suposições são necessárias. Minha opinião é que ele gostaria de minimizar o número de suposições e evitar aquelas que não são realistas. Se isso realmente exige desistir de modelos paramétricos, como ele parece afirmar, é a questão crucial.


Resposta muito boa. O livro Aprendizado direcionado é um bom lugar para aprender mais. Além da teoria, contém alguns estudos de caso.
NRH

12

Talvez eu tenha entendido errado, mas acho que você precisa recuar um pouco.

Acho que o argumento dele é o abuso de ferramentas de fácil acesso, sem nenhum conhecimento adicional. Isso também é válido para um teste t simples: basta alimentar o algoritmo com seus dados, obtendo p <0,05 e pensando que sua tese é verdadeira. Completamente errado. Você, é claro, precisa saber mais sobre seus dados.

Recuando ainda mais: não há nada como um modelo exato ( físico aqui). Mas alguns concordam muito bem com nossas medidas. A única coisa exata é matemática. O que não tem nada a ver com a realidade ou modelos dela . Todo o resto (e todo modelo da realidade) está "errado" (como citado com tanta frequência).

Mas o que significa "errado" e útil? Julgue você mesmo:

TODA a nossa alta tecnologia atual (computadores, foguetes, radioatividade etc.) se baseia nesses modelos errados. Talvez até calculado por simulações "erradas" com modelos "errados".
-> Concentre-se mais no "útil" em vez de no "errado";)

Mais explicitamente para suas perguntas:

  1. Não sei, desculpe!
  2. Sim. Um exemplo: na física de partículas, você deseja detectar determinadas partículas (por exemplo, elétrons, prótons etc.). Cada partícula deixa um traço característico no detector (e, portanto, nos dados), mas varia mesmo para a mesma partícula (por sua natureza). Hoje, a maioria das pessoas usa o aprendizado de máquina para atingir esse objetivo (foi uma enorme simplificação, mas é bem parecida com isso) e há um aumento na eficiência de 20% a 50% em comparação com as estatísticas manuais .
  3. Ninguém realmente reivindicou isso! Não faça conclusões erradas! (a: todos os modelos são inexatos eb: alguns são úteis. Não confunda as coisas)
  4. Não há nenhuma coisa como um modelo exato ( exceto em matemática, mas não realmente nas estatísticas como tendo pontos exatamente em uma linha reta e "ajustando" uma linha através dele pode ser exato ... mas isso é um caso especial desinteressante que nunca acontece) .
  5. Não sei :) Mas IMHO eu vejo isso mais como um "apenas porque toda criança pode usá-lo, nem todo mundo deveria" e não o usa cegamente.

Vou considerar seus pontos de vista, mas em (3) e (4), sugiro que você analise o artigo de van der Laan, bem como minha pergunta, porque o artigo diz claramente que ele não tem utilidade para modelos inexatos, e refere-se repetidamente ao "modelo exato". Então, sim, eu diria que alguém realmente disse isso. Eu concordo bastante com o que você diz sobre modelos, bem como com a aplicação mecânica de métodos; e então eu não acho que sou eu que você quer pedir para voltar atrás.
RVL

Sim para tudo. E, principalmente, eu pretendia que ele desse um passo para trás, com certeza;) eu acho que o que não mencionei, para construir modelos teóricos (matemáticos), é claro que você precisa de modelos "exatos". Portanto, para "inventar" melhores modelos e ferramentas estatísticas, você precisa de modelos determinísticos (ou exatos) como base. Mesmo o aprendizado direcionado em massa não precisa ser "inexato" nesse sentido, eu acho.
usar o seguinte código

6

Em econ, muito se fala da compreensão do 'processo de geração de dados'. Não tenho certeza do que exatamente se entende por modelo "exato", mas em econ pode ser o mesmo que um modelo "especificado corretamente".

Certamente, você deseja saber o máximo possível sobre o processo que gerou os dados antes de tentar um modelo, certo? Acho que a dificuldade vem de a) podemos não ter idéia do DGP real eb), mesmo sabendo o DGP real, seria intratável modelar e estimar (por várias razões).

Então, você faz suposições para simplificar as questões e reduzir os requisitos de estimativa. Você pode saber se suas suposições estão exatamente corretas? Você pode obter evidências a favor deles, mas na IMO é difícil ter certeza em alguns casos.

Eu tenho que filtrar tudo isso em termos de teoria estabelecida e também de praticidade. Se você faz uma suposição consistente com uma teoria e essa suposição compra melhor desempenho de estimativa (eficiência, precisão, consistência, o que for), não vejo razão para evitá-la, mesmo que torne o modelo 'inexato'.

Francamente, acho que o artigo pretende estimular aqueles que trabalham com dados a pensarem mais sobre todo o processo de modelagem. É claro que van der Laan faz suposições em seu trabalho . De fato, neste exemplo , van der Laan parece rejeitar qualquer preocupação com um modelo exato e, em vez disso, usa uma mistura de procedimentos para maximizar o desempenho. Isso me deixa mais confiante de que ele levantou a citação de Box com a intenção de impedir que as pessoas a usassem como uma fuga do difícil trabalho de entender o problema.

Vamos ser sinceros, o mundo está cheio de mau uso e abuso de modelos estatísticos. As pessoas aplicam cegamente o que sabem fazer e, pior ainda, outras frequentemente interpretam os resultados da maneira mais desejável. Este artigo é um bom lembrete para ter cuidado, mas acho que não devemos levá-lo ao extremo.

As implicações do exposto acima para suas perguntas:

  1. Concordo com outras pessoas neste post que definiram um modelo como um conjunto de suposições. Com essa definição, um modelo sem suposições não é realmente um modelo. Mesmo a análise exploratória de dados (ou seja, sem modelo) requer suposições. Por exemplo, a maioria das pessoas assume que os dados são medidos corretamente.
  2. Não sei sobre o TMLE, por si só, mas em economia há muitos artigos que usam a mesma filosofia subjacente de inferir sobre um efeito causal em uma amostra contrafactual não observada. Nesses casos, no entanto, receber um tratamento não é independente das outras variáveis ​​do modelo (ao contrário do TMLE) e, portanto, os economistas fazem uso extensivo da modelagem. Existem alguns estudos de caso para modelos estruturais, como este, em que os autores convenceram uma empresa a implementar seu modelo e encontraram bons resultados.
  3. Eu acho que todos os modelos são inexatos, mas, novamente, este termo é um pouco confuso. IMO, este é o cerne da citação da Box. Vou reafirmar meu entendimento sobre Box desta maneira: 'nenhum modelo pode capturar a essência exata da realidade, mas alguns modelos capturam uma variável de interesse; portanto, nesse sentido, você pode usá-los'.
  4. Eu abordei isso acima. Em suma, acho que não.
  5. Não tenho certeza. Eu gosto daqui.

5

Para abordar o ponto 3, a resposta, obviamente, é não. Praticamente todas as empresas humanas se baseiam em um modelo simplificado em algum momento: cozinhar, construir, relacionamentos interpessoais envolvem seres humanos agindo sobre algum tipo de dados + suposições. Ninguém jamais construiu um modelo que não pretendesse fazer uso. Afirmar o contrário é pedantismo ocioso.

É muito mais interessante e esclarecedor e útil perguntar quando modelos inexatos não são úteis, por que eles fracassam em sua utilidade e o que acontece quando contamos com modelos que acabam não sendo úteis. Qualquer pesquisador, seja na academia ou na indústria, precisa fazer essa pergunta com astúcia e com frequência.

Eu não acho que a pergunta possa ser respondida em geral, mas os princípios de propagação de erros informarão a resposta. Modelos inexatos quebram quando o comportamento que eles prevêem não reflete o comportamento no mundo real. Compreender como os erros se propagam por um sistema pode ajudar a entender quanta precisão é necessária na modelagem do sistema.

Por exemplo, uma esfera rígida geralmente não é um modelo ruim para uma bola de beisebol. Mas quando você está projetando a luva do apanhador, esse modelo o falha e o leva a projetar a coisa errada. Suas suposições simplificadoras sobre a física do beisebol se propagam através do seu sistema de luvas de beisebol e levam você a tirar conclusões erradas.


5

1) Que inferências estatísticas úteis podem ser feitas usando um modelo que não faz suposições?

Um modelo é, por definição, uma generalização do que você está observando que pode ser capturado por certos fatores causais que, por sua vez, podem explicar e estimar o evento que você está observando. Dado que todos esses algoritmos de generalização têm algum tipo de suposição subjacente. Não tenho certeza do que resta de um modelo se você não tiver nenhuma suposição. Eu acho que você fica com os dados originais e sem modelo.

2) Existe um estudo de caso, com dados importantes e reais no uso da probabilidade máxima direcionada? Esses métodos são amplamente utilizados e aceitos?

Eu não sei. A probabilidade máxima é usada o tempo todo. Os modelos Logit são baseados nesses e em muitos outros modelos. Eles não diferem muito do OLS padrão, onde você se concentra nas reduções da soma do quadrado dos resíduos. Não sei ao certo qual é a probabilidade máxima segmentada. E como ela difere da probabilidade máxima tradicional.

3) Todos os modelos inexatos são realmente inúteis?

Absolutamente não. Modelos inexatos podem ser muito úteis. Primeiro, eles contribuem para uma melhor compreensão ou explicação de um fenômeno. Isso deve valer para alguma coisa. Segundo, eles podem fornecer estimativas e previsões de descida com intervalo de confiança relevante para capturar a incerteza em torno de uma estimativa. Isso pode fornecer muitas informações sobre o que você está estudando.

A questão do "inexato" também levanta a questão da tensão entre parcimônia e super ajuste. Você pode ter um modelo simples com 5 variáveis ​​"inexatas", mas executa um bom trabalho ao capturar e explicar a tendência geral da variável dependente. Você pode ter um modelo mais complexo com 10 variáveis ​​"mais exatas" que a primeira (Quadrado R Ajustado mais alto, Erro Padrão mais baixo etc.). No entanto, este segundo modelo mais complexo pode realmente travar quando você o testar usando uma amostra de retenção. E, nesse caso, talvez o modelo "inexato" realmente tenha um desempenho muito melhor na amostra Hold Out. Isso acontece literalmente o tempo todo em econometria e eu suspeito em muitas outras ciências sociais. Cuidado com os modelos "exatos".

4) É possível saber que você tem o modelo exato, exceto em casos triviais?

Não é possível saber que você tem o modelo exato. Mas, é possível saber que você tem um modelo muito bom. As medidas dos critérios de informação (AIC, BIC, SIC) podem fornecer muitas informações, permitindo comparar e comparar o desempenho relativo de vários modelos. Além disso, o teste LINK também pode ajudar nesse sentido.

5) Se isso é muito baseado em opiniões e, portanto, fora de tópico, onde pode ser discutido? Porque o artigo do Dr. van der Laan definitivamente precisa de alguma discussão.

Eu acho que este é o fórum mais apropriado para discutir esse assunto como em qualquer outro lugar. Esta é uma questão bastante interessante para a maioria de nós.


5

(Não vejo a frase "modelo exato" no artigo (embora citada acima))

1) Que inferências estatísticas úteis podem ser feitas usando um modelo que não faz suposições?

Você tem que começar de algum lugar. Se isso é tudo que você tem (nada), pode ser um ponto de partida.

2) Existe um estudo de caso, com dados importantes e reais no uso da probabilidade máxima direcionada? Esses métodos são amplamente utilizados e aceitos?

Para responder à segunda pergunta, a Verossimilhança Máxima Alvejada aparece em 93/1143281 (~ 0,008%) dos artigos em arxiv.org. Portanto, não é provavelmente uma boa estimativa (sem suposições) para essa.

3) Todos os modelos inexatos são realmente inúteis?

Não. Às vezes, você se preocupa apenas com um aspecto de um modelo. Esse aspecto pode ser muito bom e o restante muito inexato.

4) É possível saber que você tem o modelo exato, exceto em casos triviais?

O melhor modelo é o que melhor responde à sua pergunta. Isso pode significar deixar algo de fora. O que você deseja evitar, da melhor maneira possível, é violação de suposição.

5) Happy hour . E as bebidas são mais baratas!

Acho o uso da palavra "exato" um pouco perturbador. Não é uma conversa muito estatística. Inexatidão? Variação? Obrigado D'us! É por isso que estamos todos aqui. Acho que a frase "Todos os modelos estão errados ..." está correta, mas apenas na empresa certa. Os estatísticos entendem o que isso significa, mas poucos outros entendem.


Bom argumento sobre a frase "modelo exato". Ele diz coisas sobre modelos "verdadeiros" e "reais" que são equivalentes, especialmente considerando o contexto e o tom do artigo, mas você está certo, a citação não é "exata" (trocadilho intencional).
SQLServerSteve

Minha culpa. Eu deveria tê-lo citado corretamente.
RVL

Eu sinto que tentar atingir o modelo verdadeiro ou real erra o objetivo do exercício. Eu acho que o que ele realmente está tentando discutir são modelos ruins.
mandata 5/05

Sim, o artigo faz muitos pontos positivos, mas ele intercala muitos comentários extremos como "É um absurdo completo afirmar que todos os modelos estão errados", quando, na verdade, estão todos errados até certo ponto. Não faz sentido dizer o contrário. Ele definitivamente está apostando em uma posição extrema. Rvl tinha toda a razão de trazer isso à tona e chamá-lo (não se preocupe com a frase Ryl, o importante é que você captou o significado corretamente).
SQLServerSteve

4

O referido artigo parece-me um artigo honesto, mas político, uma polêmica sincera . Como tal, contém muitas passagens apaixonadas que são absurdas científicas, mas que, no entanto, podem ser eficazes para estimular conversas e deliberações úteis sobre assuntos importantes.

Há muitas respostas boas aqui, então deixe-me citar algumas linhas do artigo para mostrar que o Prof. Laan certamente não está usando nenhum tipo de "modelo exato" em seu trabalho (e, a propósito, quem diz que o "exato modelo "é um conceito equivalente ao mecanismo real de geração de dados?)

Citações (negrito, ênfase minha)

"Depois de propormos um modelo estatístico realista , precisamos extrair de nossos colaboradores o que estimar melhor representa a resposta para sua pergunta científica de interesse " .

Comentário: "realista" é tão removido de "exato" quanto Marte é da Terra. Ambos orbitam o Sol, portanto, para alguns propósitos, não importa qual planeta se escolhe. Para outros fins, isso importa. Também "melhor" é um conceito relativo. "Exato" não é.

"Os estimadores de uma estimativa definidos em um modelo estatístico honesto não podem ser sensivelmente estimados com base em modelos paramétricos ...

Comentário: Honestidade é realmente a melhor política, mas certamente não é garantido que seja "exato". Além disso, "estimativa sensata" parece ser um resultado muito diluído se alguém usar o "modelo exato".

" Em resposta a ter que resolver esses problemas difíceis de estimativa da melhor maneira possível , desenvolvemos uma abordagem estatística geral ... "

Comentário: OK. Estamos "fazendo o melhor que podemos". Como quase todo mundo está pensando em si mesmo. Mas "o melhor que podemos" não é "exato".


2

Vou abordar isso a partir da direção alternativa da filosofia, à luz dos princípios realmente úteis do Gerenciamento da Incerteza discutidos nos livros de George F. Klir sobre conjuntos difusos. Não posso dar exatidão a van der Laan, mas posso fornecer um argumento um tanto exaustivo do motivo pelo qual seu objetivo é logicamente impossível; isso exigirá uma longa discussão que faça referência a outros campos, então tenha paciência comigo.

Klir e seus co-autores dividem a incerteza em vários subtipos, como não-especificidade (ou seja, quando você tem um conjunto desconhecido de alternativas, tratado por meios como a Função Hartley); imprecisão nas definições (isto é, a "imprecisão" modelada e quantificada em conjuntos difusos); conflito ou discórdia em evidência (abordada na Teoria das Evidências de Dempster-Shafer); além de teoria das probabilidades, teoria das possibilidades e incerteza de medição, onde o objetivo é ter um escopo adequado para capturar as evidências relevantes, minimizando os erros. Eu vejo toda a caixa de ferramentas de técnicas estatísticas como um meio alternativo de dividir a incerteza de maneiras diferentes, como um cortador de biscoitos; os intervalos de confiança e os valores-p colocam a incerteza em quarentena de uma maneira, enquanto medidas como a Entropia de Shannon a reduzem de outro ângulo. O que eles podem ' no entanto, é eliminá-lo completamente. Para alcançar um "modelo exato" do tipo que van der Laan parece descrever, precisaríamos reduzir todos esses tipos de incerteza para zero, para que não haja mais o que particionar. Um modelo verdadeiramente "exato" sempre teria valores de probabilidade e possibilidade de 1, pontuações não específicas de 0 e nenhuma incerteza nas definições de termos, faixas de valores ou escalas de medição. Não haveria discórdia em fontes alternativas de evidência. As previsões feitas por esse modelo sempre seriam 100% precisas; modelos preditivos essencialmente dividem sua incerteza no futuro, mas não há mais o que adiar. A perspectiva da incerteza tem algumas implicações importantes: do tipo que van der Laan parece descrever, precisaríamos reduzir todos esses tipos de incerteza para zero, para que não haja mais o que particionar. Um modelo verdadeiramente "exato" sempre teria valores de probabilidade e possibilidade de 1, pontuações não específicas de 0 e nenhuma incerteza nas definições de termos, faixas de valores ou escalas de medição. Não haveria discórdia em fontes alternativas de evidência. As previsões feitas por esse modelo sempre seriam 100% precisas; modelos preditivos essencialmente dividem sua incerteza no futuro, mas não há mais o que adiar. A perspectiva da incerteza tem algumas implicações importantes: do tipo que van der Laan parece descrever, precisaríamos reduzir todos esses tipos de incerteza para zero, para que não haja mais o que particionar. Um modelo verdadeiramente "exato" sempre teria valores de probabilidade e possibilidade de 1, pontuações não específicas de 0 e nenhuma incerteza nas definições de termos, faixas de valores ou escalas de medição. Não haveria discórdia em fontes alternativas de evidência. As previsões feitas por esse modelo sempre seriam 100% precisas; modelos preditivos essencialmente dividem sua incerteza no futuro, mas não há mais o que adiar. A perspectiva da incerteza tem algumas implicações importantes: Um modelo verdadeiramente "exato" sempre teria valores de probabilidade e possibilidade de 1, pontuações não específicas de 0 e nenhuma incerteza nas definições de termos, faixas de valores ou escalas de medição. Não haveria discórdia em fontes alternativas de evidência. As previsões feitas por esse modelo sempre seriam 100% precisas; modelos preditivos essencialmente dividem sua incerteza no futuro, mas não há mais o que adiar. A perspectiva da incerteza tem algumas implicações importantes: Um modelo verdadeiramente "exato" sempre teria valores de probabilidade e possibilidade de 1, pontuações não específicas de 0 e nenhuma incerteza nas definições de termos, faixas de valores ou escalas de medição. Não haveria discórdia em fontes alternativas de evidência. As previsões feitas por esse modelo sempre seriam 100% precisas; modelos preditivos essencialmente dividem sua incerteza no futuro, mas não há mais o que adiar. A perspectiva da incerteza tem algumas implicações importantes: As previsões feitas por esse modelo sempre seriam 100% precisas; modelos preditivos essencialmente dividem sua incerteza no futuro, mas não há mais o que adiar. A perspectiva da incerteza tem algumas implicações importantes: As previsões feitas por esse modelo sempre seriam 100% precisas; modelos preditivos essencialmente dividem sua incerteza no futuro, mas não há mais o que adiar. A perspectiva da incerteza tem algumas implicações importantes:

• Essa ordem alta não é apenas fisicamente implausível, mas na verdade logicamente impossível. Obviamente, não podemos alcançar escalas de medição perfeitamente contínuas com graus infinitesimais, reunindo observações finitas usando equipamento científico físico falível; sempre haverá alguma incerteza em termos de escala de medição. Da mesma forma, sempre haverá alguma imprecisão em torno das próprias definições que empregamos em nossos experimentos. O futuro também é inerentemente incerto, de modo que as previsões supostamente perfeitas de nossos modelos "exatos" deverão ser tratadas como imperfeitas até prova em contrário - o que levaria uma eternidade.

• Para piorar a situação, nenhuma técnica de medição está 100% livre de erros em algum momento do processo, nem pode ser suficientemente abrangente para abranger todas as informações possivelmente conflitantes do universo. Além disso, a eliminação de possíveis variáveis ​​de confusão e a independência condicional completa não podem ser comprovadas completamente sem examinar todos os outros processos físicos que afetam aquele que estamos examinando, assim como aqueles que afetam esses processos secundários e assim por diante.

• A exatidão é possível apenas na lógica pura e em seu subconjunto, na matemática, precisamente porque as abstrações são divorciadas das preocupações do mundo real, como essas fontes de incerteza. Por exemplo, por pura lógica dedutiva, podemos provar que 2 + 2 = 4 e qualquer outra resposta são 100% incorretas. Também podemos fazer previsões perfeitamente precisas de que sempre será igual a 4. Esse tipo de precisão só é possível nas estatísticas quando lidamos com abstrações. A estatística é incrivelmente útil quando aplicada ao mundo real, mas o que a torna útil injeta pelo menos algum grau de incerteza inevitável, tornando-a inexata. É um dilema inevitável.

• Além disso, Peter Chu levanta limitações adicionais na seção de comentários do artigo rvl vinculada a. Ele coloca isso melhor do que eu:

"Essa superfície de solução de problemas difíceis de NP é geralmente repleta de ótimos locais e, na maioria dos casos, é inviável para resolver o problema, ou seja, encontrar a solução ideal global em geral. Portanto, cada modelador está usando algumas técnicas de modelagem (heurísticas), na melhor das hipóteses, encontrar soluções ótimas locais adequadas no vasto espaço de solução dessa complexa função objetivo ".

• Tudo isso significa que a própria ciência não pode ser perfeitamente precisa, embora van der Laan pareça falar dessa maneira em seu artigo; o método científico como processo abstrato é precisamente definível, mas a impossibilidade de medição exata universal e perfeita significa que ele não pode produzir modelos exatos sem incerteza. A ciência é uma ótima ferramenta, mas tem limites.

• A partir daí, piora: mesmo que fosse possível medir exatamente todas as forças que atuam em todos os quarks e glúons constituintes do universo, algumas incertezas ainda permaneceriam. Primeiro, qualquer previsão feita por esse modelo completo ainda seria incerta devido à existência de múltiplas soluções para equações quânticas e polinômios mais altos. Em segundo lugar, não podemos ter certeza absoluta de que o extremo ceticismo incorporado na pergunta clássica "talvez tudo isso seja um sonho ou uma alucinação" não seja um reflexo da realidade - nesse caso, todos os nossos modelos estão realmente errados da pior maneira possível . Isso é basicamente equivalente a uma interpretação ontológica mais extrema das formulações epistemológicas originais de filosofias como fenomenalismo, idealismo e solipsismo.

• Na ortodoxia clássica de 1909GK Chesterton observou que as versões extremas dessas filosofias podem de fato ser julgadas, mas se elas levam ou não seus crentes a instituições mentais; o solipsismo ontológico, por exemplo, é na verdade um marcador de esquizofrenia, assim como alguns de seus primos. O melhor que podemos alcançar neste mundo é eliminar a dúvida razoável; dúvidas irracionais desse tipo inquietante não podem ser rigorosamente eliminadas, mesmo em um mundo hipotético de modelos exatos, medições exaustivas e sem erros. Se van der Laan pretende nos livrar de dúvidas irracionais, ele está brincando com fogo. Ao se agarrar à perfeição, o bem finito que podemos fazer deslizará por entre os dedos; somos criaturas finitas que existem em um mundo infinito, o que significa que o tipo de conhecimento completo e absolutamente certo de que van der Laan defende está permanentemente além do nosso alcance. A única maneira de alcançar esse tipo de certeza é recuando desse mundo para os limites mais estreitos do perfeitamente abstrato que chamamos de "matemática pura". Isso não significa, no entanto, que uma retirada para a matemática pura seja a solução para eliminar a incerteza. Essa foi essencialmente a abordagem adotada pelos sucessores de Ludwig Wittgenstein (1889-1951), que drenou sua filosofia de positivismo lógico de qualquer senso comum que tivesse ao rejeitar completamente a metafísica e se retirar inteiramente para a matemática e o cientismo puros, bem como para o ceticismo extremo. superespecialização e ênfase excessiva na precisão sobre a utilidade. No processo, eles destruíram a disciplina da filosofia, dissolvendo-a em um pântano de discussões sobre definições e observação do umbigo, tornando-a irrelevante para o restante da academia. Isso basicamente matou toda a disciplina, que ainda estava na vanguarda do debate acadêmico até o início do século XX, a ponto de ainda atrair a atenção da mídia e alguns de seus líderes serem nomes conhecidos. Eles entenderam uma explicação perfeita e polida do mundo, que escorregou por entre os dedos - assim como nos pacientes mentais dos quais GKC falou. Ele também escapará do alcance de van der Laan, que já refutou seu próprio argumento, conforme discutido abaixo. A busca de modelos muito exatos não é apenas impossível; pode ser perigoso, se levado ao ponto de obsessão derrotista. A busca desse tipo de pureza raramente termina bem; muitas vezes é tão autodestrutivo quanto os germófobos que esfregam as mãos com tanta força que acabam com feridas infectadas. Isto' s reminiscentes de Ícaro tentando roubar fogo do Sol: como seres finitos, podemos ter apenas uma compreensão finita das coisas. Como Chesterton também diz na Ortodoxia: "É o lógico que procura colocar os céus em sua cabeça. E é sua cabeça que se divide".

À luz do exposto, deixe-me abordar algumas das questões específicas listadas pelo rvl:

1) Um modelo sem nenhuma premissa é a) não ciente de suas próprias premissas ou b) deve ser claramente separado de considerações que introduzam incerteza, como erros de medição, respondendo por todas as variáveis ​​possíveis de confusão, escalas de medição perfeitamente contínuas e gostar.

2) Ainda sou novato no que diz respeito à estimativa de máxima verossimilhança (MLE), por isso não posso comentar sobre a mecânica da probabilidade do alvo, exceto para apontar o óbvio: a probabilidade é apenas isso, uma probabilidade, não uma certeza . Derivar um modelo exato requer a eliminação completa da incerteza, que a lógica probabilística raramente pode fazer, se é que alguma vez.

3) Claro que não. Como todos os modelos mantêm alguma incerteza e, portanto, são inexatos (exceto nos casos de matemática pura, divorciados das medições físicas do mundo real), a raça humana não teria sido capaz de fazer nenhum progresso tecnológico até o momento - ou, de fato, qualquer outro progresso no momento. tudo. Se os modelos inexatos fossem sempre inúteis, estaríamos conversando em uma caverna, em vez de um feito incrível de tecnologia chamado Internet, que foi possível graças à modelagem inexata.

Ironicamente, o próprio modelo de van der Laan é um exemplo primário de inexatidão. Seu próprio artigo esboça um modelo de como o campo da estatística deve ser gerenciado, com o objetivo de modelos exatos; ainda não há números vinculados a esse "modelo", nenhuma medida de quão inexatos ou inúteis a maioria dos modelos está agora em sua opinião, nenhuma quantificação de quão longe estamos de sua visão, mas suponho que alguém possa planejar testes para essas coisas . No entanto, como está, seu modelo é inexato. Se não for útil, significa que seu argumento está errado; se for útil, derrota seu ponto principal de que modelos inexatos não são úteis. De qualquer maneira, ele refuta seu próprio argumento.

4) Provavelmente não, porque não podemos ter informações completas para testar nosso modelo, pelas mesmas razões pelas quais não podemos derivar um modelo exato em primeiro lugar. Um modelo exato exigiria, por definição, uma previsibilidade perfeita, mas mesmo que os 100 primeiros testes sejam 100% precisos, o 101º poderá não. Depois, há toda a questão das escalas de medição infinitesimais. Depois disso, entramos em todas as outras fontes de incerteza, que contaminarão qualquer avaliação da Torre de Marfim em nosso modelo.

5) Para abordar a questão, eu tive que colocá-la no contexto mais amplo de questões filosóficas muito maiores que geralmente são controversas, então não acho possível discutir isso sem entrar em opiniões (observe como isso por si só é outro fonte de incerteza), mas você está certo, este artigo merece uma resposta. Muito do que ele diz sobre outros tópicos está no caminho certo, como a necessidade de tornar as estatísticas relevantes para o Big Data, mas há um extremismo impraticável misturado que deve ser corrigido.


11
Quem são esses "sucessores de Wittgenstein" que "destruíram a disciplina da filosofia" !? A tendência da filosofia analítica do pós-guerra - pense nos últimos Wittgenstein, Austin, Quine, Kenny, Goodman, Lewis, Davidson, Rorty - parece ser a rejeição dos princípios do positivismo lógico, a reabilitação da metafísica e uma retirada do cientismo. (Os comentários de Rorty sobre Nietzsche e Loyola sugerem que ele pode ter concordado com o argumento de Chesterton.) Quanto ao motivo pelo qual Kim Kardashian é um nome familiar, em vez de Saul Kripke, suspeito que outras tendências estejam em funcionamento desde o início do século XX.
Scortchi - Restabelece Monica

Esses reformadores do pós-guerra são desconhecidos fora de seu campo precisamente porque vieram depois que a disciplina recuou nos anos 20/30 (após um declínio de séculos que os positivistas lógicos extremos simplesmente aceleraram) em uma irrelevância da qual nunca se recuperaram. O dano já havia sido feito. Na década de 50, outras disciplinas acadêmicas não estavam mais procurando filosofia de liderança e, desde então, a tratam com desprezo total, por pedantismo fora de contato e com detalhes. Eu gostaria que isso não fosse verdade. A imagem pode não refletir a realidade da filosofia, mas a mancha ainda permanece.
SQLServerSteve

Eu ficaria feliz em discutir isso no bate-papo da próxima semana, se você tiver tempo, não quero entrar nessa tangente, mas suspeito que nossas posições não estão tão distantes. Eu acho que você tem toda a razão, o movimento que levou a Kardashian etc. está em andamento desde o início do século 20 - precisamente no momento em que a disciplina da filosofia entrou em eclipse (se merecia ser outra questão; eu considero isso altamente prático e gostaria que ainda fosse altamente considerado).
SQLServerSteve

Comentários não são para discussão prolongada; esta conversa foi movida para o bate-papo .
Scortchi - Restabelece Monica
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.