O que se pretende com "Deixe os dados falarem por si"?

Ao ler o artigo a seguir , deparei-me com a seguinte declaração:

Como mencionado, ele é frequentemente apresentado sem nenhuma referência a modelos probabilísticos, de acordo com a idéia de Benzecri [1973] de "deixar os dados falarem por si".

(citação é de JP Benzécri. L'analyse des données. Tomo II: L'analyse des correspondences. Dunod, 1973.)

Pelo modo como estou lendo este artigo, parece que "deixe os dados falarem por si" significa algo como considerar várias medidas entre os dados, sem levar em consideração uma função de probabilidade ou processo de geração de dados .

Embora tenha ouvido a citação "deixe os dados falarem por si" antes, não pensei muito no que está implícito. Minha interpretação acima é o que está canonicamente implícito nessa citação?

eda quotation

— Cliff AB
fonte

Deixe a citação falar por si.

— Mark L. Stone

@ MarkL.Stone: Muito parecido com os dados, citações são melhor compreendidos com o contexto

— Cliff AB

Respostas:

A interpretação depende do contexto, mas há alguns contextos comuns em que isso ocorre. A afirmação é freqüentemente usada na análise bayesiana para enfatizar o fato de que gostaríamos que a distribuição posterior na análise fosse robusta às suposições anteriores, de modo que o efeito dos dados "domine" a posterior. De maneira mais geral, a citação geralmente significa que queremos que nosso modelo estatístico esteja em conformidade com a estrutura dos dados, em vez de forçá-los a uma interpretação que seja uma suposição estrutural não verificável do modelo.

A citação específica a que você está se referindo é complementada pela citação adicional: "O modelo deve seguir os dados, e não o contrário" (traduzido de Benzécri J (1973) L'Analyse des Données. Tomo II: L'Analyse des Correspondences . Dunod, p. 6). Benzécri argumentou que os modelos estatísticos deveriam extrair estrutura dos dados, em vez de impor estrutura. Ele considerou o uso de métodos gráficos exploratórios muito importante para permitir ao analista "deixar os dados falarem".

— Ben - Restabelecer Monica
fonte

(+1) Com isso em mente, suponho que a citação no primeiro artigo vinculado implique está implicando que esses métodos observem a estrutura de covariância empírica, em vez de uma estrutura de dependência baseada em modelo.

— Cliff AB

Sim, acho que está certo. Vale ressaltar que Benzécri alegou que a análise dos dados era basicamente equivalente à decomposição de autogênio na PCA. Ele é citado como tendo dito: "apesar de tudo, fazer uma análise de dados, em boa matemática, está simplesmente pesquisando autovetores; toda a ciência (ou a arte) dela é encontrar a matriz certa para diagonalizar". (ver Husson et al 2016 , p. 2)

— Ben - Reinstate Monica

Ha, essa é uma afirmação muito interessante para ele fazer. Esse contexto faz com que a citação no artigo faça muito mais sentido.

— Cliff AB

Sim, é muito extremo!

— Ben - Restabelece Monica

(+1). Embora, à primeira vista, a citação pareça difícil de discordar (por que "impor" algo seria uma coisa boa, afinal?), A maldição da dimensionalidade nas estatísticas não paramétricas, por exemplo, mostra que é, por assim dizer, É mais fácil escutar os dados falando por si quando estamos ouvindo através de um modelo paramétrico.

— Christoph Hanck

Por volta de 2005, quando "Data Mining" foi a mais recente ameaça à profissão de estatística, lembro-me de ver um pôster com "Data Mining Principles", um dos quais era "deixar os dados falarem" (não consigo lembrar se "por si só" estava incluído). Se você pensa em algoritmos que podem ser considerados "Data Mining", apriori e particionamento recursivo, dois algoritmos que podem ser motivados sem suposições estatísticas e resultar em resumos bastante básicos do conjunto de dados subjacente.

A @Ben entende mais da história da frase do que eu, mas pensando na citação conforme citada no artigo:

O MCA pode ser visto como a contrapartida do PCA para dados categóricos e envolve a redução da dimensionalidade dos dados para fornecer um subespaço que melhor represente os dados no sentido de maximizar a variabilidade dos pontos projetados. Como mencionado, ele é frequentemente apresentado sem qualquer referência a modelos probabilísticos, de acordo com a idéia de Benz´ecri [1973] de “deixar os dados falarem por si”.

parece-me que o procedimento do MCA se assemelha a particionamento apriori ou recursivo (ou inferno, a média aritmética para esse assunto), pois pode ser motivado sem qualquer modelagem e é uma operação mecânica em um conjunto de dados que faz sentido com base em alguns primeiros princípios.

Existe um espectro de deixar os dados falarem. Modelos totalmente bayesianos com fortes antecedentes estariam em uma extremidade. Modelos não paramétricos freqüentistas estariam mais próximos do outro lado.

— Ben Ogorek
fonte