Há rumores há anos que o Google usa todos os recursos disponíveis na construção de seus algoritmos preditivos. Até o momento, no entanto, não houve isenções de responsabilidade, explicações ou documentos técnicos que esclarecessem e / ou contestassem esse boato. Nem mesmo suas patentes publicadas ajudam no entendimento. Como resultado, ninguém externo ao Google sabe o que está fazendo, pelo que sei.
/ * Atualização em setembro de 2019, um evangelista do Google Tensorflow registrou uma apresentação ao afirmar que os engenheiros do Google avaliam regularmente mais de 5 bilhões de parâmetros para a versão atual do PageRank . * /
Como observa o OP, um dos maiores problemas na modelagem preditiva é a fusão entre o teste clássico de hipóteses e a especificação cuidadosa do modelo versus a mineração pura de dados. Os treinados classicamente podem ser bastante dogmáticos sobre a necessidade de "rigor" no design e desenvolvimento de modelos. O fato é que, quando confrontado com um grande número de preditores candidatos e vários alvos possíveis ou variáveis dependentes, a estrutura clássica não funciona, mantém ou fornece orientação útil. Inúmeros trabalhos recentes descrevem esse dilema do brilhante artigo de Chattopadhyay e Lipson Data Smashing: Descobrindo a Ordem Espreita nos Dados http://rsif.royalsocietypublishing.org/content/royinterface/11/101/20140826.full.pdf
O principal gargalo é que a maioria dos algoritmos de comparação de dados hoje conta com um especialista humano para especificar quais 'recursos' dos dados são relevantes para comparação. Aqui, propomos um novo princípio para estimar a similaridade entre as fontes de fluxos de dados arbitrários, usando nem conhecimento de domínio nem aprendizado.
Ao artigo da AER do ano passado sobre Problemas de Política de Previsão por Kleinberg, et al. https://www.aeaweb.org/articles?id=10.1257/aer.p20151023, que defende a mineração e a previsão de dados como ferramentas úteis na formulação de políticas econômicas, citando casos em que "a inferência causal não é central ou mesmo necessária. "
O fato é que a pergunta maior, de US $ 64.000, é a ampla mudança de pensamento e os desafios para a estrutura clássica de teste de hipóteses implícita, por exemplo, neste simpósio do Edge.org sobre pensamento científico "obsoleto" https://www.edge.org/ respostas / que idéia científica está pronta para a aposentadoria , bem como este artigo recente de Eric Beinhocker sobre a "nova economia", que apresenta algumas propostas radicais para integrar disciplinas amplamente diferentes, como economia comportamental, teoria da complexidade, modelo preditivo desenvolvimento, rede e teoria de portfólio como plataforma para implementação e adoção de políticas https://evonomics.com/the-deep-and-profound-changes-in-economics-thinking/Desnecessário dizer que essas questões vão muito além das preocupações econômicas e sugerem que estamos passando por uma mudança fundamental nos paradigmas científicos. As visões inconstantes são tão fundamentais quanto as distinções entre reducionista, a Navalha de Occam, como a construção de modelos, e o amplo Princípio da Plenitude de Epicurus, ou várias explicações que afirmam que, se várias descobertas explicam alguma coisa, retenha todas elas ... https: // pt. wikipedia.org/wiki/Principle_of_plenitude
É claro que caras como Beinhocker não têm nenhum ônus prático, nas preocupações das trincheiras com relação a soluções estatísticas aplicadas a esse paradigma em evolução. Com as perguntas minuciosas da seleção variável de dimensão ultra-alta, o OP é relativamente inespecífico em relação a abordagens viáveis para a construção de modelos que podem alavancar, por exemplo, Lasso, LAR, algoritmos passo a passo ou "modelos de elefantes" que usam todas as informações disponíveis. A realidade é que, mesmo com a AWS ou um supercomputador, você não pode usar todas as informações disponíveis ao mesmo tempo - simplesmente não há RAM suficiente para carregar tudo. O que isso significa? Soluções alternativas foram propostas, por exemplo, a descoberta da NSF em conjuntos de dados complexos ou maciços: temas estatísticos comuns"dividir e conquistar" algoritmos para mineração maciça de dados, por exemplo, artigo de Wang, et al., Pesquisa de métodos estatísticos e computação para big data http://arxiv.org/pdf/1502.07989.pdf , bem como Leskovec, et al. book Mineração de conjuntos de dados maciços http://www.amazon.com/Mining-Massive-Datasets-Jure-Leskovec/dp/1107077230/ref=sr_1_1?ie=UTF8&qid=1464528800&sr=8-1&keywords=Mining+of+Massive+Datasets
Atualmente, existem literalmente centenas, senão milhares de trabalhos, que lidam com vários aspectos desses desafios, todos propondo mecanismos analíticos muito diferentes como o núcleo dos algoritmos de “dividir e conquistar”; modelos não supervisionados de "aprendizado profundo"; teoria da matriz aleatória aplicada à construção maciça de covariância; Modelos de tensores bayesianos para regressão logística supervisionada clássica e muito mais. Quinze anos atrás, o debate se concentrou amplamente em questões relativas aos méritos relativos das soluções hierárquicas bayesianas versus modelos de misturas finitas freqüentes. Em um artigo abordando essas questões, Ainslie, et al. http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.197.788&rep=rep1&type=pdfchegou à conclusão de que as diferentes abordagens teóricas, na prática, produziram resultados amplamente equivalentes, com exceção de problemas envolvendo dados esparsos e / ou de alta dimensão, nos quais os modelos de HB tinham a vantagem. Hoje, com o advento das soluções alternativas de D&C, qualquer modelo de arbitragem que a HB possa ter desfrutado historicamente está sendo eliminado.
A lógica básica dessas soluções alternativas de D&C são, em geral, extensões da famosa técnica de floresta aleatória de Breiman, que se baseava na reamostragem inicializada de observações e recursos. Breiman fez seu trabalho no final dos anos 90 em um único CPU quando dados massivos significaram algumas dezenas de shows e alguns milhares de recursos. Nas plataformas massivamente paralelas de múltiplos núcleos de hoje, é possível executar algoritmos analisando terabytes de dados contendo dezenas de milhões de recursos, criando milhões de mini-modelos "RF" em poucas horas.
Há várias questões importantes saindo disso tudo. É preciso se preocupar com a perda de precisão devido à natureza aproximada dessas soluções alternativas. Esta questão foi abordada por Chen e Xie em seu artigo, Uma abordagem de divisão e conquista para análise de dados extraordinariamente grandes http://dimacs.rutgers.edu/TechnicalReports/TechReports/2012/2012-01-01.pdf, onde eles concluem que as aproximações são indistinguivelmente diferentes dos modelos de "informações completas".
Uma segunda preocupação que, até onde eu sei, não foi adequadamente abordada pela literatura, tem a ver com o que é feito com os resultados (ou seja, os "parâmetros") de potencialmente milhões de mini-modelos preditivos, uma vez que as soluções alternativas foram enrolados e resumidos. Em outras palavras, como se executa algo tão simples quanto "pontuar" novos dados com esses resultados? Os coeficientes do mini-modelo devem ser salvos e armazenados ou simplesmente é executado novamente o algoritmo d & c em novos dados?
Em seu livro, Numbers Rule Your World , Kaiser Fung descreve o dilema enfrentado pela Netflix quando apresentado com um conjunto de apenas 104 modelos entregues pelos vencedores de sua competição. Os vencedores haviam realmente minimizado o MSE contra todos os outros concorrentes, mas isso se traduziu em apenas uma melhoria de várias casas decimais na precisão da escala de classificação do tipo Likert de 5 pontos usada por seu sistema de recomendação de filmes. Além disso, a manutenção de TI necessária para esse conjunto de modelos custa muito mais do que qualquer economia vista com a "melhoria" na precisão do modelo.
Depois, há toda a questão de saber se a "otimização" é possível com informações dessa magnitude. Por exemplo, Emmanuel Derman, físico e engenheiro financeiro, em seu livro My Life as a Quant sugere que a otimização é um mito insustentável, pelo menos na engenharia financeira.
Finalmente, questões importantes sobre a importância relativa dos recursos com um grande número de recursos ainda precisam ser abordadas.
Não há respostas fáceis para perguntas sobre a necessidade de seleção de variáveis e os novos desafios abertos pelas atuais soluções epicuristas ainda precisam ser resolvidas. O ponto principal é que somos todos cientistas de dados agora.
**** EDIT ***
Referências
Chattopadhyay I, Lipson H. 2014 Smashing de dados: descobrindo a ordem oculta dos dados. JR Soc. Interface 11: 20140826.
http://dx.doi.org/10.1098/rsif.2014.0826
Kleinberg, Jon, Jens Ludwig, Sendhil Mullainathan e Ziad Obermeyer. 2015. "Problemas da política de previsão". American Economic Review, 105 (5): 491-95. DOI: 10.1257 / aer.p20151023
Edge.org, 2014 Pergunta anual: QUE IDÉIA CIENTÍFICA ESTÁ PRONTA PARA APOSENTAR?
https://www.edge.org/responses/what-scientific-idea-is-ready-for-retirement
Eric Beinhocker, Como as profundas mudanças na economia tornam irrelevantes os debates sobre esquerda versus direita, 2016, Evonomics.org.
https://evonomics.com/the-deep-and-profound-changes-in-economics-thinking/
Princípio Epicurus de múltiplas explicações: mantenha todos os modelos. Wikipedia
https://www.coursehero.com/file/p6tt7ej/Epicurus-Principle-of-Multiple-Explanations-Keep-all-models-that-are-consistent/
NSF, descoberta em conjuntos de dados complexos ou maciços: temas estatísticos comuns, um workshop financiado pela National Science Foundation, de 16 a 17 de outubro de 2007
https://www.nsf.gov/mps/dms/documents/DiscoveryInComplexOrMassiveDatasets.pdf
Métodos Estatísticos e Computação para Big Data, Documento de Trabalho de Chun Wang, Ming-Hui Chen, Elizabeth Schifano, Jing Wu e Jun Yan, 29 de outubro de 2015
http://arxiv.org/pdf/1502.07989.pdf
Jure Leskovec, Anand Rajaraman, Jeffrey David Ullman, Mineração de conjuntos de dados maciços, Cambridge University Press; 2 edição (29 de dezembro de 2014) ISBN: 978-1107077232
Matrizes de Covariância de Amostras Grandes e Análise de Dados de Alta Dimensão (Série Cambridge de Matemática Estatística e Probabilística), de Jianfeng Yao, Shurong Zheng, Zhidong Bai, Cambridge University Press; 1 edição (30 de março de 2015) ISBN: 978-1107065178
RICK L. ANDREWS, ANDREW AINSLIE e IMRAN S. CURRIM, uma comparação empírica de modelos Logit Choice com representações discretas versus contínuas de heterogeneidade, Journal of Marketing Research, 479 vol. XXXIX (novembro de 2002), 479–487
http://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.197.788&rep=rep1&type=pdf
Uma abordagem de divisão e conquista para análise de dados extraordinariamente grandes, Xueying Chen e Minge Xie, Relatório Técnico DIMACS 2012-01, janeiro de 2012
http://dimacs.rutgers.edu/TechnicalReports/TechReports/2012/2012-01.pdf
Kaiser Fung, números governam seu mundo: a influência oculta das probabilidades e estatísticas sobre tudo o que você faz, educação McGraw-Hill; 1 edição (15 de fevereiro de 2010) ISBN: 978-0071626538
Emmanuel Derman, Minha vida como quant: reflexões sobre física e finanças, Wiley; 1 edição (11 de janeiro de 2016) ISBN: 978-0470192733
* Atualização em novembro de 2017 *
O livro de 2013 de Nathan Kutz, Modelagem Orientada a Dados e Computação Científica: Métodos para Sistemas Complexos e Big Data é uma excursão matemática e focada no PDE na seleção de variáveis, bem como ferramentas e métodos de redução de dimensão. Uma excelente introdução de 1 hora ao seu pensamento pode ser encontrada neste vídeo do Youtube de junho de 2017 Descoberta orientada por dados de sistemas dinâmicos e PDEs . Nele, ele faz referências aos últimos desenvolvimentos neste campo. https://www.youtube.com/watch?feature=youtu.be&v=Oifg9avnsH4&app=desktop