A revista Science endossou as análises do Garden of Forking Pathes?


29

A ideia da análise adaptativa dos dados é que você altere seu plano para analisar os dados à medida que aprende mais sobre eles. No caso da análise exploratória de dados (EDA), geralmente é uma boa ideia (você geralmente procura padrões imprevistos nos dados), mas, para um estudo confirmatório, isso é amplamente aceito como um método de análise muito defeituoso (a menos que todos as etapas são claramente definidas e adequadamente planejadas em avançado).

Dito isto, a análise adaptativa dos dados é tipicamente quantos pesquisadores realmente conduzem suas análises, para grande consternação dos estatísticos. Como tal, se alguém pudesse fazer isso de uma maneira estatística válida, isso revolucionaria a prática estatística.

O seguinte artigo da Science afirma ter encontrado um método para fazer isso (peço desculpas pelo paywall, mas se você estiver em uma universidade, provavelmente terá acesso): Dwork et al, 2015, O material reutilizável: Preservando a validade na análise de dados adaptativa .

Pessoalmente, sempre fui cético em relação a artigos de estatística publicados na Science , e este não é diferente. De fato, depois de ler o artigo duas vezes, incluindo o material suplementar, não consigo entender (de maneira alguma) por que os autores afirmam que seu método impede o excesso de ajuste.

Meu entendimento é que eles têm um conjunto de dados de validação, que serão reutilizados. Eles parecem reivindicar "distorcendo" a saída da análise confirmatória no conjunto de dados de validação; o excesso de ajuste será impedido (vale a pena notar que a distorção parece estar apenas adicionando ruído se a estatística calculada nos dados de treinamento estiver suficientemente longe da estatística calculada nos dados de validação ). Até onde eu sei, não há nenhuma razão real para impedir o ajuste excessivo.

Estou enganado sobre o que os autores estão propondo? Existe algum efeito sutil que estou ignorando? Ou a Science endossou a pior prática estatística até o momento?


2
Aqueles que não têm acesso à Science podem querer consultar este recente artigo de notícias da Science sobre como se pode acessar papéis com paredes de pagamento.
Ameba diz Reinstate Monica

1
Esta é possivelmente uma pré-impressão: arxiv.org/pdf/1411.2664.pdf ?
Tim

1
@ Tim: o artigo da Science cita a pré-impressão que você postou. Além disso, a seção Adição de ruído na Lapônia parece muito semelhante, mas não idêntica, aos métodos do artigo publicado.
Cliff AB

1
@CliffAB para que eles possivelmente usado privacidade diferencial para torná-los diferentes;)
Tim

4
Este tópico é realmente um tutorial na ICML no mês passado. "Dragagem rigorosa de dados: teoria e ferramentas para análise adaptativa de dados" por alguns colegas do google. icml.cc/2016/?page_id=97
horaceT

Respostas:


7

Há uma postagem de blog pelos autores que descreve isso em alto nível.

Para citar o início dessa postagem:

Para reduzir o número de variáveis ​​e simplificar nossa tarefa, primeiro selecionamos algumas variáveis ​​de aparência promissora, por exemplo, aquelas que têm uma correlação positiva com a variável de resposta (pressão arterial sistólica). Em seguida, ajustamos um modelo de regressão linear nas variáveis ​​selecionadas. Para medir a qualidade de nosso modelo, realizamos um teste F padrão em nosso livro de estatística favorito e relatamos o valor p resultante.

Freedman mostrou que o valor de p relatado é altamente enganador - mesmo que os dados fossem completamente aleatórios, sem qualquer correlação entre a variável de resposta e os pontos de dados, provavelmente observaríamos um valor de p significativo! O viés decorre do fato de termos selecionado um subconjunto de variáveis ​​de forma adaptativa com base nos dados, mas nunca explicamos esse fato. Existe um grande número de possíveis subconjuntos de variáveis ​​que selecionamos. O simples fato de termos escolhido um teste em detrimento do outro, espiando os dados, cria um viés de seleção que invalida as suposições subjacentes ao teste-F.

O paradoxo de Freedman traz uma lição importante. Os níveis de significância dos procedimentos padrão não capturam o grande número de análises que se pode optar por realizar ou omitir. Por esse motivo, a adaptabilidade é uma das principais explicações de por que os resultados da pesquisa são freqüentemente falsos, como argumentou Gelman e Loken, que apropriadamente se referem à adaptabilidade como “jardim dos caminhos de bifurcação”.

Não consigo ver como a técnica deles resolve esse problema. Portanto, em resposta à sua pergunta, acredito que eles não abordam o Jardim dos Caminhos da Bifurcação e, nesse sentido, sua técnica levará as pessoas a um falso senso de segurança. Não muito diferente de dizer "usei a validação cruzada" acalma muitos - que usavam CV não aninhado - em uma falsa sensação de segurança.

Parece-me que a maior parte da postagem do blog aponta para a técnica deles como uma melhor resposta para impedir que os participantes de uma competição no estilo Kaggle subam no gradiente do conjunto de testes. O que é útil, mas não aborda diretamente os caminhos de bifurcação. Parece que tem o sabor do Wolfram e da New Science do Google, onde grandes quantidades de dados assumem o controle. Essa narrativa tem um histórico misto e sou sempre cético em relação à magia automatizada.


3

Tenho certeza de que estou simplificando demais essa técnica diferencial de privacidade aqui, mas a ideia faz sentido em um nível alto.

Quando você obtém um algoritmo para gerar bons resultados (uau, a precisão do meu conjunto de testes realmente melhorou), você não quer chegar à conclusão imediatamente. Você deseja aceitá-lo apenas quando a melhoria é significativamente maior que o algoritmo anterior. Essa é a razão para adicionar ruído.

EDIT: Este blog possui boas explicações e códigos R para demonstrar a eficácia do adicionador de ruído, http://www.win-vector.com/blog/2015/10/a-simpler-explanation-of-differential-privacy/


>τ

1
@CliffAB Tenho a mesma sensação irritante de por que isso funciona melhor do que apenas um simples limiar. Mas eles têm provas!
horaceT

>τ

@CliffAB Você pode elaborar? Onde? That'a uma possibilidade intrigante ....
horaceT

Usando os slides do seu link anterior ( icml.cc/2016/?page_id=97 ), nos slides 72 e 73, mesmo ao usar o método "Thresholdout", a precisão do holdout é maior que os dados atualizados em todas as simulações, embora funciona melhor do que o "holdout padrão" (que é realmente "abuso padrão do conjunto de dados de validação", não um procedimento estatístico válido válido). Para sua informação, o gráfico aparece nos slides como sendo o mesmo no artigo científico (caso você não tenha acesso).
Cliff AB

3

A alegação de que a adição de ruído ajuda a evitar o excesso de ajuste realmente retém a água aqui, pois o que eles estão realmente fazendo é limitar a reutilização do material . O método deles realmente faz duas coisas: limita o número de perguntas que podem ser feitas no holdout e quanto de cada uma das respostas revela sobre os dados do holdout.

kknn/k

n/kk

O coração de seu método é uma relação entre estabilidade algorítmica e super adaptação, que remonta ao final da década de 1970 (Devroye e Wagner 1978). Aproximadamente, diz

UMAXq=UMA(X)UMAXPqxqP

UMA()f(UMA())fqUMAUMA

Atualmente, existem alguns artigos analisando como diferentes procedimentos de adição de ruído controlam o overfitting. Um relativamente legível é o de Russo e Zou ( https://arxiv.org/abs/1511.05219 ). Alguns trabalhos de acompanhamento mais recentes sobre o trabalho inicial de Dwork et al. Também pode ser útil olhar. (Declaração de exoneração de responsabilidade: tenho dois artigos sobre o assunto, o mais recente sobre a conexão com o teste de hipótese adaptativa: https://arxiv.org/abs/1604.03924 .)

Espero que tudo ajude.


0

Eu me oponho à sua segunda frase. A ideia de que um plano completo de análise de dados deve ser determinado com antecedência é injustificada, mesmo em um cenário em que você está tentando confirmar uma hipótese científica preexistente. Pelo contrário, qualquer análise de dados decente exigirá alguma atenção aos dados reais que foram adquiridos. Os pesquisadores que acreditam de outra forma são geralmente pesquisadores que acreditam que o teste de significância é o começo e o fim da análise de dados, com pouca ou nenhuma função para estatística descritiva, plotagens, estimativa, previsão, seleção de modelo etc. Nesse cenário, o requisito de fixar antecipadamente os planos analíticos faz mais sentido, porque as formas convencionais pelas quais p-os valores calculados requerem que o tamanho da amostra e os testes a serem realizados sejam decididos antes da visualização de quaisquer dados. Esse requisito prejudica o analista e, portanto, é uma das muitas boas razões para não usar testes de significância.

Você pode argumentar que deixar o analista escolher o que fazer depois de ver os dados permite o super ajuste. Sim, mas um bom analista mostra todas as análises que eles conduziram, diz explicitamente quais informações nos dados foram usadas para tomar decisões analíticas e usa métodos como validação cruzada de forma apropriada. Por exemplo, geralmente é bom recodificar variáveis ​​com base na distribuição de valores obtida, mas escolher para algumas análises os três preditores em 100 que têm a associação observada mais próxima da variável dependente significa que as estimativas de associação serão positivas tendencioso, pelo princípio da regressão à média. Se você deseja fazer a seleção de variáveis ​​em um contexto preditivo, precisa selecionar variáveis ​​dentro das suas dobras de validação cruzada ou usar apenas os dados de treinamento.


2
Acredito que muito do que você está sugerindo se encaixa no domínio da análise exploratória de dados (EDA), para a qual apoiei métodos de análise de dados adaptativos. Eu também acho que a EDA é subestimada e deve receber mais crédito. Mas tudo isso é ortogonal à pergunta em questão, que é "Esses autores realmente nos permitiram reutilizar repetidamente os dados de validação para a seleção de modelos em um método estatístico válido?" Sua última frase sugere que você, como eu, é um pouco cético em relação a essas descobertas.
Cliff AB

Eu não acho que, por exemplo, a estimativa é inerentemente exploratória, não. Se você tem uma hipótese científica que diz que o comprimento máximo de um crocodilo deve ser de 12 pés e tenta estimar o comprimento máximo de um crocodilo para verificar isso, está fazendo uma análise confirmatória.
Kodiologist

2
+1, apesar de três votos negativos existentes. Eu concordo com o ponto principal desta resposta (sua segunda sentença), embora eu esteja plenamente ciente de que é bastante controverso. Em geral, acho que a diferença entre a análise exploratória e a confirmatória é superestimada; a análise da vida real costuma estar entre os dois. Dito isto, acho que você não respondeu (nem tentou responder) à pergunta da OP que era sobre Dwork et al. papel.
Ameba diz Reinstate Monica

@amoeba "Acho que você não respondeu (nem tentou responder) à pergunta da OP que tratava de Dwork et al. paper" - É verdade, embora isso ainda pareça valer a pena ser postado como resposta, pois lança dúvidas sobre o que parece ser um premissa da pergunta.
Kodiologist 18/09/16

2
+1 no comentário de @ amoeba. Este teria sido um ótimo comentário para a pergunta, mas não é uma resposta.
S. Kolassa - Restabelece Monica 20/09/16
Ao utilizar nosso site, você reconhece que leu e compreendeu nossa Política de Cookies e nossa Política de Privacidade.
Licensed under cc by-sa 3.0 with attribution required.