Otimização: A raiz de todo mal nas estatísticas?

Eu já ouvi a seguinte expressão antes:

"Otimização é a raiz de todo mal nas estatísticas".

Por exemplo, a resposta principal neste tópico faz essa afirmação em referência ao perigo de otimizar de forma muito agressiva durante a seleção do modelo.

Minha primeira pergunta é a seguinte: Essa citação é atribuível a alguém em particular? (por exemplo, na literatura estatística)

Pelo que entendi, a afirmação se refere aos riscos de sobreajuste. A sabedoria tradicional diria que a validação cruzada adequada já luta contra esse problema, mas parece que há mais nesse problema do que isso.

Os estatísticos e profissionais de ML devem ter cuidado com a otimização excessiva de seus modelos, mesmo quando aderem a protocolos rígidos de validação cruzada (por exemplo, 100 CV de 10 vezes aninhado)? Se sim, como sabemos quando parar de procurar o "melhor" modelo?

cross-validation optimization overfitting

— Amelio Vazquez-Reina
fonte

A segunda pergunta definitivamente se sustenta por si mesma, não é?

— 11789 russellpierce

@Glen_b Deixei uma referência nesse segmento. Mas apenas para esclarecer, Dikran já sugeriu abrir perguntas de acompanhamento para sua resposta em tópicos separados, e duvido que essa pergunta deva ser abordada em um comentário.

— Amelio Vazquez-Reina

@ RussellS.Pierce A edição que continha a pergunta como está agora - mesmo que tenha sido feita antes do meu comentário - não estava lá quando eu a carreguei e comecei a pesquisar a pergunta original e as possíveis respostas, só tinha o que eu descreveria como uma pergunta retórica lá. A questão como está agora está bem.

— Glen_b -Reinstala Monica

O problema da validação cruzada é abordado em outra pergunta aqui: stats.stackexchange.com/questions/29354/… A validação cruzada pode ajudar a evitar ajustes excessivos, mas não resolve completamente o problema. Saber quando parar pode ser um problema decididamente complicado, e não acho que possa haver uma solução geral.

— Dikran Marsupial

"A validação cruzada adequada já luta contra esse problema, mas parece que há mais problemas do que isso". Sim: o problema ainda é a variação das estimativas de validação cruzada (combinadas com uma problemática de vários testes). Se eu encontrar tempo, escreverei uma resposta para sua pergunta relacionada.

— Cbeleites suporta Monica

Respostas:

A citação é uma paráfrase de uma citação de Donald Knuth , que ele próprio atribuiu a Hoare. Três extratos da página acima:

A otimização prematura é a raiz de todos os males (ou pelo menos a maioria deles) na programação.

Otimização prematura é a raiz de todo o mal.

Knuth se refere a isso como "Ditado de Hoare" 15 anos depois ...

Não sei se concordo com a paráfrase estatística *. Há muitas 'más' nas estatísticas que não se relacionam à otimização.

Os estatísticos e profissionais de ML devem sempre ter cuidado com a otimização excessiva de seus modelos, mesmo quando aderem a protocolos rígidos de validação cruzada (por exemplo, 100 CV 10 vezes aninhado)? Se sim, como sabemos quando parar de procurar o "melhor" modelo?

Eu acho que o mais importante é entender completamente (ou o máximo possível) as propriedades de quais procedimentos você executa.

$\,^\text{* I won't presume to comment on Knuth's use of it, since there's little I could}$ $\quad ^\text{say that he couldn't rightly claim to understand ten times as well as I do.}$

— Glen_b -Reinstate Monica
fonte

Obrigado, isso é útil. Eu acho que existem algumas conexões interessantes entre otimização pré-madura na programação e sobreajuste. Gostaria de saber se existem citações semelhantes em nossa comunidade e se existe uma maneira rigorosa de combater isso nas estatísticas.

— Amelio Vazquez-Reina

Meu uso da frase foi inspirado em Knuth, embora o motivo seja diferente e, de uma perspectiva bayesiana, praticamente toda otimização é uma coisa ruim e marginalizar é melhor.

— Dikran Marsupial

Algumas maneiras de analisar a cotação (nas estatísticas), assumindo que a otimização se refira à seleção do modelo (orientado a dados):

Se você se preocupa com a previsão, é melhor ter uma média do modelo em vez de selecionar um único modelo.
Se você selecionar um modelo no mesmo conjunto de dados usado para ajustá-lo, ele causará estragos nas ferramentas / procedimentos usuais de inferência que supõem que você tenha escolhido o modelo a priori . (Digamos que você faça uma regressão passo a passo, escolhendo o tamanho do modelo por validação cruzada. Para uma análise freqüentista, os valores-p ou ICs habituais para o modelo escolhido estarão incorretos. Tenho certeza de que existem problemas correspondentes nas análises bayesianas que envolvem o modelo seleção.)
Se seu conjunto de dados for grande o suficiente em comparação com a família de modelos que você considera, o ajuste excessivo pode até não ser um problema e a seleção de modelos pode ser desnecessária. (Diga que vai caber uma regressão linear usando um conjunto de dados com poucas variáveis e muito muitas observações. Todas as variáveis espúrias devem ficar coeficientes estimado próximo a 0 de qualquer maneira, por isso, talvez você não precisa sequer se preocupar selecionar um modelo menor.)
Se o seu conjunto de dados for pequeno o suficiente, talvez você não tenha dados suficientes para se ajustar ao modelo "verdadeiro" ou "melhor" para o problema. O que significa fazer bem a seleção de modelos nesse caso? (Back to regressão linear:? Se você apontar para selecionar o modelo "verdadeiro" com as variáveis certas, mesmo se você não tem dados suficientes para medir todos eles adequadamente você só deve escolher o maior modelo para o qual você não tem dados suficientes ?)
Por fim, mesmo quando estiver claro, você pode e deve fazer a seleção do modelo, a validação cruzada não é uma panacéia. Possui muitas variantes e até seu próprio parâmetro de ajuste (número de dobras ou relação trem: teste) que afeta suas propriedades. Portanto, não confie cegamente.

— civilstat
fonte