Por que o critério de informação da Akaike não é mais usado no aprendizado de máquina?

Acabei de encontrar o "critério de informação Akaike" e notei essa grande quantidade de literatura sobre seleção de modelos (também parecem existir coisas como o BIC).

Por que os métodos contemporâneos de aprendizado de máquina não se beneficiam desses critérios de seleção de modelos BIC e AIC?

— eco
fonte

porque ninguém está calculando as probabilidades?

— Aksakal

O que você quer dizer com "métodos contemporâneos de aprendizado de máquina"? Tanto quanto eu usei AIC e BIC são usados com freqüência.

— precisa

Também porque o -1? Lembre-se de que não há perguntas estúpidas - cada pergunta tenta lançar luz sobre o universo

— eco

@ echo: Eu não downvote, mas eu acho que sua pergunta seria melhorada se você poderia fonte / apoiar a reivindicação principal (que os métodos de aprendizado de máquina fazer aproveitam os critérios de selecção modelo BIC e AIC)

— user603

@ Aksakal Obrigado. Eu acho que é melhor que perguntas construídas em torno de uma reivindicação abrangente possam originar essa reivindicação. Quero dizer, como regra geral.

— user603

AIC e BIC são usados, por exemplo, em regressão gradual. Na verdade, eles fazem parte de uma classe maior de "heurísticas", que também são usadas. Por exemplo, o DIC (Critério de informação de desvio) é frequentemente usado na seleção do modelo bayesiano.

No entanto, eles são basicamente "heurísticas". Embora possa ser demonstrado que tanto o AIC quanto o BIC convergem assintoticamente para abordagens de validação cruzada (acho que o AIC vai para o CV de uma só vez, e o BIC para outra abordagem, mas não tenho certeza), eles são conhecidos por penalizar e penalizar demais, respectivamente. Ou seja, ao usar o AIC, você geralmente obtém um modelo, o que é mais complicado do que deveria ser, enquanto no BIC você obtém um modelo muito simplista.

Como ambos estão relacionados ao CV, o CV geralmente é uma escolha melhor, que não sofre com esses problemas.

Finalmente, há a questão do número de parâmetros necessários para o BIC e o AIC. Com aproximadores de funções gerais (por exemplo, KNNs) em entradas com valor real, é possível "ocultar" parâmetros, ou seja, construir um número real que contenha a mesma informação que dois números reais (pense, por exemplo, na interseção dos dígitos). Nesse caso, qual é o número real de parâmetros? Por outro lado, com modelos mais complicados, você pode ter restrições em seus parâmetros, digamos que só pode ajustar parâmetros de modo que $\theta_1 > \theta_2$ (veja, por exemplo, aqui ). Ou você pode não ter identificabilidade; nesse caso, vários valores dos parâmetros realmente fornecem o mesmo modelo. Em todos esses casos, a simples contagem de parâmetros não fornece uma estimativa adequada.

Como muitos algoritmos contemporâneos de aprendizado de máquina mostram essas propriedades (isto é, aproximação universal, número pouco claro de parâmetros, não identificabilidade), o AIC e o BIC são menos úteis para esse modelo do que podem parecer à primeira vista.

EDIT :

Mais alguns pontos que poderiam ser esclarecidos:

Parece que eu estava errado ao considerar o mapeamento intercalando dígitos como uma bijeção entre $\mathbb{R}\rightarrow\mathbb{R}^N$ (veja aqui ). No entanto, os detalhes de por que isso não é uma bijeção são um pouco difíceis de entender. No entanto, na verdade, não precisamos de uma bijeção para que essa ideia funcione (basta uma sobretaxa).
De acordo com a prova por Cantor (1877) , deve haver uma bijeç~ao entre $\mathbb{R}\rightarrow\mathbb{R}^N$ . Embora essa bijeção não possa ser definida explicitamente, sua existência pode ser comprovada (mas isso requer o axioma não comprovado da escolha). Essa bijeção ainda pode ser usada em um modelo teórico (talvez não seja possível implementar esse modelo em um computador), para descompactar um único parâmetro em um número arbitrário de parâmetros.
Nós realmente não precisa o mapeamento entre $\mathbb{R}\rightarrow\mathbb{R}^N$ ser uma bijeção. Qualquer função adjetiva $\mathbb{R}\rightarrow\mathbb{R}^N$ é suficiente para descompactar vários parâmetros de um único. Pode-se mostrar que tais sujeiras existem como limites para uma sequência de outras funções (chamadas curvas de preenchimento de espaço , por exemplo, curva Peano ).
Como nem a prova de Cantor é construtiva (ela simplesmente prova a existência da bijeção sem dar um exemplo), nem as curvas de preenchimento de espaço (porque elas existem apenas como limites de objetos construtivos e, portanto, não são elas mesmas construtivas), o argumento I feito é apenas uma prova teórica. Em teoria, poderíamos continuar adicionando parâmetros a um modelo para reduzir o BIC abaixo de qualquer valor desejado (no conjunto de treinamento). No entanto, em uma implementação de modelo real, precisamos aproximar a curva de preenchimento de espaço, para que o erro de aproximação possa nos proibir de fazê-lo (na verdade, não testei isso).
Como tudo isso requer o axioma da escolha, a prova se torna inválida se você não aceitar esse axioma (embora a maioria dos matemáticos o faça). Isso significa que, na matemática construtiva, isso pode não ser possível, mas não sei qual o papel da matemática construtiva na estatística.
$N$ $\mathbb{R}^{N+1}$ $\mathbb{R}^N$ $\mathbb{R}^N$ $\mathbb{R}^N$ . No entanto, este é apenas um argumento informal, não conheço nenhum tratamento formal dessa noção de "complexidade".

— LiKao
fonte

Gostaria de comentar esta postagem stats.stackexchange.com/questions/325129/… ? Eu não tive sorte com isso por um tempo.

— Skander H. - Reinstale Monica

@LiKao Você pode citar referências sobre as "técnicas" dos parâmetros de ocultação, como no caso de dígitos que se cruzam.

— horaceT

@horaceT Infelizmente, não conheço nenhum artigo que dê esse exemplo. Nos artigos sobre MDL, há a noção de "complexidade funcional" (por exemplo, lpl.psy.ohio-state.edu/documents/MNP.pdf, ver eq 10). Frequentemente, o exemplo é feito com parâmetros restritos (por exemplo, researchgate.net/publication/… ). Eu gosto de mudar o exemplo ao discutir isso e mostrar que um único parâmetro complexo pode capturar vários parâmetros simples porque acho mais intuitivo.

— LiKao 9/09/19

f_{1, 2} : R \to R^{2}

$f_{1,2}:\mathbb{R} \rightarrow \mathbb{R}^2$

f_{1, N} : R \to R^{N}

$f_{1,N}:\mathbb{R}\rightarrow \mathbb{R}^N$

N

$N$

f_{1, N}

$f_{1,N}$

N

$N$

N

$N$

1

$1$

@LiKao Isso é bastante fascinante. Pls faz referência à referida prova de "curvas de arquivamento". Pude ver que parâmetros restritos têm "menos" grau de liberdade. Ingenuamente, se f (x, y) = 0, y é apenas uma função de x; basta colocar g (x) onde y está. Você não pode fazer coisas semelhantes com otimização restrita.

— horaceT