AIC e BIC são usados, por exemplo, em regressão gradual. Na verdade, eles fazem parte de uma classe maior de "heurísticas", que também são usadas. Por exemplo, o DIC (Critério de informação de desvio) é frequentemente usado na seleção do modelo bayesiano.
No entanto, eles são basicamente "heurísticas". Embora possa ser demonstrado que tanto o AIC quanto o BIC convergem assintoticamente para abordagens de validação cruzada (acho que o AIC vai para o CV de uma só vez, e o BIC para outra abordagem, mas não tenho certeza), eles são conhecidos por penalizar e penalizar demais, respectivamente. Ou seja, ao usar o AIC, você geralmente obtém um modelo, o que é mais complicado do que deveria ser, enquanto no BIC você obtém um modelo muito simplista.
Como ambos estão relacionados ao CV, o CV geralmente é uma escolha melhor, que não sofre com esses problemas.
Finalmente, há a questão do número de parâmetros necessários para o BIC e o AIC. Com aproximadores de funções gerais (por exemplo, KNNs) em entradas com valor real, é possível "ocultar" parâmetros, ou seja, construir um número real que contenha a mesma informação que dois números reais (pense, por exemplo, na interseção dos dígitos). Nesse caso, qual é o número real de parâmetros? Por outro lado, com modelos mais complicados, você pode ter restrições em seus parâmetros, digamos que só pode ajustar parâmetros de modo que θ1>θ2 (veja, por exemplo, aqui ). Ou você pode não ter identificabilidade; nesse caso, vários valores dos parâmetros realmente fornecem o mesmo modelo. Em todos esses casos, a simples contagem de parâmetros não fornece uma estimativa adequada.
Como muitos algoritmos contemporâneos de aprendizado de máquina mostram essas propriedades (isto é, aproximação universal, número pouco claro de parâmetros, não identificabilidade), o AIC e o BIC são menos úteis para esse modelo do que podem parecer à primeira vista.
EDIT :
Mais alguns pontos que poderiam ser esclarecidos:
- Parece que eu estava errado ao considerar o mapeamento intercalando dígitos como uma bijeção entre R→RN (veja aqui ). No entanto, os detalhes de por que isso não é uma bijeção são um pouco difíceis de entender. No entanto, na verdade, não precisamos de uma bijeção para que essa ideia funcione (basta uma sobretaxa).
- De acordo com a prova por Cantor (1877) , deve haver uma bijeç~ao entre R→RN . Embora essa bijeção não possa ser definida explicitamente, sua existência pode ser comprovada (mas isso requer o axioma não comprovado da escolha). Essa bijeção ainda pode ser usada em um modelo teórico (talvez não seja possível implementar esse modelo em um computador), para descompactar um único parâmetro em um número arbitrário de parâmetros.
- Nós realmente não precisa o mapeamento entre R→RN ser uma bijeção. Qualquer função adjetiva R→RN é suficiente para descompactar vários parâmetros de um único. Pode-se mostrar que tais sujeiras existem como limites para uma sequência de outras funções (chamadas curvas de preenchimento de espaço , por exemplo, curva Peano ).
- Como nem a prova de Cantor é construtiva (ela simplesmente prova a existência da bijeção sem dar um exemplo), nem as curvas de preenchimento de espaço (porque elas existem apenas como limites de objetos construtivos e, portanto, não são elas mesmas construtivas), o argumento I feito é apenas uma prova teórica. Em teoria, poderíamos continuar adicionando parâmetros a um modelo para reduzir o BIC abaixo de qualquer valor desejado (no conjunto de treinamento). No entanto, em uma implementação de modelo real, precisamos aproximar a curva de preenchimento de espaço, para que o erro de aproximação possa nos proibir de fazê-lo (na verdade, não testei isso).
- Como tudo isso requer o axioma da escolha, a prova se torna inválida se você não aceitar esse axioma (embora a maioria dos matemáticos o faça). Isso significa que, na matemática construtiva, isso pode não ser possível, mas não sei qual o papel da matemática construtiva na estatística.
- NRN+1RNRNRN. No entanto, este é apenas um argumento informal, não conheço nenhum tratamento formal dessa noção de "complexidade".