Então, eu respondi à pergunta sobre ajuste excessivo a que você se refere e assisti ao vídeo e li a postagem do blog. Radford Neal não está dizendo que os modelos bayesianos não se ajustam demais. Lembremos que a super adaptação é o fenômeno do ruído sendo tratado como sinal e apreendido na estimativa de parâmetros. Essa não é a única fonte de erro de seleção de modelo. A discussão de Neal é mais ampla, porém, ao se aventurar na idéia de um pequeno tamanho de amostra, ele se aventurou na discussão de super adaptação.
Deixe-me revisar parcialmente minha postagem anterior de que os modelos bayesianos podem se ajustar demais a todos os modelos bayesianos, mas de uma maneira que melhore a previsão. Novamente, voltando à definição de sinal confuso com ruído, a incerteza nos métodos bayesianos, a distribuição posterior, é a quantificação dessa incerteza quanto ao que é sinal e o que é ruído. Ao fazer isso, os métodos bayesianos estão apreendendo o ruído em estimativas de sinal, pois todo o posterior é usado em inferência e previsão. O sobreajuste e outras fontes de erro de classificação do modelo são um tipo diferente de problema nos métodos bayesianos.
Para simplificar, adotaremos a estrutura da palestra de Ma e focaremos na regressão linear e evitaremos a discussão de aprendizado profundo, porque, como ele aponta, os métodos alternativos mencionados são apenas composições de funções e existe uma ligação direta entre a lógica do linear. regressão e aprendizagem profunda.
Considere o seguinte modelo potencial Vamos criar uma ampla amostra do tamanho composta por duas subamostras, , em que é o conjunto de treinamento e é o conjunto de validação. Veremos por que, sujeitos a algumas ressalvas, os métodos bayesianos não precisam de um conjunto de treinamento e validação separado.N n 1 , n 2 n 1 n 2
y= β0 0+ β1 1x1 1+ β2x2+ β3x3.
Nn1 1, n2n1 1n2
Para esta discussão, precisamos criar mais oito parâmetros, um para cada modelo. Eles são . Eles seguem uma distribuição multinomial e têm antecedentes adequados, assim como os coeficientes de regressão. Os oito modelos são e m1 1…8
y= β0 0+ β1 1x1 1+ β2x2+ β3x3,
y= β0 0,
y= β0 0+ β1 1x1 1,
y=β0 0+β2x2,
y= β0 0+ β3x3,
y= β0 0+ β1 1x1 1+ β2x2,
y= β0 0+ β1 1x1 1+ β3x3,
y= β0 0+ β2x2+ β3x3,
y= β0 0+ β1 1x1 1,
y= β0 0+ β2x2,
y= β0 0+ β3x3.
Agora precisamos entender as diferenças entre os métodos Bayesiano e Frequentista. No conjunto de treinamento o modelador que usa métodos Frequentist escolhe apenas um modelo. O modelador que usa métodos bayesianos não é tão restrito. Embora o modelador bayesiano possa usar um critério de seleção de modelo para encontrar apenas um modelo, ele também é livre para usar a média do modelo. O modelador bayesiano também é livre para alterar modelos selecionados no meio do caminho no segmento de validação. Além disso, o modelador que usa métodos bayesianos pode misturar e combinar entre seleção e média.n1 1,
Para dar um exemplo do mundo real, testei 78 modelos de falência. Dos 78 modelos, a probabilidade posterior combinada de 76 deles era de cerca de um milésimo de um por cento. Os outros dois modelos eram aproximadamente 54% e 46%, respectivamente. Felizmente, eles também não compartilharam nenhuma variável. Isso me permitiu selecionar os dois modelos e ignorar os outros 76. Quando eu tinha todos os pontos de dados para ambos, calculei a média de suas previsões com base nas probabilidades posteriores dos dois modelos, usando apenas um modelo quando havia pontos de dados ausentes que impediam o de outros. Embora eu tivesse um conjunto de treinamento e um conjunto de validação, não era pela mesma razão que um freqüentista os teria. Além disso, no final de cada dia, durante dois ciclos de negócios, atualizei meus posteriores com os dados de cada dia. Isso significava que meu modelo no final do conjunto de validação não era o modelo no final do conjunto de treinamento. Os modelos bayesianos não param de aprender, enquanto os modelos freqüentistas o fazem.
Para ir mais fundo, vamos ser concretos com nossos modelos. Suponhamos que, durante a amostra de treinamento, o modelo Frequentist mais adequado e o modelo Bayesiano usando seleção de modelo correspondessem ou, alternativamente, que o peso do modelo na média do modelo fosse tão grande que fosse quase indistinguível do modelo Frequentist. Vamos imaginar que esse modelo seja Vamos também imaginar que o verdadeiro modelo da natureza é
y= β0 0+ β1 1x1 1+ β2x2+ β3x3.
y=β0 0+β1 1x1 1+β3x3.
Agora vamos considerar a diferença no conjunto de validação. O modelo Frequentist é adaptado aos dados. Vamos supor que por algum momento que o procedimento de selecção do modelo ou validação tinha mudado a seleção para o modelo verdadeiro na natureza. Além disso, se a média do modelo foi usada, o modelo verdadeiro na natureza carregou peso na previsão muito antes da escolha dos modelos ser clara. ET Jaynes, em seu tomo sobre teoria das probabilidades, passa algum tempo discutindo essa questão. Eu tenho o livro no trabalho, então não posso lhe dar uma boa citação, mas você deve lê-lo. O ISBN é 978-0521592710.nEu2
Modelos são parâmetros no pensamento bayesiano e, como tal, são aleatórios ou, se você preferir, incertos. Essa incerteza não termina durante o processo de validação. É atualizado continuamente.
Devido às diferenças entre os métodos Bayesiano e Frequentista, existem outros tipos de casos que também devem ser considerados. O primeiro vem da inferência de parâmetros, o segundo das previsões formais. Eles não são a mesma coisa nos métodos bayesianos. Os métodos bayesianos separam formalmente a inferência e a tomada de decisão. Eles também separam a estimativa e previsão de parâmetros.
Vamos imaginar, sem perda de generalidade, que um modelo seria bem-sucedido se uma falha de outra forma. Vamos ignorar os outros parâmetros, porque seria muito trabalho extra ter uma idéia simples. Para o modelador que usa métodos bayesianos, esse é um tipo de pergunta muito diferente do que para os que usam métodos freqüentistas.σ2^<k
Para o Frequentist, um teste de hipótese é formado com base no conjunto de treinamento. O modelador que usa métodos Frequentist testaria se a variação estimada é maior ou igual e tentaria rejeitar o nulo sobre a amostra cujo tamanho é , fixando os parâmetros aos descobertos em .kn2n1
Para o modelador que usa métodos bayesianos, eles formariam estimativas de parâmetros durante a amostra e a densidade posterior de se tornaria o anterior para a amostra . Supondo que a propriedade de seja , é garantido que a estimativa posterior de seja igual em todos os sentidos da palavra da estimativa de probabilidade formada a partir da amostra conjunta. Dividi-los em duas amostras é equivalente, pela força da matemática, a não tê-los dividido.n 1 n 2 n 2n1n1n2n2
Para previsões, um problema semelhante é válido. Os métodos bayesianos têm uma distribuição preditiva que também é atualizada a cada observação, enquanto o método freqüentista é congelado no final da amostra . A densidade preditiva pode ser escrita como . Se é a previsão e é a amostra, onde estão os parâmetros, que iremos denotar Pr ( ˜ x = k | X ) ˜ x X θ ?n1Pr(x~=k|X)x~Xθ? Embora existam sistemas de previsão frequentemente, a maioria das pessoas trata as estimativas pontuais como parâmetros verdadeiros e calcula os resíduos. Os métodos bayesianos pontuariam cada previsão contra a densidade prevista, em vez de apenas um ponto. Essas previsões não dependem de parâmetros diferentes dos métodos pontuais usados nas soluções freqüentistas.
Como observação lateral, existem densidades preditivas freqüentistas formais usando os erros padrão, e a pontuação pode ser feita neles, mas isso é raro na prática. Se não houver conhecimento prévio específico, os dois conjuntos de previsões deverão ser idênticos para o mesmo conjunto de pontos de dados. Eles acabarão diferindo porque e, portanto, a solução bayesiana apreenderá mais informações.n1+n2>n1
Se não houver informações prévias relevantes e se forem usadas densidades preditivas freqüentistas em vez de estimativas pontuais, para uma amostra fixa, os resultados dos métodos bayesiano e frequentista serão idênticos se um único modelo for escolhido. Se houver informações anteriores, o método bayesiano tenderá a gerar previsões mais precisas. Essa diferença pode ser muito grande na prática. Além disso, se houver média do modelo, é bem provável que o método bayesiano seja mais robusto. Se você usar a seleção de modelos e congelar as previsões bayesianas, não haverá diferença em usar um modelo Frequentist usando previsões Frequentist.
Usei um conjunto de teste e validação porque meus dados não eram intercambiáveis. Como resultado, eu precisava resolver dois problemas. O primeiro é semelhante ao burn-in nos métodos MCMC. Eu precisava de um bom conjunto de estimativas de parâmetros para iniciar minha sequência de teste e, portanto, usei cinquenta anos de dados anteriores para obter uma boa densidade anterior para iniciar meu teste de validação. O segundo problema era que eu precisava de algum tipo de período padronizado para testar, para que o teste não fosse questionado. Eu usei os dois ciclos comerciais anteriores, datados pelo NBER.