É verdade que os bayesianos não precisam de conjuntos de teste?

Recentemente, assisti a essa palestra de Eric J. Ma e verifiquei sua entrada no blog , onde ele cita Radford Neal, que os modelos bayesianos não se ajustam demais (mas podem se ajustar demais ) e, ao usá-los, não precisamos de conjuntos de testes para validá-los (por as aspas parecem falar bastante sobre o uso do conjunto de validação para ajustar os parâmetros). Honestamente, os argumentos não me convencem e eu não tenho acesso ao livro, então você poderia dar argumentos mais detalhados e rigorosos a favor ou contra essa afirmação?

A propósito, enquanto isso, Eric Ma me apontou essa discussão sobre o mesmo tópico.

— Tim
fonte

Um grande buraco nesse argumento em relação a essa conversa: se você está fazendo o MCMC, se não explorar completamente o posterior, sua inferência é totalmente inválida. Se você está fazendo inferência em uma rede neural bayesiana, certamente não explorou grandes porções da parte posterior usando o MCMC. Portanto, é melhor dividir seus dados para verificar sua inferência!

— Cliff AB

Uma coisa a considerar é o que estamos avaliando ou validando? pode ser que não usemos todas as informações que temos (seja prévia ou provável). verificar o ajuste do modelo pode ajudar a responder a essa pergunta.

— probabilityislogic

Se usarmos "o único modelo verdadeiro" e os "priores verdadeiros", refletindo algumas informações prévias capturadas apropriadamente, tanto quanto sei que um bayesiano realmente não tem um problema de adaptação excessiva e que a distribuição preditiva posterior, com poucos dados, será incerta. . No entanto, se usarmos algum tipo de modelo escolhido pragmaticamente (isto é, decidimos que, por exemplo, a taxa de risco é constante ao longo do tempo e um modelo exponencial é apropriado ou, por exemplo, que alguma covariável não esteja no modelo = ponto anterior ao coeficiente zero) com alguns anteriores não informativos ou de regularização padrão, então realmente não sabemos se isso ainda se aplica. Nesse caso, a escolha de (hiper) anteriores tem alguma arbitrariedade que pode ou não resultar em boas previsões fora da amostra.

Assim, é muito razoável perguntar se a escolha do hiperparâmetro (= parâmetros dos hiperpriors) em combinação com a probabilidade escolhida terá bom desempenho. De fato, você pode facilmente decidir que é uma boa ideia ajustar seus hiperparâmetros para obter o desempenho de previsão desejado. Nessa perspectiva, um conjunto de validação (ou validação cruzada) para ajustar os hiperparâmetros e um conjunto de testes para confirmar o desempenho faz todo o sentido.

Eu acho que isso está intimamente relacionado a várias discussões de Andrew Gelman em seu blog (veja, por exemplo, a entrada 1 do blog , a entrada 2 do blog , a entrada 3 do blog no LOO para Stan e as discussões sobre verificações preditivas posteriores), nas quais ele discute suas preocupações em torno do assunto. (em certo sentido, correto) afirma que um bayesiano não deve verificar se seu modelo faz sentido e sobre a avaliação prática do modelo bayesiano.

Obviamente, muitas vezes somos os mais interessados em usar métodos bayesianos em configurações, onde há pouca informação prévia e queremos usar anteriores um pouco informativos. Nesse ponto, pode ser um pouco complicado ter dados suficientes para chegar a qualquer lugar com validação e avaliação em um conjunto de testes.

— Björn
fonte

Então, eu respondi à pergunta sobre ajuste excessivo a que você se refere e assisti ao vídeo e li a postagem do blog. Radford Neal não está dizendo que os modelos bayesianos não se ajustam demais. Lembremos que a super adaptação é o fenômeno do ruído sendo tratado como sinal e apreendido na estimativa de parâmetros. Essa não é a única fonte de erro de seleção de modelo. A discussão de Neal é mais ampla, porém, ao se aventurar na idéia de um pequeno tamanho de amostra, ele se aventurou na discussão de super adaptação.

Deixe-me revisar parcialmente minha postagem anterior de que os modelos bayesianos podem se ajustar demais a todos os modelos bayesianos, mas de uma maneira que melhore a previsão. Novamente, voltando à definição de sinal confuso com ruído, a incerteza nos métodos bayesianos, a distribuição posterior, é a quantificação dessa incerteza quanto ao que é sinal e o que é ruído. Ao fazer isso, os métodos bayesianos estão apreendendo o ruído em estimativas de sinal, pois todo o posterior é usado em inferência e previsão. O sobreajuste e outras fontes de erro de classificação do modelo são um tipo diferente de problema nos métodos bayesianos.

Para simplificar, adotaremos a estrutura da palestra de Ma e focaremos na regressão linear e evitaremos a discussão de aprendizado profundo, porque, como ele aponta, os métodos alternativos mencionados são apenas composições de funções e existe uma ligação direta entre a lógica do linear. regressão e aprendizagem profunda.

Considere o seguinte modelo potencial Vamos criar uma ampla amostra do tamanho composta por duas subamostras, , em que é o conjunto de treinamento e é o conjunto de validação. Veremos por que, sujeitos a algumas ressalvas, os métodos bayesianos não precisam de um conjunto de treinamento e validação separado.

y = β_{0} + β_{1} x_{1} + β_{2} x_{2} + β_{3} x_{3} .

$y=\beta_0+\beta_1x_1+\beta_2x_2+\beta_3x_3.$

N

$N$

n_{1}, n_{2}

$n_1,n_2$

n_{1}

$n_1$

n_{2}

$n_2$

Para esta discussão, precisamos criar mais oito parâmetros, um para cada modelo. Eles são . Eles seguem uma distribuição multinomial e têm antecedentes adequados, assim como os coeficientes de regressão. Os oito modelos são e $m_1\dots{_8}$

y = β_{0} + β_{1} x_{1} + β_{2} x_{2} + β_{3} x_{3},

$y=\beta_0+\beta_1x_1+\beta_2x_2+\beta_3x_3,$

y = β_{0},

$y=\beta_0,$

y = β_{0} + β_{1} x_{1},

$y=\beta_0+\beta_1x_1,$

y = β_{0} + β_{2} x_{2},

$y=\beta_0+\beta_2x_2,$

y = β_{0} + β_{3} x_{3},

$y=\beta_0+\beta_3x_3,$

y = β_{0} + β_{1} x_{1} + β_{2} x_{2},

$y=\beta_0+\beta_1x_1+\beta_2x_2,$

y = β_{0} + β_{1} x_{1} + β_{3} x_{3},

$y=\beta_0+\beta_1x_1+\beta_3x_3,$

y = β_{0} + β_{2} x_{2} + β_{3} x_{3},

$y=\beta_0+\beta_2x_2+\beta_3x_3,$

y = β_{0} + β_{1} x_{1},

$y=\beta_0+\beta_1x_1,$

y = β_{0} + β_{2} x_{2},

$y=\beta_0+\beta_2x_2,$

y = β_{0} + β_{3} x_{3} .

$y=\beta_0+\beta_3x_3.$

Agora precisamos entender as diferenças entre os métodos Bayesiano e Frequentista. No conjunto de treinamento o modelador que usa métodos Frequentist escolhe apenas um modelo. O modelador que usa métodos bayesianos não é tão restrito. Embora o modelador bayesiano possa usar um critério de seleção de modelo para encontrar apenas um modelo, ele também é livre para usar a média do modelo. O modelador bayesiano também é livre para alterar modelos selecionados no meio do caminho no segmento de validação. Além disso, o modelador que usa métodos bayesianos pode misturar e combinar entre seleção e média. $n_1,$

Para dar um exemplo do mundo real, testei 78 modelos de falência. Dos 78 modelos, a probabilidade posterior combinada de 76 deles era de cerca de um milésimo de um por cento. Os outros dois modelos eram aproximadamente 54% e 46%, respectivamente. Felizmente, eles também não compartilharam nenhuma variável. Isso me permitiu selecionar os dois modelos e ignorar os outros 76. Quando eu tinha todos os pontos de dados para ambos, calculei a média de suas previsões com base nas probabilidades posteriores dos dois modelos, usando apenas um modelo quando havia pontos de dados ausentes que impediam o de outros. Embora eu tivesse um conjunto de treinamento e um conjunto de validação, não era pela mesma razão que um freqüentista os teria. Além disso, no final de cada dia, durante dois ciclos de negócios, atualizei meus posteriores com os dados de cada dia. Isso significava que meu modelo no final do conjunto de validação não era o modelo no final do conjunto de treinamento. Os modelos bayesianos não param de aprender, enquanto os modelos freqüentistas o fazem.

Para ir mais fundo, vamos ser concretos com nossos modelos. Suponhamos que, durante a amostra de treinamento, o modelo Frequentist mais adequado e o modelo Bayesiano usando seleção de modelo correspondessem ou, alternativamente, que o peso do modelo na média do modelo fosse tão grande que fosse quase indistinguível do modelo Frequentist. Vamos imaginar que esse modelo seja Vamos também imaginar que o verdadeiro modelo da natureza é

y = β_{0} + β_{1} x_{1} + β_{2} x_{2} + β_{3} x_{3} .

$y=\beta_0+\beta_1x_1+\beta_2x_2+\beta_3x_3.$

y = β_{0} + β_{1} x_{1} + β_{3} x_{3} .

$y=\beta_0+\beta_1x_1+\beta_3x_3.$

Agora vamos considerar a diferença no conjunto de validação. O modelo Frequentist é adaptado aos dados. Vamos supor que por algum momento que o procedimento de selecção do modelo ou validação tinha mudado a seleção para o modelo verdadeiro na natureza. Além disso, se a média do modelo foi usada, o modelo verdadeiro na natureza carregou peso na previsão muito antes da escolha dos modelos ser clara. ET Jaynes, em seu tomo sobre teoria das probabilidades, passa algum tempo discutindo essa questão. Eu tenho o livro no trabalho, então não posso lhe dar uma boa citação, mas você deve lê-lo. O ISBN é 978-0521592710. $n_2^i$

Modelos são parâmetros no pensamento bayesiano e, como tal, são aleatórios ou, se você preferir, incertos. Essa incerteza não termina durante o processo de validação. É atualizado continuamente.

Devido às diferenças entre os métodos Bayesiano e Frequentista, existem outros tipos de casos que também devem ser considerados. O primeiro vem da inferência de parâmetros, o segundo das previsões formais. Eles não são a mesma coisa nos métodos bayesianos. Os métodos bayesianos separam formalmente a inferência e a tomada de decisão. Eles também separam a estimativa e previsão de parâmetros.

Vamos imaginar, sem perda de generalidade, que um modelo seria bem-sucedido se uma falha de outra forma. Vamos ignorar os outros parâmetros, porque seria muito trabalho extra ter uma idéia simples. Para o modelador que usa métodos bayesianos, esse é um tipo de pergunta muito diferente do que para os que usam métodos freqüentistas. $\hat{\sigma^2}<k$

Para o Frequentist, um teste de hipótese é formado com base no conjunto de treinamento. O modelador que usa métodos Frequentist testaria se a variação estimada é maior ou igual e tentaria rejeitar o nulo sobre a amostra cujo tamanho é , fixando os parâmetros aos descobertos em . $k$ $n_2$ $n_1$

Para o modelador que usa métodos bayesianos, eles formariam estimativas de parâmetros durante a amostra e a densidade posterior de se tornaria o anterior para a amostra . Supondo que a propriedade de seja , é garantido que a estimativa posterior de seja igual em todos os sentidos da palavra da estimativa de probabilidade formada a partir da amostra conjunta. Dividi-los em duas amostras é equivalente, pela força da matemática, a não tê-los dividido. $n_1$ $n_1$ $n_2$ $n_2$

Para previsões, um problema semelhante é válido. Os métodos bayesianos têm uma distribuição preditiva que também é atualizada a cada observação, enquanto o método freqüentista é congelado no final da amostra . A densidade preditiva pode ser escrita como . Se é a previsão e é a amostra, onde estão os parâmetros, que iremos denotar $n_1$ $\Pr(\tilde{x}=k|\mathbf{X})$ $\tilde{x}$ $\mathbf{X}$ $\theta?$ Embora existam sistemas de previsão frequentemente, a maioria das pessoas trata as estimativas pontuais como parâmetros verdadeiros e calcula os resíduos. Os métodos bayesianos pontuariam cada previsão contra a densidade prevista, em vez de apenas um ponto. Essas previsões não dependem de parâmetros diferentes dos métodos pontuais usados nas soluções freqüentistas.

Como observação lateral, existem densidades preditivas freqüentistas formais usando os erros padrão, e a pontuação pode ser feita neles, mas isso é raro na prática. Se não houver conhecimento prévio específico, os dois conjuntos de previsões deverão ser idênticos para o mesmo conjunto de pontos de dados. Eles acabarão diferindo porque e, portanto, a solução bayesiana apreenderá mais informações. $n_1+n_2>n_1$

Se não houver informações prévias relevantes e se forem usadas densidades preditivas freqüentistas em vez de estimativas pontuais, para uma amostra fixa, os resultados dos métodos bayesiano e frequentista serão idênticos se um único modelo for escolhido. Se houver informações anteriores, o método bayesiano tenderá a gerar previsões mais precisas. Essa diferença pode ser muito grande na prática. Além disso, se houver média do modelo, é bem provável que o método bayesiano seja mais robusto. Se você usar a seleção de modelos e congelar as previsões bayesianas, não haverá diferença em usar um modelo Frequentist usando previsões Frequentist.

Usei um conjunto de teste e validação porque meus dados não eram intercambiáveis. Como resultado, eu precisava resolver dois problemas. O primeiro é semelhante ao burn-in nos métodos MCMC. Eu precisava de um bom conjunto de estimativas de parâmetros para iniciar minha sequência de teste e, portanto, usei cinquenta anos de dados anteriores para obter uma boa densidade anterior para iniciar meu teste de validação. O segundo problema era que eu precisava de algum tipo de período padronizado para testar, para que o teste não fosse questionado. Eu usei os dois ciclos comerciais anteriores, datados pelo NBER.

— Dave Harris
fonte

Mas, então, diga que você estimou um MAP para o modelo de regressão linear com anteriores "não informativos". Isso seria equivalente a obter a estimativa de máxima verossimilhança para o modelo, para que o ML também não precise de conjunto de testes, assumindo a permutabilidade?

— Tim

"overfitting é o fenômeno do ruído sendo tratado como sinal e apreendido na estimativa de parâmetros". Acredito que essa definição seja específica para modelos de ruído aditivo. Caso contrário, o ajuste excessivo vs o ajuste insuficiente não é tão bem definido.

— Cagdas Ozgenc

@CagdasOzgenc thanks. Você tem uma edição sugerida?

— Dave Harris

@ Tim Eu nunca mencionei o estimador MAP. Se você reduzir o problema ao estimador MAP, renunciará à robustez. O estimador MAP é o ponto que minimiza uma função de custo sobre uma densidade. Isso pode ser problemático para projeções se a densidade não possuir uma estatística suficiente. O estimador de MAP perderia intrinsecamente informações. Se você estava usando o estimador MAP, que não está na pergunta original e claramente não faz parte da apresentação de Ma, crie um conjunto diferente de problemas para si mesmo.

— Dave Harris

@ Tim O estimador MAP vem da teoria da decisão bayesiana e é uma sobreposição sobre a estimativa e inferência bayesiana. O MAP é conveniente. Há um preço a ser pago ao escolher a conveniência. A menos que a função de custo tudo ou nada seja sua verdadeira função de custo, você está entregando informações e precisão. Você também acaba com questões metodológicas diferentes das propostas na apresentação de Ma.

— Dave Harris