A validação cruzada provavelmente seria boa aqui. Para fazer isso, você divide seu conjunto de dados em 2 partes. Você usa a primeira parte para ajustar os dois modelos e, em seguida, usa o modelo ajustado para prever a segunda parte. Isso pode ser justificado como uma aproximação a uma abordagem totalmente bayesiana da seleção de modelos. Temos a probabilidade de um modeloMEu
p (d1d2. . .dN|MEuEu) = p (d1|MEuEu) × p (d2|d1MEuEu) × p (d3|d1d2MEuEu) × . .
. . × p (dN|d1d2. . .dN- 1MEuEu)
O que pode ser visto heuristicamente como uma sequência de previsões e depois de aprender com os erros. Você prevê o primeiro ponto de dados sem treinamento. Em seguida, você prediz o segundo ponto de dados depois de aprender sobre o modelo com o primeiro. Em seguida, você prediz o terceiro ponto de dados após usar os dois primeiros para aprender sobre o modelo e assim por diante. Agora, se você tiver um conjunto de dados suficientemente grande, os parâmetros do modelo se tornarão bem determinados além de uma certa quantidade de dados, e teremos, por algum valork:
p (dk + 2|d1. . . .dkdk + 1MEuEu) ≈ p (dk + 2|d1. . . .dkMEuEu)
O modelo não pode "aprender" mais sobre os parâmetros e basicamente está apenas prevendo com base no primeiro kobservações. Então eu escolheriak (o tamanho do primeiro grupo) seja grande o suficiente para que você possa ajustar com precisão o modelo, 20-30pontos de dados por parâmetro provavelmente são suficientes. Você também quer escolherk grande o suficiente para que a dependência no dk + 1. . .dN que está sendo ignorado não torna a aproximação inútil.
Então, eu simplesmente avaliaria as probabilidades de cada previsão e pegaria sua razão, interpretada como uma razão de probabilidade. Se a proporção é de cerca de1, nenhum dos modelos é particularmente melhor que o outro. Se estiver longe de1isso indica que um dos modelos está superando o outro. uma proporção abaixo de 5 é fraca, 10 é forte, 20 muito forte e 100, decisiva (correspondente recíproco para pequenos números).