O que se quer dizer quando dizemos que temos um modelo saturado?
O que se quer dizer quando dizemos que temos um modelo saturado?
Respostas:
Um modelo saturado é aquele em que existem tantos parâmetros estimados quanto pontos de dados. Por definição, isso levará a um ajuste perfeito, mas será pouco útil estatisticamente, pois você não tem dados para estimar a variação.
Por exemplo, se você tiver 6 pontos de dados e ajustar um polinômio de 5ª ordem aos dados, teria um modelo saturado (um parâmetro para cada um dos 5 poderes de sua variável independente mais um para o termo constante).
Um modelo saturado é um modelo super parametrizado a ponto de basicamente interpolar os dados. Em algumas configurações, como compactação e reconstrução de imagem, isso não é necessariamente uma coisa ruim, mas se você está tentando criar um modelo preditivo, é muito problemático.
Em suma, os modelos saturados levam a preditores de variação extremamente alta que estão sendo empurrados pelo ruído mais do que pelos dados reais.
Como um experimento mental, imagine que você tenha um modelo saturado e haja ruído nos dados, depois imagine ajustá-lo algumas centenas de vezes, cada vez com uma realização diferente do ruído e prevendo um novo ponto. É provável que você obtenha resultados radicalmente diferentes a cada vez, tanto para o seu ajuste quanto para a sua previsão (e os modelos polinomiais são especialmente notórios nesse sentido); em outras palavras, a variação do ajuste e do preditor são extremamente altos.
Por outro lado, um modelo que não está saturado fornecerá (se construído razoavelmente) ajustes mais consistentes entre si, mesmo com diferentes realizações de ruído, e a variação do preditor também será reduzida.
Um modelo é saturado se, e somente se, tiver tantos parâmetros quanto pontos de dados (observações). Em outras palavras, em modelos não saturados, os graus de liberdade são maiores que zero.
Isso basicamente significa que esse modelo é inútil, porque não descreve os dados de maneira mais parcimoniosa do que os dados brutos (e descrever dados parcimoniosamente é geralmente a idéia por trás do uso de um modelo). Além disso, modelos saturados podem (mas não necessariamente) fornecer um ajuste perfeito (inútil) porque eles apenas interpolam ou iteram os dados.
Tomemos, por exemplo, a média como modelo para alguns dados. Se você tiver apenas um ponto de dados (por exemplo, 5), usando a média (ou seja, 5; observe que a média é um modelo saturado para apenas um ponto de dados) não ajuda em nada. No entanto, se você já possui dois pontos de dados (por exemplo, 5 e 7), usar a média (por exemplo, 6) como modelo fornece uma descrição mais parcimoniosa que os dados originais.
Como todo mundo disse antes, significa que você tem tantos parâmetros quanto pontos de dados. Portanto, não há testes de ajuste de qualidade. Mas isso não significa que "por definição", o modelo possa se encaixar perfeitamente em qualquer ponto de dados. Posso dizer por experiência pessoal de trabalhar com alguns modelos saturados que não foram capazes de prever pontos de dados específicos. É bastante raro, mas possível.
Outra questão importante é que saturado não significa inútil. Por exemplo, nos modelos matemáticos da cognição humana, os parâmetros do modelo estão associados a processos cognitivos específicos que têm um embasamento teórico. Se um modelo estiver saturado, você poderá testar sua adequação fazendo experimentos focados com manipulações que devem afetar apenas parâmetros específicos. Se as previsões teóricas correspondem às diferenças observadas (ou à falta de) nas estimativas de parâmetros, pode-se dizer que o modelo é válido.
Um exemplo: imagine, por exemplo, um modelo que possua dois conjuntos de parâmetros, um para processamento cognitivo e outro para respostas motoras. Imagine agora que você tem um experimento com duas condições, uma na qual a capacidade de resposta dos participantes é prejudicada (eles podem usar apenas uma mão em vez de duas) e na outra condição não há comprometimento. Se o modelo for válido, diferenças nas estimativas de parâmetros para ambas as condições devem ocorrer apenas para os parâmetros de resposta do motor.
Além disso, esteja ciente de que, mesmo que um modelo não seja saturado, ele ainda pode não ser identificável, o que significa que diferentes combinações de valores de parâmetros produzem o mesmo resultado, o que compromete qualquer ajuste do modelo.
Se você deseja encontrar mais informações sobre essas questões em geral, consulte estes documentos:
Bamber, D. & van Santen, JPH (1985). Quantos parâmetros um modelo pode ter e ainda pode ser testado? Jornal de Psicologia Matemática, 29, 443-473.
Bamber, D. & van Santen, JPH (2000). Como avaliar a testabilidade e a identificabilidade de um modelo. Jornal de Psicologia Matemática, 44, 20-40.
Felicidades
Também é útil se você precisar calcular o AIC para um modelo de quase-probabilidade. A estimativa de dispersão deve vir do modelo saturado. Você dividiria o LL que está ajustando pela dispersão estimada do modelo saturado no cálculo da AIC.
No contexto de SEM (ou análise de caminho), um modelo saturado ou um modelo recém-identificado é um modelo em que o número de parâmetros livres é exatamente igual ao número de variações e covariâncias únicas. Por exemplo, o modelo a seguir é um modelo saturado porque existem 3 * 4/2 pontos de dados (variações e covariâncias exclusivas) e também 6 parâmetros livres a serem estimados: