Para responder à sua pergunta: você pode usar a densidade de suavização. Mas você não precisa. A resposta de Jarle Tufto tem a decomposição que você está usando. Mas existem outros.
Usando as recursões de Kalman
Aqui você está avaliando a probabilidade de
f(y1,…,yn)=f(y1)∏i=2nf(yi|y1,…,yi−1).
Entretanto, meios e variações nem sempre definem completamente as distribuições de probabilidade em geral. A seguir, é apresentada a decomposição que você está usando para passar de filtrar as distribuições até as probabilidades condicionais :f(xi−1|y1,…,yi−1)f(yi|y1,…,yi−1)
f(yi|y1,…,yi−1)=∬f(yi|xi)f(xi|xi−1)f(xi−1|y1,…,yi−1)dxidxi−1.(1)
Aqui é a densidade de transição de estado ... parte do modelo é a densidade de observação ... parte do modelo novamente. Na sua pergunta, você as escreve como e respectivamente. É a mesma coisa.f(xi|xi−1)f(yi|xi)xt+1=Fxt+vt+1yt=Hxt+Azt+wt
Quando você obtém a distribuição de previsão de estado um passo à frente, está computando . Quando você se integra novamente, você obtém (1) completamente. Você escreve essa densidade completamente na sua pergunta, e é a mesma coisa.∫f(xi|xi−1)f(xi−1|y1,…,yi−1)dxi−1
Aqui você está usando apenas decomposições de distribuições de probabilidade e suposições sobre o modelo. Esse cálculo de probabilidade é um cálculo exato. Não há nada discricionário que você possa usar para fazer isso melhor ou pior.
Usando o algoritmo EM
Que eu saiba, não há outra maneira de avaliar a probabilidade diretamente nesse tipo de modelo de espaço de estado. No entanto, você ainda pode fazer uma estimativa de probabilidade máxima avaliando uma função diferente: você pode usar o algoritmo EM. Na etapa Expectativa (E-Step), você computaria
Aqui
∫f(x1,…,xn|y1,…yn)logf(y1,…,yn,x1,…,xn)dx1:n=Esmooth[logf(y1,…,yn,x1,…,xn)].
f(y1,…,yn,x1,…,xn)é a probabilidade de "dados completos" e você está considerando a expectativa do log em relação à densidade de suavização da junta. O que geralmente acontece é que, porque você está assumindo o log dessa probabilidade de dados completa, os termos são divididos em somas e, devido à linearidade do operador de expectativa, você está assumindo expectativas em relação às distribuições de suavização marginal (aquelas você menciona na sua pergunta).
Outras coisas
Li em alguns lugares que o EM é uma maneira "mais estável" de maximizar a probabilidade, mas nunca vi esse ponto argumentar bem, nem vi a palavra "estável" definida, mas também não realmente não examinou isso mais. Nenhum desses algoritmos contorna a provação máxima local / global. Pessoalmente, costumo usar o Kalman com mais frequência apenas por hábito.
É verdade que as estimativas suavizadas do estado têm uma variação menor normalmente do que a filtragem, então acho que você está certo em ter alguma intuição sobre isso, mas não está realmente usando os estados. A probabilidade que você está tentando maximizar não é uma função dos estados.