O que está oculto e o que é observado
O que está oculto em um modelo de Markov oculto é o mesmo que está oculto em um modelo de mistura discreta; portanto, para maior clareza, esqueça a dinâmica do estado oculto e use um modelo de mistura finita como exemplo. O 'estado' neste modelo é a identidade do componente que causou cada observação. Nesta classe de modelo, tais causas nunca são observadas, portanto, a "causa oculta" é traduzida estatisticamente na alegação de que os dados observados têm dependências marginais que são removidas quando o componente de origem é conhecido. E estima-se que os componentes de origem sejam o que torna essa relação estatística verdadeira.
O que está oculto em uma rede neural de múltiplas camadas feedforward com unidades médias sigmóides são os estados dessas unidades, não as saídas que são alvo da inferência. Quando a saída da rede é uma classificação, ou seja, uma distribuição de probabilidade entre as possíveis categorias de saída, esses valores de unidades ocultas definem um espaço no qual as categorias são separáveis. O truque para aprender esse modelo é criar um espaço oculto (ajustando o mapeamento das unidades de entrada) dentro do qual o problema é linear. Consequentemente, limites de decisão não lineares são possíveis no sistema como um todo.
Generativo versus discriminativo
O modelo de mistura (e HMM) é um modelo do processo de geração de dados, às vezes chamado de probabilidade ou 'modelo futuro'. Quando associado a algumas suposições sobre as probabilidades anteriores de cada estado, é possível inferir uma distribuição sobre os valores possíveis do estado oculto usando o teorema de Bayes (uma abordagem generativa). Observe que, embora chamado de 'prior', o prior e os parâmetros na probabilidade geralmente são aprendidos com os dados.
Em contraste com o modelo de mistura (e HMM), a rede neural aprende uma distribuição posterior diretamente sobre as categorias de saída (uma abordagem discriminativa). Isso é possível porque os valores de saída foram observados durante a estimativa. E, como foram observadas, não é necessário construir uma distribuição posterior a partir de um modelo anterior e específico para a probabilidade, como uma mistura. O posterior é aprendido diretamente dos dados, que são mais eficientes e menos dependentes do modelo.
Misturar e combinar
Para tornar as coisas mais confusas, essas abordagens podem ser misturadas, por exemplo, quando o estado do modelo de mistura (ou HMM) às vezes é realmente observado. Quando isso é verdade, e em algumas outras circunstâncias não relevantes aqui, é possível treinar discriminativamente em um modelo generativo. Da mesma forma, é possível substituir o mapeamento do modelo de mistura de um HMM por um modelo avançado mais flexível, por exemplo, uma rede neural.
As questões
Portanto, não é bem verdade que os dois modelos prevejam o estado oculto. Os HMMs podem ser usados para prever o estado oculto, embora apenas do tipo que o modelo a frente está esperando. Redes neurais podem ser usadas para prever um estado ainda não observado , por exemplo, estados futuros para os quais preditores estão disponíveis. Este tipo de estado não está oculto em princípio, apenas não foi observado ainda.
Quando você usaria um e não o outro? Bem, redes neurais fazem modelos de séries temporais bastante estranhos na minha experiência. Eles também assumem que você observou a saída. Os HMMs não, mas você realmente não tem controle sobre qual é realmente o estado oculto. No entanto, eles são modelos de séries temporais adequados.