De fato, um processo de decisão markoviano tem a ver com a passagem de um estado para outro e é usado principalmente para planejamento e tomada de decisão .
A teoria
Apenas repetindo a teoria rapidamente, um MDP é:
MDP = ⟨ S, A , T, R , γ⟩
onde S são os estados, UMA as ações, T as probabilidades de transição (ou seja, as probabilidades Pr ( s′| s,um) de ir de um estado para outro, dada uma ação), R as recompensas (dado um determinado estado, e possivelmente ação) e γ é um fator de desconto usado para reduzir a importância das recompensas futuras.
Portanto, para usá-lo, você precisa ter predefinido:
- Estados : eles podem se referir, por exemplo, a mapas de grade em robótica, ou, por exemplo, porta aberta e porta fechada .
- Ações : um conjunto fixo de ações, como, por exemplo, ir para o norte, sul, leste, etc. para um robô ou abrir e fechar uma porta.
- Probabilidades de transição : a probabilidade de ir de um estado para outro, dada uma ação. Por exemplo, qual é a probabilidade de uma porta aberta se a ação estiver aberta . Em um mundo perfeito, o posterior poderia ser 1.0, mas se for um robô, poderia ter falhado ao manipular a maçaneta da porta corretamente. Outro exemplo no caso de um robô em movimento seria a ação norte , que na maioria dos casos o traria na célula da grade ao norte, mas em alguns casos poderia ter se movido demais e atingido a célula seguinte, por exemplo.
- Recompensas : são usadas para orientar o planejamento. No caso do exemplo da grade, podemos querer ir para uma determinada célula, e a recompensa será maior se nos aproximarmos. No caso do exemplo da porta, uma porta aberta pode dar uma alta recompensa.
Uma vez definido o MDP, é possível aprender uma política fazendo Iteração de Valor ou Iteração de Política, que calcula a recompensa esperada para cada um dos estados. A política fornece, por estado, a melhor ação ( conforme o modelo MDP) a ser executada.
Em resumo, um MDP é útil quando você deseja planejar uma sequência eficiente de ações nas quais suas ações nem sempre podem ser 100% eficazes.
Suas perguntas
Pode ser usado para prever coisas?
Eu chamaria isso de planejamento, não prevendo como regressão, por exemplo.
Se sim, que tipos de coisas?
Veja exemplos .
Consegue encontrar padrões entre quantidades infinitas de dados?
| S|
O que esse algoritmo pode fazer por mim.
Veja exemplos .
Exemplos de aplicações de MDPs
- White, DJ (1993) menciona uma grande lista de aplicações:
- Colheita: quanto membros de uma população devem ser deixados para procriar.
- Agricultura: quanto plantar com base no clima e no estado do solo.
- Recursos hídricos: mantenha o nível correto de água nos reservatórios.
- Inspeção, manutenção e reparo: quando substituir / inspecionar com base na idade, condição, etc.
- Compra e produção: quanto produzir com base na demanda.
- Filas: reduza o tempo de espera.
- ...
- Finanças: decidir quanto investir em ações.
- Robótica:
E existem mais alguns modelos. Um modelo ainda mais interessante é o Processo de Decisão Markoviano Parcialmente Observável, no qual os estados não são completamente visíveis. Em vez disso, as observações são usadas para se ter uma idéia do estado atual, mas isso está fora do escopo desta questão.
informação adicional
Um processo estocástico é markoviano (ou possui a propriedade Markov) se a distribuição de probabilidade condicional dos estados futuros depender apenas do estado atual e não dos anteriores (ou seja, não de uma lista de estados anteriores).