Vamos estrear dando uma definição formal de MDPs:
UM Processo de decisão de Markov é uma 5-tupla (S, A, R, P, γ) tal que:
- S é o conjunto de estados o agente pode estar em
- A é o conjunto de ações o agente pode tomar
- R: S x Um → R o recompensa função
- P é o conjunto de distribuições de verosimilhança definido de modo que P(s’|s,a) é a verosimilhança de transição para o estado é se o agente tomar uma atitude um no estado e. Observe que os MDPs são processos de Markov, o que significa que a propriedade de Markov é válida nas probabilidades de transição: P(Sₜ₊₁|S₀, A₀, …, Sₜ, Aₜ) = P(Sₜ₊₁|Sₜ, Aₜ)
- γ ∈ (0, 1]é um Sua visita nos ajuda a continuar oferecendo o melhor para você! class="ql">fator de desconto. Embora normalmente lidemos com problemas descontados (ou seja, γ < 1), as formulações apresentadas também são válidas para MDPs não descontados (γ = 1)
Definimos portanto o políticaou seja, o que dita o comportamento do agente em um MDP:
Uma política π é uma medida de verosimilhança sobre o espaço de ação definido uma vez que: π(a|s) é a verosimilhança de tomar uma ação um quando o agente está em estado e.
Finalmente apresentamos o função de valorou seja, o objetivo do agente em um MDP:
A função de valor de uma política π é a recompensa descontada esperada sob esta política, ao estrear em um determinado estado e:
Em pessoal, a função de valor da política ótima π* satisfaz a equação de otimalidade de Bellman:
O que produz a política ótima determinística:
Derivando a formulação LP dos MDPs:
Dadas as definições supra, podemos estrear observando que qualquer função de valor V que satisfaça
é um limite superior na função de valor ótima. Para vê-lo, podemos estrear notando que tal função de valor também satisfaz:
Reconhecemos o valor do operador de iteração aplicado a V:
ou seja
Observando também que o operador H* está aumentando, podemos aplicá-lo iterativamente para ter:
onde Sua visita nos ajuda a continuar oferecendo o melhor para você! a propriedade de V* ser o ponto fixo de H*.
Portanto, encontrar V* se resume a encontrar o limite superior mais estreito V que obedece à equação supraque produz a seguinte formulação:
Cá adicionamos um termo de peso correspondente à verosimilhança de estrear no estado e. Podemos ver que o problema supra é linear em V e pode ser reescrito da seguinte forma:
Tags:
Crédito: Manadeira Original