Incerteza nos processos de decisão de Markov: uma abordagem robusta…

Incerteza nos processos de decisão de Markov: uma abordagem robusta...

Vamos estrear dando uma definição formal de MDPs:

UM Processo de decisão de Markov é uma 5-tupla (S, A, R, P, γ) tal que:

  • S é o conjunto de estados o agente pode estar em
  • A é o conjunto de ações o agente pode tomar
  • R: S x Um → R o recompensa função
  • P é o conjunto de distribuições de verosimilhança definido de modo que P(s’|s,a) é a verosimilhança de transição para o estado é se o agente tomar uma atitude um no estado e. Observe que os MDPs são processos de Markov, o que significa que a propriedade de Markov é válida nas probabilidades de transição: P(Sₜ₊₁|S₀, A₀, …, Sₜ, Aₜ) = P(Sₜ₊₁|Sₜ, Aₜ)
  • γ ∈ (0, 1]é um Sua visita nos ajuda a continuar oferecendo o melhor para você! class="ql">fator de desconto. Embora normalmente lidemos com problemas descontados (ou seja, γ < 1), as formulações apresentadas também são válidas para MDPs não descontados (γ = 1)

Definimos portanto o políticaou seja, o que dita o comportamento do agente em um MDP:

Uma política π é uma medida de verosimilhança sobre o espaço de ação definido uma vez que: π(a|s) é a verosimilhança de tomar uma ação um quando o agente está em estado e.

Finalmente apresentamos o função de valorou seja, o objetivo do agente em um MDP:

A função de valor de uma política π é a recompensa descontada esperada sob esta política, ao estrear em um determinado estado e:

Em pessoal, a função de valor da política ótima π* satisfaz a equação de otimalidade de Bellman:

O que produz a política ótima determinística:

Derivando a formulação LP dos MDPs:

Dadas as definições supra, podemos estrear observando que qualquer função de valor V que satisfaça

é um limite superior na função de valor ótima. Para vê-lo, podemos estrear notando que tal função de valor também satisfaz:

Reconhecemos o valor do operador de iteração aplicado a V:

ou seja

Observando também que o operador H* está aumentando, podemos aplicá-lo iterativamente para ter:

onde Sua visita nos ajuda a continuar oferecendo o melhor para você! a propriedade de V* ser o ponto fixo de H*.

Portanto, encontrar V* se resume a encontrar o limite superior mais estreito V que obedece à equação supraque produz a seguinte formulação:

Cá adicionamos um termo de peso correspondente à verosimilhança de estrear no estado e. Podemos ver que o problema supra é linear em V e pode ser reescrito da seguinte forma:

Tags:

Crédito: Manadeira Original

Sua visita nos ajuda a continuar oferecendo o melhor para você! 20px;">Facilitando a transição de carreira com uma abordagem clara e objetiva.
Adriano Pina

Adriano Pina

Análise de Sistemas | SEO e Google Ads | Fundador da Loja Script PHP Aqui & Marca Shoslh de tecnologia

Especialista em transformar ideias em soluções digitais e acelerar o crescimento online.

Deixe um comentário

Tem perguntas? Nos envia sua mensagem 24/7!

(17) 99100-0874

Endereço & Contato

Centro, Interior de São Paulo
E-mail: [email protected]

Links Úteis
BAIXAR APP | SCRIPT PHP AQUI
Certificados
0
    0
    Seu carrinho
    Seu carrinho está vazio

    Usamos cookies para garantir que oferecemos a melhor experiência em nosso site. 

       

    X

    Clique em um de nossos representantes abaixo para conversar no WhatsApp ou envie um email para: 📧 [email protected]

    Precisa de ajuda fale conosco?