- O agente pode ter um modelo interno do ambiente
- Dinâmica: como as ações alteram o estado
- Recompensas: qual a recompensa de cada estado
- O modelo pode ser imperfeito
-
O layout representa o modelo de transições: \(P^a_{ss'} \)
-
Os números representam o Reforço imediato \(R^a_s \) para cada estado \(s\) (o mesmo para cada \(a \) )
Categorizando Agentes de RL
Agentes de RL podem ser classificados de acordo com os componentes que utilizam.
- Baseado apenas em função de valor de estado
- Não possui política explícita
- Baseado apenas em política:
- Não utiliza função de valor de estado
- Actor-Critic: combina política e função de valor de estado
Outra forma de classificação é baseada no uso de modelo do ambiente.
- Livre de modelo:
- Usa política e/ou value function diretamente
- Baseado em modelo: utiliza modelo do ambiente
- Pode usar política e/ou função de valor de estado junto com o model
Aprendizado e Planejamento
Dois problemas fundamentais na tomada de decisão sequencial.
Aprendizado:
- ambiente é inicialmente desconhecido
- O agente interage com o ambiente e melhora sua política
Planejamento:
- um modelo do ambiente é conhecido
- O agente realiza computações com o modelo (sem interação externa) e melhora sua política
outros nomes: Deliberação, Raciocínio, Introspecção, Reflexão, Pensamento, Busca
Exemplo: ação
- Regras do jogo são consideradas como desconhecidas
- Aprende diretamente da interação com o jogo
- Faça uma ação, veja a imagem e os pontos
Exemplo: planejamento
O agente usa um modelo conhecido do ambiente para simular o futuro.
- As regras do jogo são conhecidas
- É possível consultar o emulador
- Existe um modelo perfeito dentro do “cérebro” do agente
- Se o agante toma a ação \(a\) no estado \(s\):
- qual será o próximo estado?
- qual será a pontuação?
- o agente pode planejar à frente para encontrar a política ótima
Exploração
Um algoritmo pode focar em buscar mais informações sobre o ambiente ou otimizar a informação conhecida para maximar a recompensa
Escolha de restaurante
- Ir ao restaurante favorito
- Experimentar um restaurante novo
Jogos
- Fazer a melhor jogada
- Tentar uma jogada diferente
Predição e controle
Predição
- availar o futuro dado uma política
Controle
- otimizar uma política para achar a melhor

Módulo 4 - parte 2
Aprendizado por Reforço
Processos de Decisão de Markov
Introdução aos MDPs
Processos de Decisão de Markov descrevem formalmente um ambiente
para aprendizado por reforço.
- O ambiente é totalmente observável
- O estado atual caracteriza completamente o processo
- Quase todos os problemas de RL podem ser formulados como MDPs
- Controle ótimo trata principalmente de MDPs contínuos
- Problemas parcialmente observáveis podem ser convertidos em MDPs
Propriedade de Markov
O futuro é independente do passado dado o presente.
\( \mathbb{P}[S_{t+1}|S_t] = \mathbb{P}[S_{t+1}|S1,...,S_t] \)
- Um estado é Markov se satisfaz essa propriedade
- O estado captura toda a informação relevante do histórico
- Uma vez conhecido o estado, o histórico pode ser descartado
- O estado é uma estatística suficiente do futuro
Matriz de Transição de Estados
Para um estado de Markov s e um estado sucessor s′,
a probabilidade de transição é definida por:
\(P_{ss'} = \mathbb{P}[S_{t+1}=s' |S_t=S] \)
- A matriz P reúne todas as probabilidades de transição
- Cada elemento representa a transição de s para s′
- Linhas correspondem ao estado atual
- Colunas correspondem ao próximo estado
- A soma dos elementos de cada linha é igual a 1
\[
P =
\begin{array}{c}
\\[-1.5ex]
\text{de}
\end{array}
\left[
\begin{array}{cccc}
P_{11} & \cdots & \cdots & P_{1n} \\
\vdots & \ddots & & \vdots \\
\vdots & & \ddots & \vdots \\
P_{n1} & \cdots & \cdots & P_{nn}
\end{array}
\right]
\begin{array}{c}
\\[-6.5em]
\text{para}
\end{array}
\]
Processo de Markov
Um Processo de Markov é um processo aleatório sem memória,
composto por uma sequência de estados aleatórios.
- Também é chamado de Cadeia de Markov
- É definido pela tupla ⟨S, P⟩
- S é o conjunto finito de estados
- P é a matriz de probabilidades de transição
\(P_{ss'} = \mathbb{P}[S_{t+1}=s' |S_t=S] \)
Episódios de Exemplo
Sequências geradas pela Cadeia de Markov do estudante, iniciando em S1 = C1.
- C1 → C2 → C3 → Pass → Sleep
- C1 → FB → FB → C1 → C2 → Sleep
- C1 → C2 → C3 → Pub → C2 → C3 → Pass → Sleep
- C1 → FB → FB → C1 → C2 → C3 → Pub → C1 → FB → FB
- FB → C1 → C2 → C3 → Pub → C2 → Sleep
Matriz de transições
\[
P =
\begin{array}{c|ccccccc}
& C1 & C2 & C3 & Pass & Pub & FB & Sleep \\ \hline
C1 & 0 & 0.5 & 0 & 0 & 0 & 0.5 & 0 \\
C2 & 0 & 0 & 0.8 & 0 & 0 & 0 & 0.2 \\
C3 & 0 & 0 & 0 & 0.6 & 0.4 & 0 & 0 \\
Pass & 0 & 0 & 0 & 0 & 0 & 0 & 1.0 \\
Pub & 0.2 & 0.4 & 0.4 & 0 & 0 & 0 & 0 \\
FB & 0.1 & 0 & 0 & 0 & 0 & 0.9 & 0 \\
Sleep & 0 & 0 & 0 & 0 & 0 & 0 & 1.0
\end{array}
\]
Processo de recompensa de Markov
Um Processo de Recompensa de Markov é uma Cadeia de Markov com recompensas.
- É definido pela tupla ⟨S, P, R, γ⟩
- S é o conjunto finito de estados
- P é a matriz de probabilidades de transição
- R é a função de recompensa
\( R_s = \mathbb{E}_{\pi}[R_{t+1}+\gamma R_{t+2} + \gamma^{2}R_{t+3}+...|S_t=S ] \)
γ é o fator de desconto, com γ ∈ [0, 1]
- Perto de 0, leva a uma avalição "curta"
- Perto de 1, leva a uma avalição "longa"
Por que usar desconto?
A maioria dos Processos de Recompensa e Decisão de Markov utiliza fator de desconto.
- Torna a formulação matemática mais conveniente
- Evita retornos infinitos em processos cíclicos
- Incertezas futuras podem não estar totalmente representadas
- Recompensas imediatas podem gerar mais retorno
- Humanos e animais preferem recompensas imediatas
- É possível usar γ = 1 quando todos os episódios terminam
Recompensa Amostrais do estudante - MRP
\(G_1 = R_2 + \gamma R_3 + \cdots + \gamma^{T-2} R_T\)

Supondo \(\gamma = 1/2\)

Bellman Equation (MRP)
Decomposição fundamental do valor em MRPs.
\(v(s) = \mathbb{E}[R_{t+1} + \gamma v(S_{t+1}) \mid S_t = s]\)
\(v(s) = R_s + \gamma \sum_{s'} P_{ss'} v(s')\)
Complexidade Computacional
Resolver diretamente não escala bem.
- Complexidade: \(O(n^3)\)
- Bom apenas para MRPs pequenos
- Para grandes problemas: métodos iterativos
An Introduction to Reinforcement Learning, Sutton and Barto, 1998 - http://webdocs.cs.ualberta.ca/∼sutton/book/the-book.html
Algorithms for Reinforcement Learning, Szepesvari Morgan and Claypool, 2010 - http://www.ualberta.ca/∼szepesva/papers/RLAlgsInMDPs.pdf
Referências
https://medium.com/@jer_zhang/a-survey-of-reinforcement-learning-techniques-for-2d-and-3d-bipedal-locomotion-2f82f455396a
https://davidstarsilver.wordpress.com/wp-content/uploads/2025/04/intro_rl.pdf
https://web.stanford.edu/class/cs234/modules.html