Reforço da aprendizagem

A biologia por trás do aprendizado do Reforço pode ser encontrada em Condicionamento Operante, e Recompensa

O aprendizado do reforço (RL) é ensinar um agente de software a se comportar em um ambiente, dizendo-lhe o quão bom ele está fazendo. É uma área de aprendizagem de máquinas inspirada na psicologia behaviorista.

O aprendizado de reforço é diferente do aprendizado supervisionado porque as entradas e saídas corretas nunca são mostradas. Além disso, o aprendizado de reforço geralmente aprende à medida que vai (aprendizado on-line), ao contrário do aprendizado supervisionado. Isto significa que um agente tem que escolher entre explorar e se ater ao que ele sabe melhor.

Introdução

Um sistema de aprendizado reforçado é feito de uma política ( π {\i} {\displaystyle \pi }), uma função de recompensa ( R {\i} {\displaystyle R}), uma função de valor ( v {\i}{\displaystyle v} ), e um modelo opcional do ambiente.

Uma política diz ao agente o que fazer em uma determinada situação. Pode ser uma simples tabela de regras, ou uma busca complicada pela ação correta. As políticas podem até ser estocásticas, o que significa que, em vez de regras, a política atribui probabilidades a cada ação. Uma política por si só pode fazer um agente fazer coisas, mas ele não pode aprender por si só.

Uma função de recompensa define o objetivo de um agente. Ela toma em um estado (ou um estado e a ação tomada naquele estado) e devolve um número chamado recompensa, que diz ao agente como é bom estar naquele estado. A função do agente é obter a maior quantidade de recompensa possível a longo prazo. Se uma ação render uma recompensa baixa, o agente provavelmente tomará uma ação melhor no futuro. A biologia usa sinais de recompensa como prazer ou dor para garantir que os organismos permaneçam vivos para se reproduzir. Os sinais de recompensa também podem ser estocásticos, como uma slot machine em um cassino, onde às vezes eles pagam e às vezes não pagam.

Uma função de valor diz a um agente quanta recompensa ele receberá seguindo uma política π {\displaystyle \pi }{\displaystyle s}é desejável estar em um determinado estado. Como a função de valor não é dada diretamente ao agente, ele precisa apresentar um bom palpite ou estimativa com base na recompensa que recebeu até agora. A estimativa da função de valor é a parte mais importante da maioria dos algoritmos de aprendizagem de reforço.

Um modelo é a cópia mental do ambiente do agente. Ele é usado para planejar ações futuras.

Sabendo disso, podemos falar sobre o loop principal para um episódio de aprendizado de reforço. O agente interage com o ambiente em etapas de tempo discretas. Pense nisso como o "tick-tock" de um relógio. Com o tempo discreto, as coisas só acontecem durante os "ticks" e os "tocks", e não no meio. Em cada tempo t = 0 , 1 , 2 , 3 , . . {\i1}displaystyle t=0,1,2,3,... } {\displaystyle t=0,1,2,3,...}o agente observa o estado do meio ambiente S t e {\displaystyle S_{t}}escolhe uma ação A t {\displaystyle A_{t}}baseada em uma política π. {\displaystyle \pi }. Na próxima etapa, o agente recebe um sinal de recompensa R t + 1 {t+1}} {\displaystyle R_{t+1}}e uma nova observação S t + 1 S_{t+1}}displaystyle S_{t+1}}. {\displaystyle S_{t+1}}. A função de valor v ( S t ) {\i} {\i1} {\displaystyle v(S_{t})}é atualizada usando a recompensa. Isto continua até que um estado terminal S T {\i} {\i1}- estilo de exibição S_{T}}{\displaystyle S_{T}} seja alcançado.

Zoom



AlegsaOnline.com - 2020 / 2023 - License CC3