A biologia por trás do aprendizado do Reforço pode ser encontrada em Condicionamento Operante, e Recompensa

O aprendizado do reforço (RL) é ensinar um agente de software a se comportar em um ambiente, dizendo-lhe o quão bom ele está fazendo. É uma área de aprendizagem de máquinas inspirada na psicologia behaviorista.

O aprendizado de reforço é diferente do aprendizado supervisionado porque as entradas e saídas corretas nunca são mostradas. Além disso, o aprendizado de reforço geralmente aprende à medida que vai (aprendizado on-line), ao contrário do aprendizado supervisionado. Isto significa que um agente tem que escolher entre explorar e se ater ao que ele sabe melhor.