Mis vahe on Q-õppe ja SARSA-õppe vahel?


Vastus 1:

Suurim erinevus Q-õppe ja SARSA vahel on see, et Q-õpe on poliitikaväline ja SARSA on-poliitika.

Allpool toodud võrrandid näitavad värskendatud võrrandit Q-õppe ja SARSA jaoks:

Q-õpe:

Q(st,at)Q(st,at)+α[rt+1+γmaxaQ(st+1,a)Q(st,at)]Q(s_t,a_t)\leftarrow Q(s_t,a_t)+\alpha[r_{t+1}+\gamma \underset{a}{\max} Q(s_{t+1},a)-Q(s_t,a_t)]

SARSA:

Q(st,at)Q(st,at)+α[rt+1+γQ(st+1,at+1)Q(st,at)]Q(s_t,a_t)\leftarrow Q(s_t,a_t)+\alpha[r_{t+1}+\gamma Q(s_{t+1},a_{t+1})-Q(s_t,a_t)]

Need näevad välja enamasti samad, välja arvatud see, et Q-õppes värskendame oma Q-funktsiooni, eeldades, et tegutseme

aa

mis maksimeerib meie olekujärgse Q funktsiooni

Q(st+1,a).Q(s_{t+1},a).

SARSA-s kasutame sama poliitikat (st epsilon-ahne), mis genereeris eelmise toimingu

ata_t

järgmise toimingu genereerimiseks,

at+1a_{t+1}

mida värskenduste saamiseks läbime oma Q-funktsiooni kaudu,

Q(st+1,at+1).Q(s_{t+1},a_{t+1}).

(Seetõttu nimetati algoritmi SARSA, riik-tegevus-tasu-riik-tegevus).

Intuitiivselt on SARSA põhimõtteline, kuna praeguse toimingu genereerimiseks kasutame sama poliitikat

ata_t

ja järgmine tegevus

at+1.a_{t+1}.

Seejärel hindame oma poliitikameetmete valikut ja parandame seda, parandades Q-funktsiooni hinnanguid.

Q-õppe jaoks ei ole meil järgmise tegevuse valimisel mingeid piiranguid, ainult et meil on selline “optimistlik” seisukoht, et kõik edasised toimingute valikud igast osariigist peaksid olema optimaalsed, seega valime tegevuse

aa

mis maksimeerib

Q(st+1,a).Q(s_{t+1},a).

See tähendab, et Q-õppe abil saame anda talle andmeid, mis on loodud mis tahes käitumispõhimõtete alusel (asjatundlikud, juhuslikud, isegi halvad põhimõtted), ja see peaks õppima optimaalsed Q-väärtused, kui on piisavalt andmeproove.