CARNET Meduza

Error loading media: File could not be played

00:0000:0000:00

00:00

00:39:26

Ivan Gavran: Istovremeno učenje strategija i Mealyjevih mašina u RL-u

Standardni model za podržano učenje (Reinforcement Learning) jest Markov decision process (MDP). Takozvana Markovljeva pretpostavka u MDP-u je da nagrada koju agent dobiva ovisi samo o posljednjem stanju MDP-a i agentovoj akciji. Ta pretpostavka, ipak, često nije zadovoljena ako problem modeliramo izravno: robot koji donese šalicu dobit će različitu nagradu u ovisnosti o tome je li šalica prazna ili puna kave (to jest, je li robot prije donošenja šalice otišao do kuhinje napuniti je). Kako bismo zadovoljili Markovljevu pretpostavku, potrebno je redefinirati stanje MDP-a (u primjeru s kavom, dodavanjem jedne varijable, koja bi pratila je li šalica puna ili prazna). Pokušavajući identificirati najkoncizniji način za redefiniranje stanja u situacijama gdje Markovljeva pretpostavka nije zadovoljena, dosadašnji radovi sugerirali su korištenje konačnih automata u jednostavnom slučaju ili Mealyjevih mašina (koristi se još i ime reward machines) u generalnom slučaju i inkorporirali ih u standardni q-learning algoritam. Ti radovi podrazumijevaju da će onaj tko zadaje zadatak biti u stanju i definirati pripadajuću Mealyjevu mašinu. To ipak nije samorazumljivo: što ako nagrade nisu eksplicitno zadane nego dolaze iz okoline? U ovom seminaru govorit ću o modifikaciji postojećih algoritama kako bi mogli naučiti odgovarajuću mašinu kroz interakciju s okolinom.

Objavljeno: 21.12.2020

Unutar kategorije: Obrazovanje

VoD paketi: LORA

Srodni zapisi

Vedran Čačić: Proširenje signature teorije NFU (2)

Zvonimir Šikić: O ekvivalenciji, dokazima obrata i neiterabilnosti indukcije

Marko Horvat, Izračunljive aproksimacije poluizračunljivih lančastih kontinuuma

Validžić, Topološka semantika logikâ konzervativnosti i interpretabilnosti

Vedran Čačić: Teorem Tarskog u teoriji NFU

Validžić, Topološka semantika logikâ konzervativnosti i interpretabilnosti 2

Tajana Ban Kirigin: Modeliranje resursa u verifikaciji sigurnosnih protokola

Ivan Tomašić: Galoisova teorija u toposima

Vedran Čačić: Ovjereni algoritam za stratifikaciju

Zoran Ognjanović: Logics with probability operators