Učitavanje video playera...
00:39:26
Ivan Gavran: Istovremeno učenje strategija i Mealyjevih mašina u RL-u
Standardni model za podržano učenje (Reinforcement Learning) jest Markov decision process (MDP). Takozvana Markovljeva pretpostavka u MDP-u je da nagrada koju agent dobiva ovisi samo o posljednjem stanju MDP-a i agentovoj akciji. Ta pretpostavka, ipak, često nije zadovoljena ako problem modeliramo izravno: robot koji donese šalicu dobit će različitu nagradu u ovisnosti o tome je li šalica prazna ili puna kave (to jest, je li robot prije donošenja šalice otišao do kuhinje napuniti je). Kako bismo zadovoljili Markovljevu pretpostavku, potrebno je redefinirati stanje MDP-a (u primjeru s kavom, dodavanjem jedne varijable, koja bi pratila je li šalica puna ili prazna). Pokušavajući identificirati najkoncizniji način za redefiniranje stanja u situacijama gdje Markovljeva pretpostavka nije zadovoljena, dosadašnji radovi sugerirali su korištenje konačnih automata u jednostavnom slučaju ili Mealyjevih mašina (koristi se još i ime reward machines) u generalnom slučaju i inkorporirali ih u standardni q-learning algoritam. Ti radovi podrazumijevaju da će onaj tko zadaje zadatak biti u stanju i definirati pripadajuću Mealyjevu mašinu. To ipak nije samorazumljivo: što ako nagrade nisu eksplicitno zadane nego dolaze iz okoline? U ovom seminaru govorit ću o modifikaciji postojećih algoritama kako bi mogli naučiti odgovarajuću mašinu kroz interakciju s okolinom.
Objavljeno: 21.12.2020
Unutar kategorije: Obrazovanje
VoD paketi: LORA