Ivan Gavran: Istovremeno učenje strategija i Mealyjevih mašina u RL-u
Standardni model za podržano učenje (Reinforcement Learning) jest Markov decision process (MDP). Takozvana Markovljeva pretpostavka u MDP-u je da nagrada koju agent dobiva ovisi samo o posljednjem stanju MDP-a i agentovoj akciji. Ta pretpostavka, ipak, često nije zadovoljena ako problem modeliramo
izravno: robot koji donese šalicu dobit će različitu nagradu u ovisnosti o tome je li šalica prazna ili puna kave (to jest, je li robot prije donošenja šalice otišao do kuhinje napuniti je). Kako bismo zadovoljili Markovljevu pretpostavku, potrebno je redefinirati stanje MDP-a (u primjeru s kavom, dodavanjem jedne varijable, koja bi pratila je li šalica puna ili prazna).
Pokušavajući identificirati najkoncizniji način za redefiniranje stanja u situacijama gdje Markovljeva pretpostavka nije zadovoljena, dosadašnji radovi sugerirali
su korištenje konačnih automata u jednostavnom slučaju ili Mealyjevih mašina (koristi se još i ime reward machines) u generalnom slučaju i inkorporirali ih u standardni q-learning algoritam. Ti radovi podrazumijevaju da će onaj tko zadaje zadatak biti u stanju i definirati pripadajuću Mealyjevu mašinu. To ipak nije
samorazumljivo: što ako nagrade nisu eksplicitno zadane nego dolaze iz
okoline? U ovom seminaru govorit ću o modifikaciji postojećih algoritama
kako bi mogli naučiti odgovarajuću mašinu kroz interakciju s okolinom.