劇的に貴重な逆強化学習のサーベイ論文。基本的な仕組みから活用用途までが書かれている。逆強化学習の代表的な手法(Max Margin/Max Entropy/Bayesian)をきちんと整理して書いている arxiv.org/abs/1806.06877 https://twitter.com/icoxfog417/status/1012664138026311680?s=21 https://arxiv.org/pdf/1806.06877.pdf

GANと逆強化学習とエネルギーベースモデルは、生成モデルGが尤度を与えられるなら、同じものとみなせ、他のコミュニティの技術を使える。例えば現在のGANのGに尤度を与えられる自己回帰モデルなどを使えば学習を安定化できる arxiv.org/abs/1611.03852 https://twitter.com/hillbig/status/811454974274060288?s=21 https://arxiv.org/pdf/1806.06877.pdf https://arxiv.org/abs/1611.03852 強化学習