2017-01-11 楽観的初期値法を知らなかったので実験して見たけど僕の問題設定ではUCB1と報酬平均が逆転するのに20000試行くらい掛かってて、応用対象によってはこっちの方が良いケースもありそうだなぁと思った。 強化学習 不確実な時は楽観的に https://www.slideshare.net/nishio/1-70974083 p.33