行動がd次元ベクトルで表現され、d次元の未知のパラメータと内積をとってノイズが乗ったものが報酬になるモデル 基本的なバンディットはこの行動ベクトルがone-hotである場合に相当する

#強化学習