行動がd次元ベクトルで表現され、d次元の未知のパラメータと内積をとってノイズが乗ったものが報酬になるモデル Xi(t)=θ⊤ai+ϵ(t) 基本的なバンディットはこの行動ベクトルがone-hotである場合に相当する #強化学習