線形バンディット

行動がd次元ベクトルで表現され、d次元の未知のパラメータと内積をとってノイズが乗ったものが報酬になるモデル $X_{i} (t) = θ^{⊤} a_{i} + ϵ (t)$ 基本的なバンディットはこの行動ベクトルがone-hotである場合に相当する

🪴 Quartz 4.0