🪴 Quartz 4.0

Search

❯

トンプソンサンプリング

トンプソンサンプリング

Dec 01, 2023, 1 min read

#強化学習

バンディット問題の理論とアルゴリズム p.38 トンプソン抽出

期待値をベイズ推定する
各行動の期待値最大である確率でその行動を選ぶ(確率一致法)
ただし、この「期待値最大である確率」の計算をやる代わりに乱択アルゴリズムを使う
ベイズなので期待値の分布が得られている。この分布からサンプリングをする
サンプリングした結果、値が最大であった行動を選ぶ
これで「期待値最大である確率でその行動を選ぶ」が実現される

https://hagino3000.blogspot.com/2015/07/thompson-sampling.html https://hagino3000.blogspot.com/2016/12/linear-bandit.html

Graph View

Backlinks

Stable Diffusionのシードとプロンプトの関係
トンプソンサンプリング採用の流れ
バンディット問題の理論とアルゴリズム
日記2022-09-16
読書を支援するボット

Created with Quartz v4.1.1, © 2023

GitHub
Discord Community