from 2023-02-14 トップページの導線を整理 短期的報酬に最適化すると弱くなる例

  • @tsukammo: 人生最適化が上手くいかない原因、ゲーム木探索で説明できてしまって困る。

  • image

    • @tsukammo: 直接的な報酬だけによる評価関数だとこうなっちゃうので、よくある”ライフハック”とかは「好奇心」とか「細かいstepで刻んでご褒美を用意」とかで、評価関数を適正化していっているんだよな。

    • うん、全部わかってるんだけどね。しないだよね。

利用と探索のトレードオフ