from 2023-02-14 トップページの導線を整理 短期的報酬に最適化すると弱くなる例 @tsukammo: 人生最適化が上手くいかない原因、ゲーム木探索で説明できてしまって困る。 @tsukammo: 直接的な報酬だけによる評価関数だとこうなっちゃうので、よくある”ライフハック”とかは「好奇心」とか「細かいstepで刻んでご褒美を用意」とかで、評価関数を適正化していっているんだよな。 うん、全部わかってるんだけどね。しないだよね。 利用と探索のトレードオフ