• 強化学習の枠組み
    • 方策という関数がある
    • 方策は状態を入力として受け取る
    • 方策は行動を出力する
    • その行動が良かったかどうかは、時間が経ってからわかる(遅延報酬)
    • ある行動を選んだ時の将来の報酬の期待値を行動価値と呼ぶ
    • 方策の色々
      • ランダムに行動を選ぶ
      • 行動価値が最大になるように選ぶ
        • グリーディ方策と呼ぶ
        • いまいちよくないことが知られている
        • 悲観的な勘違いが修正されないから
      • イプシロングリーディ
        • 一定確率でランダムに行動する
      • 楽観的初期値法
      • USB1
  • 経営の枠組み
    • 状況に合わせて、限られた資源を何に配分するか意思決定するのが経営

    • 強化学習的に表現すれば

      • 意思決定関数は状況を入力として受け取り、配分を出力する
      • その配分が良かったかどうかは時間が経ってからわかる
    • 報酬の定義は自明ではない

      • お金だろうと思うかもしれない
      • 赤字の企業は存続できないので、まず黒字化を求める
        • これは「お金」=「存続」
      • しかし黒字化した後はマチマチ
      • 何を報酬とみなすかが、組織の中でコンセンサス化したものが社風