強化学習と経営

強化学習の枠組み
- 方策という関数がある
- 方策は状態を入力として受け取る
- 方策は行動を出力する
- その行動が良かったかどうかは、時間が経ってからわかる(遅延報酬)
- ある行動を選んだ時の将来の報酬の期待値を行動価値と呼ぶ
- 方策の色々
  - ランダムに行動を選ぶ
  - 行動価値が最大になるように選ぶ
    - グリーディ方策と呼ぶ
    - いまいちよくないことが知られている
    - 悲観的な勘違いが修正されないから
  - イプシロングリーディ
    - 一定確率でランダムに行動する
  - 楽観的初期値法
  - USB1
経営の枠組み
- 状況に合わせて、限られた資源を何に配分するか意思決定するのが経営
- 強化学習的に表現すれば
  - 意思決定関数は状況を入力として受け取り、配分を出力する
  - その配分が良かったかどうかは時間が経ってからわかる
- 報酬の定義は自明ではない
  - お金だろうと思うかもしれない
  - 赤字の企業は存続できないので、まず黒字化を求める
    - これは「お金」＝「存続」
  - しかし黒字化した後はマチマチ
    - 企業は社会の公器(松下幸之助)
    - CSR: 企業の社会的責任の考え方
      - 企業の社会的責任（CSR）｜経済同友会
    - 従業員満足度
    - 顧客満足度
    - 規模の拡大を目指す人も
    - 企業の存続→老舗化
    - 自分たちの作った製品をより多くの人に使ってほしい
    - 上場しないと投資してくれたVCに利益を還元できない
    - 自分が社長である間にトラブルが起こらないでほしい
  - 何を報酬とみなすかが、組織の中でコンセンサス化したものが社風

🪴 Quartz 4.0

強化学習と経営

Graph View

Backlinks