強化学習の枠組み 方策という関数がある 方策は状態を入力として受け取る 方策は行動を出力する その行動が良かったかどうかは、時間が経ってからわかる(遅延報酬) ある行動を選んだ時の将来の報酬の期待値を行動価値と呼ぶ 方策の色々 ランダムに行動を選ぶ 行動価値が最大になるように選ぶ グリーディ方策と呼ぶ いまいちよくないことが知られている 悲観的な勘違いが修正されないから イプシロングリーディ 一定確率でランダムに行動する 楽観的初期値法 USB1 経営の枠組み 状況に合わせて、限られた資源を何に配分するか意思決定するのが経営 強化学習的に表現すれば 意思決定関数は状況を入力として受け取り、配分を出力する その配分が良かったかどうかは時間が経ってからわかる 報酬の定義は自明ではない お金だろうと思うかもしれない 赤字の企業は存続できないので、まず黒字化を求める これは「お金」=「存続」 しかし黒字化した後はマチマチ 企業は社会の公器(松下 幸之助) CSR: 企業の社会的責任 の考え方 企業の社会的責任(CSR) | 経済同友会 従業員満足度 顧客満足度 規模の拡大を目指す人も 企業の存続→老舗化 自分たちの作った製品をより多くの人に使ってほしい 上場しないと投資してくれたVCに利益を還元できない 自分が社長である間にトラブルが起こらないでほしい 何を報酬とみなすかが、組織の中でコンセンサス化したものが社風