Information-Geometric Optimizationを読んでいて、確率Pについて という書き方と という書き方が混在していてどういうことか戸惑った。

Footnote 1をみて納得したので、理解の確認のためにも解説を書いておく

  • Throughout the text we do not distinguish a probability distribution 𝑃, seen as a measure, and its density with respect to some unspecified reference measure d𝑥, and so will write indifferently 𝑃(d𝑥) or 𝑃(𝑥)d𝑥. The measure-theoretic viewpoint allows for a unified treatment of the discrete and continuous case.

離散的な確率Pでは、例えば「サイコロの目が1になる確率は1/6」のように、点xに対してP(x)=1/6が対応している。 なのでこの場合のPはxの取りうる範囲をXとするならだ。

一方で連続的な確率、例えば正規分布N(m, 1)に従う確率変数Aの場合「Aが平均mに一致する確率」は0だ。 「Aがa以上b以下の範囲に入る確率」というように範囲(Xの部分集合)に対して値が定まる。 正規分布というと以下の式が有名だが

  • これは「確率密度関数」であって、この関数の値ではなく、ある範囲について積分したものが確率になる。
  • つまりこの場合のPはXの部分集合から実数への関数だ。単にというだけではなく他にも色々と都合の良い性質があるので、それらをまとめて「[測度]」と呼ぶ。 see 測度論 - Wikipedia

この式ではaとbを明記している

  • 明記しなければこうなる

ある関数g(x)があって、それを確率分布Pの元での期待値を計算したい場合、 離散だったら

  • 連続だったら
  • となるわけだが、IGOの論文での記法ではこれを両方とも特に区別せず
  • と書いたり
  • と書いたりしますよ、ということ。