• 正規化とかスケーリングとか標準化とかよく似た言葉があって混乱するという話があったので整理。

  • 正規化とは、データをある基準に沿って変換し、尺度を統一すること。

    • 例えば「変数によって値の変動する範囲が違っていて扱いづらいから、全部[0, 1]の範囲に変換しよう」
    • スケーリングと呼んでもよい
  • どういう基準を用いるのかは「正規化」という言葉には定義されていない

    • なので、誤解を避けたければ「データが[0, 1]の範囲に収まるように正規化」と基準を明記するのがよい
  • 英語で言えばnormalize。なにをnormalとするかがマチマチなのである

  • 業界によってはローカルルールで「正規化とだけ言った時には~って基準での正規化だ」ってのがある

  • 色々ある正規化の方法の中で、特に「平均0、分散1になるように正規化」する行為のことを「標準化」と呼ぶ

  • これは平均0、分散1の正規分布を「標準正規分布(standard normal distribution)」と呼ぶから

  • standardizeという表現は例えば以下の記事で使われている。

#機械学習