Document Frequency

ドキュメントの粒度によって影響を受ける

  • 極端な例として、一単語一ドキュメントとすれば、TFに一致する
  • 「1回以上出現するなら1」とすることが多い
    • 出現集中では「2回以上出現するなら〜」の値も使う
    • つまりステップ関数を掛けてる
    • 閾値に回数を使っているが、これは当然ドキュメントに含まれる単語数が増えるほど大きくなりやすい値
      • 単語数で割って出現確率にする方が良いのでは…