image

  • 書籍の各ページを対象文書とする場合

    • 各対象に出現するキーワードはDFが大きいのでTFIDFは小さくなる
  • 書籍を一つの対象文書とする場合

    • 書籍内のいくつものページに出現するキーワードはTFが大きいのでTFIDFが大きくなる
  • つまり対象の輪郭によって逆方向の影響を受ける

    • 対象の輪郭によらない尺度はないか?
  • カーネル密度推定 - Wikipedia

  • 接尾辞配列が作られているとする

    • あるキーワードの出現位置は、そのキーワードで始まる接尾辞の出現位置を見れば分かる
    • そこから密度推定ができないか?
      • もしくは密度推定を飛ばして直接エントロピーを計算できないか?
    • 想定しているデータサイズ
      • 書籍1000冊分+ブログなど、1GBいかないぐらい
    • 雑な方法
      • 文書全体を適当なサイズのビンに割っておいて、キーワードの出現数をビンごとに数える
      • ビンを10000としてキーワードを最長50文字、カウントを2バイトとしても大した量ではない
      • この数える過程はO(N)
      • 最後にエントロピーでソートして結果を見る