-
書籍の各ページを対象文書とする場合
- 各対象に出現するキーワードはDFが大きいのでTFIDFは小さくなる
-
書籍を一つの対象文書とする場合
- 書籍内のいくつものページに出現するキーワードはTFが大きいのでTFIDFが大きくなる
-
つまり対象の輪郭によって逆方向の影響を受ける
- 対象の輪郭によらない尺度はないか?
-
- 適当なウィンドウで密度推定をした場合に、本当に一様に出現するものなら一様分布になるはず
- そこからの分布の距離を見れば良いのではないか
- 分布の距離はカルバック・ライブラー情報量 - Wikipediaで良いか
- しかも片方の分布が固定
- 大小関係を考えるだけならQを無視して良いので
- あ、これ負のエントロピーでは
-
接尾辞配列が作られているとする
- あるキーワードの出現位置は、そのキーワードで始まる接尾辞の出現位置を見れば分かる
- そこから密度推定ができないか?
- もしくは密度推定を飛ばして直接エントロピーを計算できないか?
- 想定しているデータサイズ
- 書籍1000冊分+ブログなど、1GBいかないぐらい
- 雑な方法
- 文書全体を適当なサイズのビンに割っておいて、キーワードの出現数をビンごとに数える
- ビンを10000としてキーワードを最長50文字、カウントを2バイトとしても大した量ではない
- この数える過程はO(N)
- 最後にエントロピーでソートして結果を見る