-
フレーズベースTF-IDF: 名詞句解析の応用
-
Conundrums in Unsupervised Keyphrase ExtractionはTextRankなどの手法よりも単語ベースTF-IDFが強いことを示した
-
単語ベースTF-IDFはフレーズのスコアを構成単語のTF-IDFの和と定義する
- それに加えて最長名詞句に限定するというヒューリスティクスが無意識に使用されている
- これによって文法性の問題を回避している
-
unithood
- “the degree of strength or stability of syntagmatic combinations or collocations”
- 単語の連なりがひとかたまりのものとして機能している度合い
- “the degree of strength or stability of syntagmatic combinations or collocations”
-
termhood
- “the degree that a linguistic unit is related to (or more straightforwardly, represents) domain-specific concepts”
- 単語の連なりが特定の概念と結びついている度合い
- “the degree that a linguistic unit is related to (or more straightforwardly, represents) domain-specific concepts”
-
単語ベースTF-IDFは
-
- where tfは文章中の単語wiの出現頻度、Dは全ての文章数、は単語wiを含む文章の数
-
- p: phrase
-
- longestは最長名詞句
-
-
-
unitの定義について、最長名詞句であるかどうかだけを使っている。
- 仮に最長名詞句の部分単語列も全て含めた場合
-
- Recallの上界をあげる効果があるが、全体的には精度を悪化させた
- これはつまり、適切でない部分名詞句に対してもunit = 1となっているのがよくない、と考える
- そこで部分名詞句に対して適切なスコアをつける
-
- 仮に最長名詞句の部分単語列も全て含めた場合
このアプローチで、長い文章に対しては精度が向上する 短い文章に対しては向上しない