PositionRank

PositionRank: An Unsupervised Approach to Keyphrase Extraction from Scholarly Documents

単語の隣接関係をグラフにしてPageRankを計算する通常のPageRankでは等確率のbiasをかけるが、この手法は等確率ではなく単語の出現位置の逆数で重み付けをするそのことによって従来のPageRankを用いた手法より改善した

名詞と形容詞以外をまず捨てた上で、(adjective)*(noun)+の形の最大三単語までの連続をキーフレーズとして抽出する。

Window sizeの影響は少ないとの主張だが、上記の形に限定しているとWindow size > 1 であることが機能するチャンスがとても限られるのではないか。

PageRankをキーワード抽出に使うことの意義がいまいちよくわからない。実際、シンプルなTextRankはTF-IDFに負けている。

🪴 Quartz 4.0