キーフレーズ抽出において、候補をどう作るかが問題

  • RAKEではストップワードをデリミタとして刻む

  • TextRankは最初に名詞と形容詞以外をフィルタしている

  • フレーズベースTF-IDFは最長名詞句だけを使う

  • すべての部分文字列を候補とする

  • かっこで囲まれている文字列はキーワード候補に入れたい

  • 候補に対してスコアを計算し、大きなものを取るアプローチでキーフレーズを見つけようとする場合

    • EmbedRankでは元の文書との類似度が使われるので候補に文章自体が含まれるといけない