手法

  • 言語知識を使わないアプローチ
    • 単純な単語出現頻度
      • ストップワードの必要性
      • 単語の並び順の情報を捨ててしまう
        • 熟語が分割される「本部長会」問題
      • 同義語は別物とされる
    • 共起
      • コロケーション
        • N-gramなど
        • ウィンドウ内共起
      • ドキュメント内共起
    • tf-idf
      • ストップワードが0/1であったのに対し、実数値のスコアを対応づけるアプローチ
      • 「他の文章での出現頻度が低いほど、この文章を特徴付けるものとしてふさわしい」
      • 単語としては出現頻度が高いが、熟語の形で重要なキーフレーズなことがある
    • RAKE
  • グラフベース
    • 単語の隣接関係をグラフにして、位数の大きいものを選ぶ
    • PageRankをつかう