image

  • 必要なのはキーフレーズ抽出ではないのでは?
  • いわば「リンクサジェスト」が必要なのでは?
    • 文書セットと一つの新しい文書が入力
    • 新しい文書から文書セットへの「共通のキーフレーズによるリンク」が出力
  • 違い
    • キーフレーズ抽出
      • 文書が与えられる
      • 短い文字列が得られる
      • この短い文字列をキーフレーズと呼んでる
      • キーフレーズが共通であるような文書間に事後的にリンクを作るかもしれないがキーフレーズ抽出の段階では気にしてない
    • リンクサジェスト
      • リンクをサジェストすることが主目的
      • リンク対象である文書集合は最初から与えられる
      • キーフレーズにスコアをつけるのではなく、リンクにリンクとしての有用さに基づいてスコアをつける
        • 例えば出現回数のとても多いリンクは有用ではないのでスコアが低くなる
          • これはユースケースによる
  • RAKEの「二回出現するなら結合」の「出現」が、新しい文書だけでなく文書集合まで広がったものと解釈できる

関連

  • 対話的なキーワード生成
    • 例えばチャットの対話的ユースケースで、「過去ログ」が「既存の文書」に相当する
      • 最新の書き込みだけに注目してキーフレーズ抽出するのではない
    • 新しく書きつつある文書から、Scrapboxに溜まってる文書へのリンクをサジェストするユースケース
  • Scrapboxキーフレーズサジェストを作ってる時に気づいた