2022-03-25


2020/9~2021/3 リンクサジェストに関するプロジェクトメモ

  • リンクサジェスト(キーフレーズ抽出)に一般のユーザが使えるような解説を書く
  • 公開はされているが使い方がわからない
    • ユーザにとって有用な機能をいくつか追加する
      • 横断検索
      • 既存文章に対するリンクのサジェスト
  • 聞き出しチャットシステム、リンクサジェストからRegroupへつなぐ仕組みを作る

きっかけ

  • キーフレーズ抽出RAKE

  • →繰り返し出現するものを抽出するので、文章だけが与えられてそこからキーフレーズを抽出するのではなく、文章セットが与えられた方が良い

  • →文章セットとの間のリンクを発見する仕組みとして機能するはず

  • →Scrapboxのダンプと、未リンクのテキストを与えられて、リンクをサジェスト

  • Scrapboxキーフレーズサジェスト

  • https://link-suggest.netlify.app/

  • リンクサジェスト

  • 今はScrapboxのデータを対象としたものと、書籍のデータを対象としたものが一緒のコードベースになってるけど、書籍版は公開すると著作権的に真っ黒だし、Scrapbox版はScrapbox特有の情報を使えばもっと良くなるので、プロジェクトとしては分けて、Scrapbox版だけ公開しとくのが良さそう

  • Scrapbox版

    • 複数の人のScrapboxをまとめて検索できる
      • 1日1回自動的に新着を取りに行くとか
    • 検索ではなく文章に対するリンクサジェストの形をメイン用途とする
    • 機械がScrapboxを読む
    • Scrapbox擬似的多人数プロジェクトの、コンテンツのコピーをせずに検索だけ束ねたような形

今後の案

  • 裁断スキャンした蔵書を横断検索
    • 蔵書横断検索
    • 検索結果からヒットしたページに飛ぶのは技術的には可能だが公開すると著作権法的にダメ
  • ブックマークレットで今表示してるコンテンツで検索
    • 例えばTwitterやFacebookのスレッドから「それに関連するページ」をワンクリックで出せる
  • 今一旦オフにしてる「Scrapboxの手動で付与したリンクの情報を使う機能」を戻して、名前の通り「新しいコンテンツに対してリンクをサジェストする」ところを深める
    • リンク情報を使わない部分が予想以上に高速化できたのでテンション上がってしまった
  • 聞き出しチャットシステム
    • pKeichoと接続
    • 動詞をキーフレーズとして抽出できるのはメリット
  • 与えた文書間に「いい感じ」のネットワークを作る
    • いい感じとは?
      • リンクの集中するページがない
      • リンクを数本たどるだけでほとんどのページにたどり着ける