2019-03-21 自動ブラケティングが良くないのは、質の低いリンクを大量生成してしまうとゴミばかりサジェストされるようになり「ゴミ屋敷化」が起きるからで、たしかに各ページにキーワード抽出を掛けてリンクにしたりすると大惨事になる。しかしそれは「質が低い」ことが問題なのであって、自動なのが問題ではない。リンクの質とは何か?

悪い例を考える

  • 例えばある書籍の各ページをScrapboxのページにしたとしよう。
    • あるキーワードXが100回出てくるとして、それを全部リンクにするのは適当ではない
      • image
      • 100個のリンク先が表示されても「うわー、たくさんあるなー」にしかならないから
      • それならば「本Aの中にそのキーワードが出てきますよ」という情報だけ提示した方がまだマシ
      • これは検索で予期せず発見する事例
        • あるキーワードが予期せずある本の中に含まれていることが提示されて、価値を感じる
        • その本の中の具体的にどのページにあるかは、その本を開いてから再度検索すれば良い
      • Scrapbox上でこれを実現する素直な方法がない
        • 例えば各ページに「書籍のID(名前かISBN)」がつけられているなら、IDとキーワードのセットで書籍内の絞り込み検索はできる
        • リンクで実現しようとすると「書籍AでのキーワードXの出現」を表現するリンクが必要になってしまう

狭いリンクが有用

  • つまり「他のテキスト中に出現する回数が少ないリンク」が有用

    • 一方で僕のScrapboxでのmost linkedはKJ法エンジニアの知的生産術
      • 興味のある内容に関する言葉が当然頻出する
      • 単に出現頻度の低いものを選ぶことは「興味のないもの」を選ぶことになるジレンマ
  • IDFと似たコンセプト

    • リンクがすべて等価であるならIDFの関数になる
      • 実際にはリンクが等価ではない
        • 同じ「5回」でもこれらは有益さが違う
        • image
  • 遠いものをつなぐリンクが有益

    • ということはページの間の関係として「近い」「遠い」が存在する
  • ページの近さとは何か

    • 同一の章に属するページは近いページ
      • これはメタデータとして章の構成を与える必要がある
    • 同一の著者の本に属するページは近いページ
    • 本 > 章 > 節 … という階層構造
    • 下位の構造がキーワードを含むときに上位の構造もキーワードを含む
      • これはpoolingっぽさがある
      • 階層構造がGivenな場合しっくりくる
        • 同じ書籍の中で5回出てくるキーワードでも、同じ章に5回出るのと、章をまたいで5回出るのは違う
        • プーリングすると前者は1回、後者は5回になる
        • 高い階層のIDFが高い方が価値が高い
    • 階層構造がGivenでない場合は?
      • 書籍を想定した場合、隣接するページは近いページ
      • 内容が近い(=共通するキーワードが多い)ページは近いページ
      • 階層構造は凝集型階層的クラスタリングで作れば良いのでは

image