2019-03-21 自動ブラケティングが良くないのは、質の低いリンクを大量生成してしまうとゴミばかりサジェストされるようになり「ゴミ屋敷化」が起きるからで、たしかに各ページにキーワード抽出を掛けてリンクにしたりすると大惨事になる。しかしそれは「質が低い」ことが問題なのであって、自動なのが問題ではない。リンクの質とは何か?
悪い例を考える
- 例えばある書籍の各ページをScrapboxのページにしたとしよう。
- あるキーワードXが100回出てくるとして、それを全部リンクにするのは適当ではない
- 100個のリンク先が表示されても「うわー、たくさんあるなー」にしかならないから
- それならば「本Aの中にそのキーワードが出てきますよ」という情報だけ提示した方がまだマシ
- これは検索で予期せず発見する事例
- あるキーワードが予期せずある本の中に含まれていることが提示されて、価値を感じる
- その本の中の具体的にどのページにあるかは、その本を開いてから再度検索すれば良い
- Scrapbox上でこれを実現する素直な方法がない
- 例えば各ページに「書籍のID(名前かISBN)」がつけられているなら、IDとキーワードのセットで書籍内の絞り込み検索はできる
- リンクで実現しようとすると「書籍AでのキーワードXの出現」を表現するリンクが必要になってしまう
- あるキーワードXが100回出てくるとして、それを全部リンクにするのは適当ではない
狭いリンクが有用
-
つまり「他のテキスト中に出現する回数が少ないリンク」が有用
- 一方で僕のScrapboxでのmost linkedは
KJ法
とエンジニアの知的生産術
- 興味のある内容に関する言葉が当然頻出する
- 単に出現頻度の低いものを選ぶことは「興味のないもの」を選ぶことになるジレンマ
- 一方で僕のScrapboxでのmost linkedは
-
IDFと似たコンセプト
- リンクがすべて等価であるならIDFの関数になる
- 実際にはリンクが等価ではない
- 同じ「5回」でもこれらは有益さが違う
- 実際にはリンクが等価ではない
- リンクがすべて等価であるならIDFの関数になる
-
遠いものをつなぐリンクが有益
- ということはページの間の関係として「近い」「遠い」が存在する
- これはどのような定義であるか
- ページの近さ
- ということはページの間の関係として「近い」「遠い」が存在する
-
ページの近さとは何か
- 同一の章に属するページは近いページ
- これはメタデータとして章の構成を与える必要がある
- 同一の著者の本に属するページは近いページ
- 本 > 章 > 節 … という階層構造
- 下位の構造がキーワードを含むときに上位の構造もキーワードを含む
- 階層構造がGivenでない場合は?
- 書籍を想定した場合、隣接するページは近いページ
- 内容が近い(=共通するキーワードが多い)ページは近いページ
- 階層構造は凝集型階層的クラスタリングで作れば良いのでは
- 同一の章に属するページは近いページ
-
探索で近さを決定できないか
- 5c6a9ccfaff09e00004ee473 に関係あるような
-
Scrapboxにすでにリンクが存在する場合のボーナス
-
インクリメンタルに実行できてほしい
-
インクリメンタルに改善できてほしい