足場ネットワークの構築実験
- pLinkSuggestでは「与えられた文章」と「あらかじめ解析済みの大量の文書」との間の共通部分文字列を見つけることをやった
- これはつまりScrapboxで言えば新しいページが与えられて、そのページの他のページとの間のリンクを見つけることに相当する
- 一方で蔵書の中での曖昧横断検索としても使えてどっちに進むか悩んで放置してた
- 「1つのページと他のページ群とのリンク」を見つけるのではなく「まだリンクのないページ群」に対して「足場となるネットワーク」を作るのが良い、という仮説
pScaffoldNetwork 2022-04-01
- プロトタイプができた
- プレーンなテキストを入力として平均1000文字、300記事をインポート
- 悪くなさそう
- 公開できるものを作ろうと/nishida-kitaroを入力にしてみた
- これはイマイチ
- 「既にあるリンク」を理解してないため
- ナビゲーションのために手で付けた章見出しなどが、当然搬出の部分文字列になるのでリンクの中をリンクにしてしまう
- リンク記法を1トークンにまとめる処理が必要
- プレーンなテキストを入力として平均1000文字、300記事をインポート
-
書籍からの足場ネットワーク作成、できた
2022-04-25
-
MeCabの制約付き解析を使う
- Denoの開発環境を作った
- Scrapbox記法をパースしてMeCabの制約付き解析用のフォーマットを出力することができた
- Scrapboxの記法を1トークンにまとめた
-
キーワードに含めないフラグをつけた
-
元データにバージョン違いのほぼ同一の文章が含まれていてその長文の一致をキーワードとして扱ってしまう
-
いきなり破壊的更新をするのではなくdry-runで何が更新されるか表示する機能(途中)
-
TODO 現在無視しているブロック記法のサポート
-
TODO 表記揺れ吸収がかなり激しく同一視をするのでもう少し緩めた方が納得感がでそう
メモ