システムへの入力

言葉のデータがたくさんある、これの活用をコンピュータによって支援したい 今よく知られている方法としては検索とレコメンドがある、提案手法はこのいいとこどりのようなもの 検索は、人間が短い「検索キーワード」を入力して、そのキーワードを含む文書が指し示されるシステム 人間が「検索キーワード」を考えなければならない 提案システムは長い文章を入力にできる。この長い入力の部分部分が「検索キーワード」になる。 既存の検索システムで無理やり実現しようとすると、長い文書を細かく刻んで何度も繰り返し検索することになるが、これは時間がかかる。ここに技術的な工夫をして現実的な時間で動くようにした。例えば6500ページある僕のScrapboxに対して、10000文字の入力で検索しても1秒かからない。 検索のためだけにキーワードを作る必要はない。「書きかけの文章を入力して、関連した記事を見つける」などの使い方ができる。

システムの出力

  • image

システムの出力抜粋

  • キーワード」を入力して、そのキーワード
    • この切り出し方は微妙
    • 思考の結節点2019-10-14
      • 知識の保存形式

      • 知識の表現形式がアップデートされなければならない

      • Scrapboxはかなりいい線を行っている
        
      • しかし「[[知識の表現形式のアップデート]]」と"知識の表現形式がアップデートされなければならない"が共通のキーワードにならない
        
        • まさにこの問題を解決するために曖昧検索を頑張ったのだ
      • キーワードが「連想のストック」なのではないか、という気配があるがまだ固まってない

      • キーワードからキーワードでないもの(資料など)を探すのは検索でできるようになった、必要なのはキーワードでないものからキーワードを探すことではないだろうか?

        • このシステムではキーワードでない長文からキーワードを探し、そのキーワードで検索した結果を示している
    • 連想装置
      • 類似エントリのレコメンドエンジンは「長文→長文」

      • 検索は「キーワード→長文」

      • Scrapboxのリンク先表示は「長文→キーワード」と「キーワード→長文」の組み合わせ

      • [[2-hop link]]はそれをさらに2回やったもの
        
      • Scrapboxは[[連想のストック]]という考え方からすると、このプロセスが[[連想]]
        
      • 知識を編むプログラムの実現に一歩近づいた感がある

      • 検索とレコメンドの関係、いいとこどりするとScrapbox的、というあたりの話をしている
      • 「連想装置」を書いた当時はまだ提案システムがなかったのでScrapboxを念頭に「人間が明示的に書いたリンク(連想)」を複数個つながるシステムを連想装置と呼んでいる
      • 提案システムは「人間が連想を明示」してなくてもシステムが連想する
  • 文書
    • リンクサジェスト
      • このページはこのシステムを作るにあたって最近書いたもの
    • 過去の自分の書き物と今の思考の結合支援
      • 2015-07-13に書かれた
      • 過去の自分の書いたものを何かの理由で読み直したりすると「あっ、こんなこと書いてるじゃん、これいま考えてるアレに応用できるぞ」ってことがあるんだけど、このプロセスをソフトウェアもしくは方法論によって強化できないかなー。

      • 山下 達雄 類似文書検索でよいのでは?…西尾さんならば、「word2vecによる知的生産術」「word2vecによる発想支援」とかそういう路線

      • 増井 俊之 Wikiじゃ駄目なのでしょうか?

      • Wikiをどう使うと「過去に考えていたことが今考えていることに有用だと気づくプロセス」を強化できるのでしょうか?

      • 増井 俊之 Gyazzの場合、同じキーワードを使ってるページが表示されるので昔の考えを思い出す可能性があります。

      • なるほど、同じキーワード。そのキーワードは形態素解析とかで抽出するのですか?人間が付けるのですか?

      • 増井 俊之 人間がつけます。

      • ここで言及されてるGyazzの機能がのちにScrapboxになり、僕が使い始める
    • 転置インデックスと指差し 2018年
    • 文書が階層的 2019年
      • 対象の輪郭によらない尺度はないか?

      • この問題意識、最近も考えて別のアプローチをメモしてた: 長さをパラメータにしたDF
      • こちらの手法は接尾辞配列を使ってるので提案システムと相性が良さそう
  • レコメンド
    • Scrapboxの良さ(その2)
      • 動詞をブラケティングしたりする

      • 名詞形でキーフレーズを作ると、しばしば抽象概念になりがち

      • 一方で、動詞はしばしばメタファーに近い存在

      • これが名詞句だけを抜き出すキーワード抽出に僕が不満を持っていた理由
    • 知性を高めるシステム
      • アイデアの干渉効果

      • まさに今ここで起こってることはアイデアの干渉効果だ
      • 類似度ベースではないレコメンド

      • 当時は類似度ベースでないレコメンドがまだ具体的にはどういうものか思いついてなかった
      • 提案システムは「類似度ベースではないレコメンド」だ
      • 文書に対して「入力との類似度」のスコアをつけてソートするのではない
      • 入力の中から「良いキーフレーズ」を見つけて、良さのスコアでソートしている
    • レコメンドとScrapbox
      • ここでは単語共起によるレコメンドと、明示的なブラケティングによるScrapboxのレコメンドとに加えて、ツリー構造も一種のレコメンドと考えてる