要約ではなく液状化

  • ここしばらく要約技術を調べてたのだけど、僕が求めてるものはここにはない、という感覚があった。
  • それが何なのかを考える
  • 元の文章は大きくて、要約はそれを細かく分解してから一部をピックアップしたもの
  • このピックアップの部分で、何を基準にピックアップするのか
  • この基準は個人の中にある
  • なのに、自動要約は「万人共有の基準」でピックアップする
    • ピックアップした後のものだけを人間に提示しようとするわけ
  • 重要なのは個人の中の基準を明らかにしていく過程なのではないか
  • 基準を「キーワード」の形でアウトプットさせて、それにマッチするスニペットとリンクを返すのが検索
  • 個人がまだ言語化できてない「基準」を選択肢からの選択によって明らかにして、それを元にして提示をする
  • 結晶化済みの長文を改めて適度なサイズの断片に噛み砕くシステムが必要
    • まずそれをやってから後工程を作るべきなのではないかと考えたという話
  • BERTによる分節化