長文コンテンツを自動で付箋に刻む機能

6月上旬に作ったもの regroup_split

8月下旬

  • RAKEのCRF化を考えた時、二回出現はグローバルな特徴量
    • 付箋分割では出現回数は気にしない
    • だからCRFに向いてるのでは?
  • 部分問題
    • 区切りを入れる or 長めに切り出す
      • ここの部分はRAKEのキーフレーズ候補作成と似た構図
    • 切り出された断片の中での除去や書き換え
      • RAKEが細かめに刻んでからくっつけたのに対し、こちらは大きめのものから削っていくスタイル