image

  • 書籍からの短文抽出
  • 境界として適切そうかのモデル
    • これは機械学習するまでもなく「句点の後」でよかった
  • 切り出し対象として適切かどうかのモデル
    • 長さが一定以下である
    • 対応づくもの(カッコなど)の個数にミスマッチがないこと
  • それで不足な部分
    • 前の文章を参照する指示語や、接続詞が冒頭についていることがある
    • 冒頭についているものをパターンマッチで取り除くことはできる
    • 文の中に指示語があるのはちょっと難しい
    • 後、取り除いたら意味が残らないケースも難しい