image

  • PDFをテキスト化したものは、行ごとに分かれている
  • 文の途中でも改行されているので、自然言語処理をする前に結合しなければならない
  • しかし100%繋いで良いわけではない
    • 見出し
    • 箇条書き
    • 図キャプション
    • コード
    • 脚注
    • 数式
    • URL
  • 数式・コード・URLなどは異質なので取り除きたい

行継続モデル