PDFをテキスト化したものは、行ごとに分かれている 文の途中でも改行されているので、自然言語処理をする前に結合しなければならない しかし100%繋いで良いわけではない 見出し 箇条書き 図キャプション コード 脚注 数式 URL 数式・コード・URLなどは異質なので取り除きたい 行継続モデル 適切なルールを人間が言語化できない時が機械学習の出番 直接繋いではいけないものと、繋いでもいいもの