学習の前段階としてルールベースでゴリッと書いたら、意外とあっさり見出しと本文だけ取り出すことができた。 予期してなかったけど嬉しい副作用として、奥付、目次、索引なども「見出しや本文ではない」と判断された。 →その後、別書籍でもうまくいかせるために 機械学習による書籍PDFからの本文抽出 へ。

2018-09-30 行継続モデル 行継続判定の考え方が間違い 実際のデータはこうなっている :

^Lこの本の目的

iii

この本の目的

 私は、知的生産術の良い参考書が欲しいです。人に知的生産術を教える
ときに、お勧めできる本が欲しいです。
 私は、サイボウズで知的生産性の研究に10年間従事してきました注1。業
務の一環として、京都大学サマーデザインスクールで、考えを整理してア

行をつなぐかどうか以前に、「文章」に取り入れて良いかどうかが違う。 行をつなぐかどうか判定は「直接つなぐか、空白を入れてつなぐか」しかやってないので、それでつないだものを形態素解析して単語列にした上で言語モデルを作ったりすると、そこからほころぶ。


  • 文字ベース、単語ベース
  • 書籍の理解
  • ページ末に「注」から始まる行があるのは脚注
  • コラム
    • ページ途中に脚注が発生する

LSTMの出力

  • 私は50mm ×38mmのふせんを好んで行う第1章新しいことを学ぶには、サイクルを回す原動力:やる気8第1章新しいことを学ぶには情報収集の3つの方法割り当てる方法は、会話をめくる箇所を継続したいとしてとして、1964年者を学ばすることがあります。これはたった1ページの30秒という「1冊30秒」という言葉が生まれ、2時間が終わる

元データの一部

…しかし、そうではありません。まず最優先で卓越し、そ第7章何を学ぶかを決めるには自分経営戦略234 第7章何を学ぶかを決めるには自分経営戦略235れによって成長の機会を得るのです注15。… あー、なるほど。そうなっているのか。 偶数ページの末尾と奇数ページの先頭に章タイトルなどとページ番号がついている

ページモデル 行モデル 行ベース言語モデル