休暇で作ったものの関係を忘れないように図解しておいた 書籍PDFからテキスト抽出 テキスト中のCIDフォント埋め込みを置換する テキストから本文抽出 これこの図を描いた後機械学習による書籍PDFからの本文抽出に発展 本文データからキーフレーズ抽出 キーフレーズを元にチャットボット作成 neologd辞書で形態素解析して単語列を得る 単語列をRNNで言語モデルにする 言語モデルから文章生成