チャットボットが会話文を生成するのではなく、単純に書籍などの一節を引用する、というモデル
2018-09-30
- 学習でやろうとしていた
- カギカッコ、中黒、句点などで区切るルールベースに変えた
- 結局のところ「途切れた文章」が生み出されるのが一番頻度の高いバッドパターンなので句点で区切るだけにした
- どちらかというと、この「一文」を入力データとして受け取って、指示語を削るなどして出力するseq2seqのほうが筋が良いのでは
- 初期値として素通しにしておく
- 単語ベース入力、削除する単語の時は空文字列を出力
- っていうか「素通しするか削除するか」の二値分類がいいのか?
- 引用文自体のモデル
- 引用開始点のモデル
- 引用終了点のモデル
特徴量
-
キーフレーズを含む 1/0
-
単語境界である 1/0
-
適度な長さである 適度の定義は何?
-
直前に句点がある 1/0
-
開始点・終了点のモデルはローカルな特徴量だけで計算できるものにしたらいい
- 周囲の数単語の文脈
-
引用文の長さの適切さは、引用文自体のモデルとして作れば良い
-
引用文自体の良さのモデルはLSTMで作る
-
両方確率モデルにした上で掛け合わせて使えば良い