🪴 Quartz 4.0

Search

❯

直接引用モデル

直接引用モデル

Dec 01, 2023, 2 min read

チャットボットが会話文を生成するのではなく、単純に書籍などの一節を引用する、というモデル

2018-09-30

学習でやろうとしていた
カギカッコ、中黒、句点などで区切るルールベースに変えた
結局のところ「途切れた文章」が生み出されるのが一番頻度の高いバッドパターンなので句点で区切るだけにした
どちらかというと、この「一文」を入力データとして受け取って、指示語を削るなどして出力するseq2seqのほうが筋が良いのでは
- 初期値として素通しにしておく
- 単語ベース入力、削除する単語の時は空文字列を出力
- っていうか「素通しするか削除するか」の二値分類がいいのか？

引用文自体のモデル
引用開始点のモデル
引用終了点のモデル

特徴量

キーフレーズを含む 1/0
単語境界である 1/0
適度な長さである適度の定義は何？
直前に句点がある 1/0
開始点・終了点のモデルはローカルな特徴量だけで計算できるものにしたらいい
- 周囲の数単語の文脈
引用文の長さの適切さは、引用文自体のモデルとして作れば良い
引用文自体の良さのモデルはLSTMで作る
両方確率モデルにした上で掛け合わせて使えば良い

Graph View

Backlinks

2018-09-27
チャットボット2018-09-30
ボットの発話
書籍からの短文抽出
注目部分を切り出す
要約生成
言語モデル作成実験2018-09-28

Created with Quartz v4.1.1, © 2023

GitHub
Discord Community