質問自然度データセット

キーワードを取らない質問と、1つとる質問について先に実装した 2つとる質問はマダ

質問自然度データセット

学習データがなし崩し的に集まったので学習部分を作る

特徴量
- 本体
- 前後文脈
- 出現位置
元データテンプレに入れ忘れた
- キーワード、質問ID
  - これだけ出力して追加で貼りこもう
特徴量生成
- キーワード本体の特徴量
- キーワードで入力を検索して最初の出現位置を見つける
- 前後を取る
- キーワードの存在していない質問に対しては、文章全体と、文頭・末尾を使った
今は適当にチョイスした文章に対して全ての質問を聞いている
- だから数がやたら多い
- 600件作ってみたけど、元文章の量は13件
今は入力文固定で、その中のキーワードを選んで質問候補を作っている
- でもこれだと、キーワードが存在しない入力の場合や、キーワードはあるけどイマイチな場合(「w」とか)はどうなる
  - 「(この入力をスルーして、以前の入力に対して質問)」という選択肢があるべきか？
次は能動学習？
- イマイチと判断したものが使われなくなると学習データも集まらないよなぁ
- 利用と探索のトレードオフ
  - 手抜きでイプシロングリーディでいいか
- →とりあえず能動学習にして、<0.1と 0.9<を捨てるだけにしておいた

🪴 Quartz 4.0