from pKeicho-done
キーワードを取らない質問と、1つとる質問について先に実装した 2つとる質問はマダ
- データ1: 0〜1件のキーワードを取る質問600件
- データ2: (未使用)データ1と同じ条件で6000件
- データ3: データ1を使ってモデルを学習して0.1〜0.9のものだけ選ぶ能動学習
- データ4: 2つのキーワードを取る質問文に対して、片方をXで埋めたもの
質問自然度データセット
- 人間の入力
- それに対する質問
- 不自然である(0)/自然である(1)/空欄(0.5)
- 悩む(1)/悩まない(0)
学習データがなし崩し的に集まったので学習部分を作る
- 特徴量
- 本体
- 前後文脈
- 出現位置
- 元データテンプレに入れ忘れた
- キーワード、質問ID
- これだけ出力して追加で貼りこもう
- キーワード、質問ID
- 特徴量生成
- キーワード本体の特徴量
- キーワードで入力を検索して最初の出現位置を見つける
- 前後を取る
- キーワードの存在していない質問に対しては、文章全体と、文頭・末尾を使った
- 今は適当にチョイスした文章に対して全ての質問を聞いている
- だから数がやたら多い
- 600件作ってみたけど、元文章の量は13件
- 今は入力文固定で、その中のキーワードを選んで質問候補を作っている
- でもこれだと、キーワードが存在しない入力の場合や、キーワードはあるけどイマイチな場合(「w」とか)はどうなる
- 「(この入力をスルーして、以前の入力に対して質問)」という選択肢があるべきか?
- でもこれだと、キーワードが存在しない入力の場合や、キーワードはあるけどイマイチな場合(「w」とか)はどうなる
- 次は能動学習?
- イマイチと判断したものが使われなくなると学習データも集まらないよなぁ
- 利用と探索のトレードオフ
- 手抜きでイプシロングリーディでいいか
- →とりあえず能動学習にして、<0.1と 0.9<を捨てるだけにしておいた