from pKeicho-done

キーワードを取らない質問と、1つとる質問について先に実装した 2つとる質問はマダ


  • データ1: 0〜1件のキーワードを取る質問600件
  • データ2: (未使用)データ1と同じ条件で6000件
  • データ3: データ1を使ってモデルを学習して0.1〜0.9のものだけ選ぶ能動学習
  • データ4: 2つのキーワードを取る質問文に対して、片方をXで埋めたもの

質問自然度データセット

  • 人間の入力
  • それに対する質問
  • 不自然である(0)/自然である(1)/空欄(0.5)
  • 悩む(1)/悩まない(0)

学習データがなし崩し的に集まったので学習部分を作る

  • 特徴量
    • 本体
    • 前後文脈
    • 出現位置
  • 元データテンプレに入れ忘れた
    • キーワード、質問ID
      • これだけ出力して追加で貼りこもう
  • 特徴量生成
    • キーワード本体の特徴量
    • キーワードで入力を検索して最初の出現位置を見つける
    • 前後を取る
    • キーワードの存在していない質問に対しては、文章全体と、文頭・末尾を使った
  • 今は適当にチョイスした文章に対して全ての質問を聞いている
    • だから数がやたら多い
    • 600件作ってみたけど、元文章の量は13件
  • 今は入力文固定で、その中のキーワードを選んで質問候補を作っている
    • でもこれだと、キーワードが存在しない入力の場合や、キーワードはあるけどイマイチな場合(「w」とか)はどうなる
      • 「(この入力をスルーして、以前の入力に対して質問)」という選択肢があるべきか?
  • 次は能動学習?
    • イマイチと判断したものが使われなくなると学習データも集まらないよなぁ
    • 利用と探索のトレードオフ
      • 手抜きでイプシロングリーディでいいか
    • →とりあえず能動学習にして、<0.1と 0.9<を捨てるだけにしておいた