2021-02-09 pKeicho-done pKeicho質問の自然度判定」の中でキーフレーズの前後の文脈を取得している 「動きの抽出」で動詞を含むキーフレーズが抽出された場合に、原形に直してある場合があり、その場合、直前の入力からキーフレーズを文字列検索しても一致する文字列が見つからない

解決方法

  • A: 文字列ベースでやってる処理を単語ベースに変える
    • 過去に作った教師データが使えなくなるので、改めて学習データを作らないといけない
  • B: 見つからないという情報を特徴量に乗せる
    • 過去の教師データを温存しつつ、新しい状況をケアできる
    • しかし、そもそもこの新しい状況についての学習データは皆無
  • C: 特徴量抽出で例外が出た場合に上流で自然度0.5とする
    • データがないのであれば0.5にしとくのでいいだろ、という路線

今回はCにする

将来、データを増やしたりするタイミングで特徴量を工夫する

  • 既存のデータで能動学習しながら、新しい特徴量算出方法のためのデータも溜めていく
  • 新しいデータが溜まった段階で古いフォーマットのデータを捨てる