2021-02-09 pKeicho-done pKeicho 「質問の自然度判定」の中でキーフレーズの前後の文脈を取得している 「動きの抽出」で動詞を含むキーフレーズが抽出された場合に、原形に直してある場合があり、その場合、直前の入力からキーフレーズを文字列検索しても一致する文字列が見つからない
解決方法
- A: 文字列ベースでやってる処理を単語ベースに変える
- 過去に作った教師データが使えなくなるので、改めて学習データを作らないといけない
- B: 見つからないという情報を特徴量に乗せる
- 過去の教師データを温存しつつ、新しい状況をケアできる
- しかし、そもそもこの新しい状況についての学習データは皆無
- C: 特徴量抽出で例外が出た場合に上流で自然度0.5とする
- データがないのであれば0.5にしとくのでいいだろ、という路線
今回はCにする
将来、データを増やしたりするタイミングで特徴量を工夫する
- 既存のデータで能動学習しながら、新しい特徴量算出方法のためのデータも溜めていく
- 新しいデータが溜まった段階で古いフォーマットのデータを捨てる