埋め込みベクトルの良し悪しは何によって決まるのか

近い2単語について

  • 同一: BをAにする(PythonとPyth0n)→元データのBをAに置換
  • 同義: AとBは同じ意味である(ください 下さい)→元データはそのまま、単語とIDの対応づけをユニファイ
  • 類義: 類義語である→これはそのままでOK
  • 対義: AとBは対義語である→ベクトルに対義語用の1軸を追加して+1/-1を適当に振る
  • 連接: AとBは”AB”の形で1つの意味の塊である→語彙の追加、入力読み込み時に工夫が必要

連接を教えることによって、語彙が増える。同一を教えると減る。 この教師データ自体は使いまわせる

学習プロセスにもちょっと手を加える必要があるし、ベクトルを使いまわしたいし、結局word2vec的なものを自作する必要があるのか

分散表現の良し悪し 分散表現