-
二つの分散表現A, Bがあるとき
-
あえて線形のPCAで次元削減する
- 空間を曲げないので、word2vecの研究で指摘されているような分散表現の加算や混合に関する特徴を維持する
-
正規化はやるべきか否か
- 回転無視は適切か?
- word2vecの学習などで作成された分散表現において、回転の情報は初期値の乱数による自発的対称性の破れに過ぎないので重要ではない
- しかし人間が作った分散表現をマージする場合、「上」「右」などには意味がある。
- 人間の認知の特性による対称性の破れ
- 特定の軸を採用することを前提とした上での線形な次元削減は可能か
- 例えば追加した二軸が、相手の200次元の分散表現の2つの軸に一致する場合、当然その軸がマージされる
- 202次元のデータの200次元への写像が次元削減であって、ロスが最小となる回転行列を求めるのがPCA
- 今回のケースではさらに200次元のうちの2次元が固定されているため198次元の部分空間
- この部分空間への回転行列を求める問題である