word2vecによる自然言語処理 p.64にこう書いた
リンゴとトマトは似ています。どちらも赤いです。リンゴと青リンゴも似ています。どちらもリンゴです。ところが、青リンゴとトマトはあまり似ていません。
この問題の解決方法
-
ベクトル間の距離・ベクトルの類似度をそのまま意味の類似度として扱うのではなく、いろいろな軸で潰した後での距離を類似度にする#軸を潰す
-
現状の word2vec によって作られるベクトルの 1 つの軸が「色の違い」のような都合の良い属性を表現しているかは疑問
- word2vec はあくまで単語の周辺にどのような単語が出現するかの情報だけを基にベクトルを作っているから
-
人間の脳内では近いことが行われているのではないか
-
Deep Learning で使われる技術のひとつに Dropout がある
- 連想はベクトル検索か?違うと思う
- ランダムに次元削減してから類似度検索してしてる