注意機構は辞書オブジェクトか? 内積注意について考える Attention(query,Key,Value)=Softmax(query⋅Key)⋅Value 高次元のベクトルにおいて、任意の2つのベクトルはだいたい内積が0に近い(次元の呪い) Soft-argmax近似を使えば実質的にargmax Key→Valueの関数がたとえ学習によって獲得することが困難であっても、記憶によって作ることができる 実際の辞書オブジェクトはkeyの一致を判定するが、こちらは内積の近さ ほとんど全ての内積が0だから空間がこんな感じでファジーに分割されるだろう Key-Value Memory Networks for Directly Reading Documents https://arxiv.org/pdf/1606.03126.pdf