- 回転する単位ベクトルを位置の情報として混ぜこむことによって位置の表現をする
- これが目立たないけどかなり重要でCNNと違って注意機構は位置の情報を持ってないので「前の単語が何々」みたいなことをそれ単体では実現できないわけなんだが単語を埋め込みベクトルに変えるところでその単語の位置情報も埋め込んでしまうので注意機構で位置に基づく判断ができるようになるというわけだ
- この位置の表現が回転する単位ベクトルなのも頭が良くて、こうエンコードするとn単語前って関係は行列の掛け算で容易に表現できるし、回転周期の違うのをいくつも入れることでどれくらいの曖昧さを許容するかが表現できる
- この位置エンコーディングと自己注意の組み合わせが素晴らしいのだと思われる