-
なぜ不定長への拡張ができるのか?
-
CNNは、自分からの相対位置で、どの位置の値にどんな重みを掛けるかは行列の形でハードコードされていた
- なので前後何個の値に対して処理をするかを事前に固定する必要があった
-
注意機構では、どんな重みを掛けるかは、その値によって決まる
-
だから個数を事前に定める必要がない
-
その代わり、単純な構成では位置の情報がないので入力列をシャッフルしても注意機構が返す値は同じ
-
-
TransformerではPositional Encodingを組み合わせる
- 入力値自体に位置の情報を埋め込んでしまう
- これで注意機構がCNNの代わりを果たせるようになった