注意機構

[注意] 2018年現在の一般化

$Attention (q u ery, Keys, Va l u es) = Normalize (F (q u ery, Keys)) \cdot Va l u es$
queryと複数のkeyの束であるKeysがある
queryとKeysを引数にとってそれぞれのkeyに対する注意の強さを返す関数Fがある
その結果を何らかの方法で合計が1になるように正規化して注意強度を得る(だいたいsoftmaxだが see ハード注意機構)
その注意強度でValuesを重み付け平均する
図解
FはKeyの個数を知らない。 $F (q u ery, Key)$ はKeyのshapeに依存しない。
- 数学語でどう表現するのが良いかわからない。
- 一つのqueryと一つのkeyを受け取る関数fがあって[f(query, key) for key in Keys]

Func := Feed-Forward Network
$A tt e n t i o n (q u ery, Key, Va l u e) = S o f t ma x (FFN (co n c a t (q u ery, Key))) \cdot Va l u e$
By letting the decoder have an attention mechanism, we relieve the encoder from the burden of having to encode all information in the source sentence into a fixedlength vector. With this new approach the information can be spread throughout the sequence of annotations, which can be selectively retrieved by the decoder accordingly.
RNNの隠れ状態は固定長のベクトルで、文章全体のデータをそこに詰め込んで覚えておくのは負担
注意機構は任意長のデータから情報を取り出すことができるのでその負担を軽減する

queryとkeyを単に内積したもので良いという割り切り
$A tt e n t i o n (q u ery, Key, Va l u e) = S o f t ma x (q u ery \cdot Key) \cdot Va l u e$
もちろんこの内積は論文によっては行列積で表現されたりしている
関連双線形

当初、注意機構はRNNと組み合わせて使うことが想定されていた
Encoder-Decoder構成でのEncoderの隠れ状態を保存しておき、注意機構によってその隠れ状態の中から選択する
この構成だとKey, ValueはEncoderから、queryはDecoderから来る
この種の構成をソースターゲット注意と呼ぶ
- (Sequence Generation with Target Attention(2017)でsource-target attentionとtarget-target attentionという形で比較議論されている)
KとVを合わせてMemoryと呼ぶ
対義語が[自己注意]
- こちらはKey, Value, queryすべてが自己である…いや、その定義は抽象度が釣り合ってないから…
- いずれもっと良い用語に分化していくかもしれない
- 今のところ一つの実装例としては「全部下位レイヤーから来る」
  - この形だとCNNの発展形
  - 固定長の入力しか受け取れなかったCNNが不定長の入力を受け取れる注意機構で置き換えられた
  - この置き換えに関する解説: CNNと自己注意

古い解説

🪴 Quartz 4.0