恒等写像を学習するでの「凸多角形だから分離可能」をどうやって思いついたのか、と質問された 見た後はすぐ気づいたので、その少し手前の「わからないで悩んでいる段階」にヒントがありそうだ。
- 最初は「2^N次元のone-hot表現は、それが表現している数を二進法表記すればN次元で表現できる」と考えていた
- 100次元の入力を中間層7個で表現できた実験結果を見たときはまだこの考えだった
- ところが中間層6個でも表現できた
- 2^6は64だぞ?足りないぞ?
- どうやって実現しているのか頭で考えてもわからなかった
- 記事に書いてないけどニューラルネットの重みを可視化して観察してみたりもしていた
- 観察するために2次元でやろうと考えた
- 観察した結果、輪っか状に並んでいることがわかった
- これは初期値を変えて何度も挑戦してやっとうまく行ったものなので、この点の配置には強い意味がある
- 意味がある配置なのであればその意味は何か
- 「こういう形で並んでいるから平面で1個だけ切り出すことができるのだな」と思った
- それを言葉にすると「凸多角形はどの1頂点も他の頂点から分離可能である」となる