@nishio: DNNのパラメータが数億の規模だから丸覚えできると主張する人がいるそうだ。 しかし512×512のRGB画像1枚表現するのに80万次元必要で、StableDiffusionは23億枚で学習してるのでザックリ言って5桁間違えている。

@nishio: あっ、元ツイートは汎化の話をしてるのか、図とマッチしてないから勘違いした 例えば極端な例としてStable Diffusionと同じ形のニューラルネットに1枚だけ画像を与えて学習させたら、それを丸覚えしてどんなプロンプトを入れてもその画像が出るようにはなる。この「XならばY」はおそらく成立するけど、実際には何十億枚入れて学習させてて前提XがFalseなので命題がTrueなのは当然 確率が0かどうかという意味でなら、もちろんま0ではない。でもそれは1万次元を超える広大な空間のランダムな1点からスタートして、うっかり既存の点に一致してしまう確率。UUIDが128ビットでこっちは2万次元のfloatだからなぁ、雑に言ってUUIDが100個一致してしまうくらいの確率だろう UUIDは一様ランダムではないから別の例がいいな… まあ、3桁ビットくらいの情報量のハッシュ値を人類は「うっかり衝突する確率は無視できる」と考えて使ってるわけで、そこからさらに2桁くらい上ということが言いたかった

@lempiji: この手の違和感は常にあるし無圧縮の記憶は無理だけど、80万次元に対してデータ数が数十億じゃ密度としてはほぼゼロみたいなものなので、データの存在点には何かしらのルールがあり、その点を指す方法として無損失の圧縮が存在すると考えることは結構自然なんだよな

@nishio: 無損失圧縮よりもさらに条件の良い「人間があまり気にしない細部は変えても良い」って条件で写真をJPEG圧縮して10倍程度には縮むが100倍程度には縮まないのが現状であるので「無損失でさらに3〜4桁圧縮する方法があるはず」って主張にはかなり無理がある。 今までの画像の圧縮は「画像の意味」を使っていなかったので、それを使うことによってJPEGよりも圧縮率の高い「人間にとっての意味合いがあまり変わらない圧縮」が可能になるって点には同意で、例えば「猫ならなんでもいい」ならcatの3文字に圧縮できてる。圧縮率はユーザが何を同一視するか依存。

「私が描きました」(AIをつかって) image 特にこだわりがなくてお絵描きサイトに上がってそうな少女ならなんでもいいって場合には簡単。ユーザである僕が「OK」と認識する領域が広いから。細かい属性を気にすれば気にするほどOK範囲が狭まる。たとえばこの手の左手指はどうなってるのかな? @nishio: 今まで「文字詰めがおかしい」「数ピクセルズレてる」「誤植がある」みたいに「気づく人」とそれに気づかないままリリースする人とがいたわけだけど、それが今後こういうイラストに関しても発生する。指先まできちんとなってるかを気にする人と、気にしない人とが世の中にはいる。後者が多数派。 NovelAIDiffusion

日記2022-10-09←日記2022-10-10→日記2022-10-11 100日前 日記2022-07-02 1年前 日記2021-10-10