日本語LLMに関する2つの問題を混同する人が多いから絵にしたよ
1の視点で「日本語LLMに意味はない」的な話をする人がいる 2の視点
- GPT3では情報密度が逆転する
- 日本語言語モデルについて考えたこと
-
今後どんどん成長していくであろう「言語をまたいで思考するAI」に対するパイプの太さが重要
-
「言語をまたいで思考するAI」は新たに発見された油田のようなもので、価値が湧き出してくる
-
ここから湧き出してくる価値を、パイプの細い言語のユーザはあまり享受できない
-
- 性能向上が頭打ちになるか、際限なく性能が向上するか
- 頭打ちになるなら1の「規模の大きさによる差」が縮んでいく
- 言語の力学
- 現状、GPT4とは日本語でやり取りするより英語でやり取りした方が性能が良い
- 日本語の言語モデルは必要か?
-
「別の小さいモデル」は無益だが「日本語に適したトークナイザー+αの層」は必要という話
-
一つの解決策はこういうの
- これが有益であるかどうかは未知数
- 「何もしないよりは挑戦した方が良い」的な発想
追記