Submitted on 29 Mar 2022 Training Compute-Optimal Large Language Models

We investigate the optimal model size and number of tokens for training a transformer language model under a given compute budget. We find that current large language models are significantly undertrained, a consequence of the recent focus on scaling language models whilst keeping the amount of training data constant. By training over 400 language models ranging from 70 million to over 16 billion parameters on 5 to 500 billion tokens, we find that for compute-optimal training, the model size and the number of training tokens should be scaled equally: for every doubling of model size the number of training tokens should also be doubled. We test this hypothesis by training a predicted compute-optimal model, Chinchilla, that uses the same compute budget as Gopher but with 70B parameters and 4× more more data. Chinchilla uniformly and significantly outperforms Gopher (280B), GPT-3 (175B), Jurassic-1 (178B), and Megatron-Turing NLG (530B) on a large range of downstream evaluation tasks. This also means that Chinchilla uses substantially less compute for fine-tuning and inference, greatly facilitating downstream usage. As a highlight, Chinchilla reaches a state-of-the-art average accuracy of 67.5% on the MMLU benchmark, greater than a 7% improvement over Gopher.

enjabelow.icon

(DeepL) 我々は、与えられた計算予算内で変換言語モデルを学習するための最適なモデルサイズとトークン数を調査する。これは、学習データ量を一定に保ちながら言語モデルを拡張することに近年焦点が当てられている結果である。7000万から160億以上のパラメータを持つ400以上の言語モデルを50億から5000億のトークンで訓練することにより、計算機最適な訓練のためには、モデルサイズと訓練トークン数を等しくスケールする必要があることを発見しました:モデルサイズが2倍になるごとに、訓練トークン数も2倍になるはずです。この仮説を検証するために、Gopherと同じ計算量を使い、70Bのパラメータと4倍のデータを持つ予測計算最適化モデルChinchillaを訓練しました。Chinchillaは、Gopher(280B)、GPT-3(175B)、Jurassic-1(178B)、Megatron-Turing NLG(530B)を、下流の幅広い評価タスクにおいて一様に、かつ大幅に上回った。これは、Chinchillaが微調整や推論に使用する計算量を大幅に削減し、下流での利用を大幅に促進することを意味します。特に、MMLUベンチマークにおいて、ChinchillaはGopherと比較して7%以上向上した67.5%の平均精度を達成し、最先端を行く。