Fine-Tuning Llama-2: A Comprehensive Case Study for Tailoring Models to Unique Applications

Llama2のFine tuningガイド

ファインチューニングのサービスを提供している会社による自社サービスを使ってのファインチューニングの事例紹介

Llama-2モデル

いくつかのニッチなケースではGPT-4よりも優れている

微調整の基本 3つのタスクすべてにおいて、我々は標準的な全パラメータのファインチューニング技術を使用する。

データをワーカー間でシャード DeepSpeedでモデルのシャーディング

特殊トークン

自然文で指示するのではなく特殊トークンを使ってタスクを構造化している
- その学習で自然文での指示に対する性能が上がる？そうではなくどうやって変換するかは無視している？
- 後者っぽいな、何らかの理由で構造化された入力が取得できる場合に、構造を明確に伝えるために自然文に現れないトークンを使った方がいい、ということ

ViGGOの解説

ファインチューニングの有効性

以前のブログ記事で、私たちは「ファインチューニングは事実のためではなく、形のためにある」という考えについて述べた。

いくつかの重要な質問

ベースモデルが学習過程でタスクの概念に遭遇しているか？
- 遭遇してない新概念は、小規模なファインチューニングで獲得できる可能性は低い
Fewshotsで改善するか？
- 改善するなら、ファインチューニングでさらに改善する可能性が高い
- モデル内部のニューラルネットワークの重みにはるかに多くの例を組み込むことができるからです。

ViGGOはパターン認識を中心に展開され、言語と基本的な概念の基本的な把握が必要だが、複雑な論理的推論は要求されない。

評価

Llama-2微調整モデルによるSQL生成

なぜ微調整が有望なのか？
- このタスクは、SQLの「構造」を学習し、自然言語をこの構造に変換するLLMの能力に成功がかかっている
- これも「出力の形」がキッチリとルールに従うことが大事なパターンということだな

結果

小学生の算数推論（GSM8k）

このデータセットでの微調整の課題は、前の2つとは異なる。単に構造を学習するのとは対照的に、我々はLLMが数学の問題に対する推論能力をどれだけ向上させることができるかを見たかった。
自然文で回答が出される場合に正しく答えられているか検証が困難なのでGPT-3.5で切り出した
- ファインチューニングするとすぐに正規表現で切り出せるような出力をするようになってAPI呼び出しのコストが削減できた

chat版はそもそも7Bや13Bにおいて性能が高い

8kデータポイントでは足りないと判断してさらに増やすアプローチをして、さらによくなったと言っている

🪴 Quartz 4.0