Scaling laws in large language models
大規模言語モデルにおけるスケーリング法則とは,モデル性能が訓練に用いる計算資源,モデルパラメータ数,訓練データ量といった要素に依存してどのように変化するかを記述する経験的な定量的関係である.カプランら[Kaplan et al.$\textnormal{(2020)}$]によって提起された観察を基礎に,ホフマンら[Hoffmann et al.$\textnormal{(2022)}$]は事前学習損失 $L$ がモデルパラメータ数 $N$ および訓練トークン数 $D$ に従属する構造を次式で表した.\[L = E + \frac{A}{N^\alpha} + \frac{B}{D^\beta}\]ここで $L$ は事前学習損失,$E$ は自然言語のエントロピー,$N$ はモデルパラメータ数,$D$ は訓練トークン数であり,$A,\alpha,B,\beta$ は定数である.
この法則は,モデル規模やデータ量を拡大することにより損失がどのように漸近的に低下し,最終的に言語の持つ情報論的限界に収束していくかを示すものである.
すなわち,スケーリング法則はLLMの性能向上におけるリソース拡張の効果と限界を数理的に捉える枠組みである.
スケーリング法則が言う性能の向上とは,主として 事前学習損失が低下すること,すなわちモデルが次の単語や文脈をより正確に予測できるようになることを意味している.これに伴い,下流タスクにおける精度や応答の一貫性,知識の網羅性といった指標も改善する.数式で表せば,モデルパラメータ数 $N$ や訓練データ量 $D$ を増加させると\[L = E + \frac{A}{N^\alpha} + \frac{B}{D^\beta}\]に従って事前学習損失 $L$ が減少し,自然言語の情報論的限界 $E$ に近づいていく,という形で性能向上が定量的に捉えられているのである.
Mathematics is the language with which God has written the universe.