Empirical Finding:
標準的なLLMに対して計算リソース(アテンションの予算 $k$)を人工的に制限する「希少性」を課した際のモデルの振る舞いを分析した結果, リソースが豊富にある状態では、モデルは広範囲のトークンに注意を向ける「分散投資(Diversified investments)」のような戦略をとる.
しかし, 計算予算 $k$ が減少するにつれて, モデルは以下のプロセスを通じて戦略を劇的に切り替える.
この戦略の切り替えは, アテンション分布を測定する2つの統計的指標によって定量的に証明されている.
この実験結果は, LLM内部に暗黙の「情報の価値評価関数」が存在することを示唆している.モデルは単に事前に学習されたパターンを出力するだけでなく,計算制約という経済的な圧力に対して,最も費用対効果(性能・コスト比)の高い計算経路を選択するという出現的な合理性を示している.
大規模言語モデル(LLM)は,計算リソースの希少性に直面した際,タスクの効用を最大化するために合理的な経済エージェントのように振る舞い,戦略的な資源配分を行うことが実験的に示されている.
計算予算 $k$ に対するジニ係数 $G(A_k)$ とエントロピー $\mathcal{H}(A_k)$ の変化は,以下の単調性として記述される.\[k_1 < k_2 \implies \begin{cases} G(A_{k_1}) > G(A_{k_2}) & \text{(ジニ係数の単調減少性)} \\ \mathcal{H}(A_{k_1}) < \mathcal{H}(A_{k_2}) & \text{(エントロピーの単調増加性)} \end{cases}\]リソースの希少性が増す($k$ が減少する)際のモデルの適応行動は、以下の微分形式で表現される.
この数学的傾向は,LLMが制約条件下で以下の戦略的転換を実行することが証明されている.
「リソース不足に直面した際の合理的な行動」を, モデルに意図的に学習させるための具体的な訓練手順は以下の通り.
Input: Model $f_\theta$, Dataset $\mathcal{D}$, Learning Rate $\eta$, Incentive Weight $\lambda$
for each epoch do
for each batch $(x, y) \in \mathcal{D}$ do
$\hat{y}, \text{activations} = f_\theta(x)$; // Forward pass
$L_{\text{task}} = \text{CrossEntropy}(\hat{y}, y)$; // Task loss
$C_{\text{comp}} = \text{CalculateComputationalCost}(\text{activations})$; // Cost calculation
$L_{\text{total}} = L_{\text{task}} + \lambda C_{\text{comp}}$; // Total incentive loss
$\text{gradients} = \nabla_\theta L_{\text{total}}$; // Backward pass
$\theta = \theta - \eta \cdot \text{gradients}$; // Update weights
end for
end for
Output: Trained model parameters $\theta$
Mathematics is the language with which God has written the universe.