大規模言語モデルで標準となっているプレノルム[PreNorm]を用いたレジidual接続[Residual connections with PreNorm]が抱える課題を解決することが抱える課題を解決するために,北京月之暗面科技[Beijing Moonshot AI Technology Co., Ltd.,中]のKimi Teamにより提案されたのが,先行する層の出力を学習可能な重みで選択的に集計する仕組みであるAttnRes[Attention Residuals].

従来のモデルは各層の出力を一律に加算するため,層が深くなるほど情報が希釈される問題があった.本手法はソフトマックス・アテンションを用いることにより,過去の表現を適応的に選択して統合することを可能にしている.計算コストやメモリ負荷を抑える工夫として,層をグループ化して処理するBlock AttnResも導入されており,実用的な実装が実現されている.

実験の結果,この手法は出力の安定化や勾配分布の改善に寄与し,幅広いタスクにおいてモデルの精度を向上させることが確認された.最終的に,480億パラメータを持つKimi Linearアーキテクチャに統合され,大規模な学習データを通じてその有効性が実証されている.

課題

LLMでは,プレノルム[PreNorm]を用いたレジidual接続が一般的であるが,2つの課題がある.

AttnResの仕組み

AttnResは,単に前の層の出力を足し合わせるのではなく,ソフトマックス・アテンション[softmax attention]を用いて,過去のすべての層の出力を集計する.

実装上の工夫:Block AttnRes

全層のアテンション計算は,大規模モデルの訓練においてメモリや通信のオーバーヘッドを増大させる可能性がある.これを解決するために, Block AttnRes という手法が導入されている.

期待される効果と実証結果

研究チームがKimi Linearアーキテクチャ[総パラメータ数48B / 活性パラメータ数3B]に AttnRes を統合して1.4兆トークンで事前学習を行った結果,以下の効果が確認されたとする.

つまり,AttnRes「層の積み重ね」「過去の知見からの動的な選択」へと進化させることにより, モデルの深層化に伴う効率低下を防ぎ,性能を引き出す技術と言うことができる.

用語解説

参考文献


2026-03-21.