ニューラルネットワークにおける1ビットパラメータ

Cabral, Eduardo L. L., Pirozelli, Paulo, & Driemeier, Larissa.（2025）. 1 BIT IS ALL WE NEED: BINARY NORMALIZED NEURAL NETWORKS. A preprint, September 10, 2025. URL https://arxiv.org/pdf/2509.07025.

大規模ニューラルネットワークモデル, 特に言語モデルや基盤画像モデルの規模増大がもたらす展開上の課題に対処するため, メモリ要件の削減と計算効率の向上を目指した新しいタイプのニューラルネットワーク層とモデルを開発.これは, 全ての層のパラメータ[カーネルの重みとバイアスを含む]が単一ビットの解像度のみを持つことが特徴である.このアプローチは, メモリ要件を大幅に削減し, シンプルで安価なハードウェア上での大規模モデルの展開を可能にするという.

従来の人工知能モデルは, 埋め込みシステムへの適用において深刻な制約に直面しており, 多くはクラウドコンピューティングインフラストラクチャや高性能な特殊ハードウェアに大きく依存している.このような大規模AIモデルの増大は, データセンター外では満たしがたい相当な計算リソース, エネルギー, メモリ要件をもたらす.この制約に対処するため, 量子化が重要な技術として浮上しており, 高精度浮動小数点演算の代わりに低ビットの整数形式を使用することで, メモリ使用量と帯域幅要件を大幅に削減し, 高速化とエネルギー効率の改善を実現する.しかし, 量子化は量子化関数の非微分可能性や重み・活性化関数の値の範囲に対する感度により, 精度の維持に課題を抱えている.

本研究で提案された「バイナリ正規化層」は, このような課題を解決するために開発されたものであり, 全結合層, 畳み込み層, 注意機構層など, あらゆる種類の層に適用可能である.これらの層を用いることで構築されるモデルは, パラメータが1ビットであるにもかかわらず, 従来の32ビット浮動小数点パラメータを持つモデルとほぼ同等の性能を示す.さらに, 既存のモデルと比較して32倍少ないメモリで動作し, 同等の性能を持つモデルの開発を可能にするとされる.

トレーニング中, バイナリ正規化層における各パラメータは, 勾配更新に使用される32ビット浮動小数点値と, 順方向計算に使用されるバイナリ化された値という二つの形式で同時に存在する.これは, 逆伝播中の勾配更新が非常に小さいため, パラメータが恒久的にバイナリ化されていると情報が完全に失われるのを防ぐためである.トレーニング完了後には, 1ビットのバイナリパラメータのみが展開のために保持される.トレーニング自体には32ビットパラメータが必要であるため, 従来のモデルと同量のメモリが必要とされるが, 最終的に展開されるモデルは1ビットパラメータのみであるため, はるかに少ないメモリしか要求しない.

1ビットパラメータの使用は, 入力値の大小を不均衡に増幅または抑制し, また勾配消失や勾配爆発の問題を深刻化させるという二つの重大な制約をもたらす.これらの課題に対処する効果的な方法として, 活性化関数を適用する前に線形変換の出力を正規化することが挙げられる.この正規化は, バイナリ重み付けネットワークにおいては特に重要であり, トレーニングの安定化だけでなく, 極端な量子化によって生じる深刻な制約を補償し, 低解像度パラメータにもかかわらず効果的な学習を可能にする.具体的には, 特徴の影響の均等化, 収束安定性の向上, 勾配の大きさの制御, 偏った学習の回避, 勾配消失・爆発の緩和に寄与するとされる.

本研究では, このバイナリ正規化層の有効性を示すため, 多クラス画像分類問題と次トークン予測を行う言語デコーダという2種類の問題が設定され, 検証が行われた.画像分類には畳み込みバイナリモデルが, 言語デコーダにはマルチヘッド注意機構を備えたトランスフォーマーブロックで構成されるバイナリトランスフォーマーモデルが使用された.

実験結果は, バイナリモデルがトレーニング中に不安定性を示すことなく, 標準的な32ビットモデルとほぼ同等の性能を達成することを示した.特に, 従来の低解像度パラメータモデルではトレーニングの不安定性が大きな懸念事項であったが, このモデルではそのような問題が見られない.標準モデルはより早く学習する傾向にあるが, 過学習が顕著に見られるのに対し, バイナリモデルでは過学習がほとんど観察されない.バイナリモデルのパラメータ数を増やすことで, 過学習を引き起こすことなく性能が向上し, 32ビットモデルと同等の性能レベルに到達できるという.

この新しいタイプの層は, 専用の電子ハードウェアの開発を必要とせず, 1ビット配列を使用することで既存のコンピューター上に容易に実装できる.これにより, メモリ要件が大幅に削減された大規模ニューラルネットワークモデルを, モバイルデバイスやCPUのみといったシンプルで安価なハードウェア上で展開できる新たな時代が開かれると期待される.

Mathematics is the language with which God has written the universe.

コーディングエージェントのコンテキスト最適化ツール大規模言語モデルは本当に統計的基礎を必要とするのか？大規模言語モデル（LLM）が潜在的にマルチホップ推論を実行するか大規模言語モデルはショートカットを悪用せずに潜在的なマルチホップ推論を実行するか？ローレンツ曲線の描画 multipassでのマウント