summary:
世界モデルの概念は,1980年代の制御理論やロボット工学において,動的環境の内部モデルを用いた予測・計画の研究として萌芽した.だが,本格的な展開を見せたのは深層学習以後であり,とりわけ2018年にDavid HaとJürgen Schmidhuberによって発表された論文World Modelsによって現代的な形式が定式化された.このモデルは,観測をVAE[変分オートエンコーダ]で潜在表現に変換し,MDN-RNN[混合密度ネットワーク付き再帰型ニューラルネットワーク]により潜在空間内の時系列遷移を学習し,さらにCMA-ES[進化戦略]によってポリシーを最適化する三層構造を採用した.本手法により,Pixel-based環境[CarRacingなど]において,現実環境を使用せずとも内部モデルだけでポリシー学習が可能であることが示された.
この基礎を発展させたのが,Danijar Hafnerを中心とする研究者らによって開発されたDreamerシリーズである.DreamerV1[2019年]は,Google Brainの支援のもとで発表され,潜在空間におけるモデル予測制御という思想に基づき,VAEではなくStochastic Recurrent State Space Model[RSSM]を導入し,より堅牢かつ効率的に未来状態と報酬を生成可能にした.また,Actor-Criticによる方策学習を世界モデルと統合した点が特徴である.DreamerV2[2020年]では,より深い潜在構造を導入し,長期予測の安定性と学習のサンプル効率を改善し,MujocoやAtari環境での高性能を実証した.さらに,DreamerV3[2023年]では,環境に全く依存しない形で,モデルの予測のみで完全な強化学習エージェントを構築する能力が示された.このバージョンでは,価値関数,報酬予測器,行動モデルの統一的訓練が強調されており,複雑な連続制御タスクにおける現実的適用が視野に入れられている.
これらの進展に並行して,Google DeepMindによるMuZero[2019年]もまた,世界モデル的アプローチを別の方向から追求した.MuZeroは,環境から直接得られる観測,遷移,報酬の明示的なモデルを構築することなく,ポリシー学習に必要な内部的な潜在状態と動的予測モデルのみを学習する方式を採用した.このモデルは,潜在表現を使ってツリーベースの計画[モンテカルロ木探索]を行うことが可能であり,AlphaZeroの汎化形として,将棋・囲碁・Atariを単一手法で解く能力を示した.MuZeroは明示的な物理環境の再現を行わず,行動選択に必要な情報のみを抽象的に保持する点で,計画中心の世界モデルの代表的実装とみなされる.
こうした研究潮流を踏まえ,NVIDIAは産業用ロボットおよび物理世界の操作・観測を対象とするマルチモーダルな世界モデルの開発に注力している.NVIDIAの世界モデル群は,一般にTransformerアーキテクチャを中核に据え,物理世界における複雑な時空間変化を学習可能な大規模マルチモーダル基盤モデルとして構成されている.公開された研究の一部ではCosmosという名称が使用されており,物理世界の理解と行動生成に特化した統合世界モデルファミリーとして設計されていると解釈される.
このCosmosに類するモデルの特徴として,動画,画像,点群,力覚,状態ベクトルなど,多様なモダリティを自己注意機構により統合するTransformerベースの表現学習があり,これにより観測から行動へのマッピング,さらには将来状態のシミュレーションまでを単一モデルで行う.特に,再帰的に動作を計画するrollout型予測,複数エージェントの相互作用を扱うグラフベース構造,ならびにmemory bankとretrieverによるエピソード検索機能との統合は,物理的現象を忠実に予測・制御する点において実用的なブレークスルーである.これにより,NVIDIAの世界モデルは単なる予測モデルを超え,計画,模倣,意図理解,場面再構成を担う推論エンジンとして位置づけられる.
Cosmosは,言語生成を目的とするLLMとは異なり,物理的制約を厳守しながら意味のある運動系列を出力する点で,生成モデルの中でも特に物理世界に整合する知能モデルである.Dreamerが主に観測→潜在状態→予測→方策という系列構造を取るのに対し,Cosmosは大規模Transformerにより文脈的意味や空間的構造を自己注意的に統合し,より広汎な制御・知覚・予測に対応する.さらに,Cosmosは自動運転,産業用ロボット,ヒューマノイドロボットといった応用分野において,シミュレーションと現実制御を接続する汎用的な世界モデルとして設計されている.
このように,世界モデルは単なる構造の概念にとどまらず,深層生成モデル,時系列予測,ポリシー最適化といった複数の技術領域を統合する中心的技術となっており,強化学習,模倣学習,ロボティクス,ゲームAI,自動運転など,物理的・仮想的なあらゆる環境における知的意思決定の基盤として発展を続けている.現在では,DreamerV3やMuZero,NVIDIAのCosmosに類するモデル以外にも,PlaNet,SimPLe,VIP,GameGAN,Fréchet Video Distance[FVD]を用いた評価指標など,多数のアーキテクチャと評価手法が登場しており,それぞれが環境を内部に持つ知能という理想に異なるアプローチで挑んでいる.近年では,大規模言語モデル[LLM]との統合により,自然言語による指示と物理的行動の橋渡しを行うマルチモーダル世界モデルや,実世界の大量映像から学習したVideo Generation Modelを世界モデルとして活用する研究も活発化しており,知能の内在化と環境理解の融合が新たな段階に入りつつある.
Mathematics is the language with which God has written the universe.