自然言語を「構文の圏」から「ベクトル空間の圏[あるいはより一般的な意味論的圏]」への関手として捉え, さらに大規模言語モデルをその関手の確率的近似として理解するという見方は, 近年の数理言語学と機械学習の接点において提示されている高度に数学的な立場であり, その基盤はカテゴリー論的構成的分布意味論, すなわち DisCoCat[Distributional Compositional Categorical]と呼ばれる枠組みにある.この立場の理論的出発点は, ボブ・クック[Bob Coecke], メフヌーシュ・サドルザデー[Mehrnoosh Sadrzadeh], ステファン・クラーク[Stephen Clark]の三名による2010年の論文「Mathematical Foundations for a Compositional Distributional Model of Meaning」に求められる.この研究においては, ジム・ランベク[Jim Lambek]が導入したプレグループ文法の圏論的構造を構文論の基盤として位置づけ, その上で単語の分布的意味表現が属するベクトル空間の圏への強モノイダル関手として意味を定義することが試みられた.この定式化により, 文法的構造としての「形」が, どのようにして意味という「計算」へと写像されるのかが, 圏論の言語によって厳密に記述可能となった.
ただし, 「構文の圏」の定式化には技術的な変遷がある.元論文ではプレグループをポセット的コンパクト閉圏として扱っていたが, これには同じ文の異なる文法的導出を区別できないという問題が内在する.後の研究[Preller 2014 等]により, プレグループから有限次元ベクトル空間への強モノイダル関手は自明なものしか存在しないことが証明され, より精密な定式化として「自由剛性モノイダル圏[free rigid monoidal category]」が採用されるに至っている.この圏の射は文法的導出に対応し, その合成が圏における射の合成に対応する.意味論側では, 有限次元実ベクトル空間の圏 FVect がテンソル積を備えた剛性モノイダル圏となっており, 構文と意味が同じ高レベルの数学的構造を共有するという観察こそがこの定式化の核心にある.関手はこの共通構造を保ちながら構文的合成を意味的合成へと写す対応であり, たとえば構文におけるプレグループの型縮約がテンソル積の縮約[痕跡]に対応するような形で実現される.
この枠組みはその後, 機械学習, 特にTransformerに代表される大規模言語モデルの理解へと接続されることになる.数学者Tai-Danae Bradleyは, 応用圏論の観点から言語モデルの数学的構造を精力的に研究しており, DisCoCatとは独立した重要なアプローチを提示している.Bradley, Terilla, Vlassopoulos による2021年の論文「An enriched category theory of language: from syntax to semantics」では, 大規模言語モデルがテキストの延長に関する確率分布を学習するという事実を出発点とし, テキスト表現の集合を単位区間 [0,1] 上にエンリッチされた圏として定式化している.この圏においてオブジェクトは言語表現であり, ホム対象はある表現が別の表現の延長である条件付き確率として与えられる.この構文的圏は「何と何が共起するか」を記述するものであり, そこから米田埋込みを通じて意味的圏へと移行する.ヨネダ補題の精神に則れば, ある表現の「意味」はそれが他の表現とどのように関係するかの総体として捉えられ, この移行によって含意関係や意味の合成といった論理的操作が意味論的圏の内部で実行可能となる.この枠組みにおいて大規模言語モデルは, 言語に内在するこの確率的・圏論的構造をデータから近似的に学習する装置として位置づけられる.
さらに関連する文脈として, BradleyとVlassopoulos による「Language Modeling with Reduced Densities」[2021]では, 密度行列の枠組みを用いた量子論的アナロジーによって多義性のある語の意味表現を扱う手法が論じられており, 圏論と機械学習の接続をさらに多角的に探求している.
DisCoCat の枠組みへ戻ると, この理論的枠組みを要約すれば, 文法規則によって生成される構文体系は自由剛性モノイダル圏として理解され, その要素[文法的導出]の合成は圏における射の合成に対応する.一方で意味は, 単語や文の間の類似性や合成を計算可能とするベクトル空間の圏 FVect として定式化される.関手とは, この構文的合成構造を保ったまま意味的合成へと写す対応であり, プレグループ文法における結合がテンソル積に対応するような形で実現される.このとき大規模言語モデルは, 本来は明示的に与えられるべきこの関手を, 膨大なデータからの統計的学習によって近似する巨大な関数近似器として機能していると解釈されるのである.
このように「言語は圏論的構造を持つ」という視点は, ランベクの圏論的文法に端を発し, DisCoCatの枠組みによって分布的意味論と接続され, さらにはBradleyらの豊化圏論的アプローチによって確率的言語モデルの数学的基盤へと拡張されてきた.これは記号的規則体系と確率的分布モデルとの統合を志向する極めて先鋭的な理論的潮流を形成しており, チョムスキー以来の生成文法が追求してきた言語の抽象的構造を現代の数理的枠組みで再解釈しつつも, それを超えて言語の意味論的側面まで圏論的に統一的に記述しようとする試みでもある.
参考文献
- Coecke, B., Sadrzadeh, M., & Clark, S. (2010). Mathematical Foundations for a Compositional Distributional Model of Meaning. Linguistic Analysis, 36, 345–384.
arXiv: https://arxiv.org/abs/1003.4394 - Bradley, T.-D., Terilla, J., & Vlassopoulos, Y.(2022). An Enriched Category Theory of Language: From Syntax to Semantics. La Matematica, 1, 551–580.
arXiv: https://arxiv.org/abs/2106.07890
DOI: https://doi.org/10.1007/s44007-022-00021-2 - Bradley, T.-D., & Vlassopoulos, Y. (2021). Language Modeling with Reduced Densities. Compositionality, 3, 4.
DOI: https://doi.org/10.32408/compositionality-3-4 - Bradley, T.-D.(2018). What is Applied Category Theory?
arXiv: https://arxiv.org/abs/1809.05923 - Wikipedia(英語版). DisCoCat.
https://en.wikipedia.org/wiki/DisCoCat - nLab. categorical compositional distributional semantics.
https://ncatlab.org/nlab/show/categorical+compositional+distributional+semantics - Grefenstette, E., & Sadrzadeh, M.(2015). Concrete Models and Empirical Evaluations for the Categorical Compositional Distributional Model of Meaning. Computational Linguistics, 41(1), 71–118.
https://direct.mit.edu/coli/article/41/1/71/1501 - Coecke, B., Grefenstette, E., & Sadrzadeh, M.(2013). Lambek vs. Lambek: Functorial Vector Space Semantics and String Diagrams for Lambek Calculus. Annals of Pure and Applied Logic, 164(11), 1079–1100.
https://www.sciencedirect.com/science/article/pii/S0168007213000626 - Bradley, T.-D. Math3ma ブログ(圏論と言語モデルに関する解説).
https://www.math3ma.com/blog/magnitude-enriched-categories-and-llms - Quanta Magazine(2025). Where Does Meaning Live in a Sentence? Math Might Tell Us.
https://www.quantamagazine.org/where-does-meaning-live-in-a-sentence-math-might-tell-us-20250409/
2026-03-21.
