セマンティック符号化

Definition:Semantic Source Coding

入力メッセージ $X = (x_1, x_2, \ldots, x_n)$ と推論タスク $Y$ が与えられたとき、写像 $f: \mathcal{X} \to \hat{\mathcal{X}}$ によって得られる圧縮表現 $\hat{X} = f(X)$ が\[ I(\hat{X}; Y) = I(X; Y) \]

かつ。\[ |\hat{X}| < |X| \]

を満たすとき、$f$ をセマンティック符号化という。

セマンティック符号化は、古典的なシャノン情報理論が「記号の意味」を捨象していたことへの根本的な問い直しから生まれた概念である。

歴史的背景

Shannonは1948年の論文 "A Mathematical Theory of Communication" において、情報量をメッセージの意味とは独立に定義した。これは工学的には極めて有効な抽象化であったが、同時に「意味」を理論の外に追い出すことでもあった。Shannon自身もこの点を認識しており、同論文の中で「情報の意味的側面は工学的問題とは無関係である」と明示している。

この割り切りに最初に正面から挑んだのはWeaver(1949)であり、通信の問題を3層に分類した。第1層(技術的問題)はShannonが解いた符号化の問題、第2層(意味的問題)は記号が意図した意味をどれだけ正確に伝えるかという問題、第3層(効果的問題)は伝達された意味が受信者の行動にどう影響するかという問題である。Weaverはこの分類を提示したが、第2層・第3層の数理化には踏み込まなかった。

その後、意味的情報の数理化は長らく停滞した。転機となったのはCarnap & Bar-Hillel(1952)による意味論的情報理論の試みであるが、これは命題論理の枠組みに限定されており、自然言語や確率的な意味表現には対応できなかった。

決定的な進展をもたらしたのはTishby, Pereira & Bialek(1999)による情報ボトルネック(Information Bottleneck, IB)理論である。IBは「タスク $Y$ に関連する情報を保ちながら $X$ を最大限圧縮する」という問題を\[ \min_{p(\hat{x}|x)} \left[ I(X; \hat{X}) - \beta \cdot I(\hat{X}; Y) \right] \]

として定式化した。これは初めて「意味的に重要な情報」を相互情報量という確率論的な言語で捉えた枠組みであり、セマンティック符号化の直接の数理的祖先にあたる。

2000年代以降、深層学習の台頭とともにIB理論はニューラルネットワークの情報圧縮の説明原理として再注目された。Tishby & Schwartz-Ziv(2017)は深層ネットワークの各層がIBの意味でのセマンティック圧縮を自然に学習しているという仮説を提唱し、大きな議論を呼んだ。

LLMの文脈でセマンティック符号化が実用的問題として浮上したのは2020年代であり、Transformer型モデルコンテキスト長制約トークンコストの問題が動機となっている。入力プロンプトから意味的に冗長なトークンを除去してコンテキストウィンドウを節約しつつ、推論性能を劣化させないという要求は、まさに上記の定義が記述する問題に他ならない。

定義の数理的含意

条件 $I(\hat{X}; Y) = I(X; Y)$ は、データ処理不等式\[ I(\hat{X}; Y) \leq I(X; Y) \]

との関係から、$\hat{X}$ が $Y$ に関する $X$ の十分統計量(sufficient statistic)であることと同値である。すなわち、$Y \to X \to \hat{X}$ というマルコフ連鎖において等号が成立する条件は、$X$ から $\hat{X}$ への写像が $Y$ に関する情報を一切失わないことであり、Fisher情報量の文脈における十分統計量の定義と本質的に同じ構造を持つ。

条件 $|\hat{X}| < |X|$ は、この十分統計量が元の $X$ よりも短い表現で実現されることを要求する。両条件を同時に満たす写像 $f$ の存在は、$X$ の中にタスク $Y$ と無関係な冗長性が存在することを前提としており、自然言語においてはこれが広く成立すると考えられている。

古典的ロスレス圧縮との対比

古典的なロスレス符号化Huffman符号算術符号等)は\[ H(\hat{X}) \approx H(X) \]

すなわち、エントロピーを保存しながら平均符号長を $H(X)$ に近づけることを目標とする。これは $X$ を完全に復元可能な形で圧縮する。

セマンティック符号化はこれとは異なり、$X$ の完全復元を目標としない。タスク $Y$ に無関係な情報は積極的に捨て、$I(\hat{X}; Y) = I(X; Y)$ という弱い保存条件のみを課す。この意味でセマンティック符号化はタスク指向の不可逆圧縮であり、古典的ロスレス符号化よりも強い圧縮が原理的に可能である。

タスク特化型ヒューリスティック圧縮

AIコーディングエージェント(Claude Code、Cursor、Cline等)のAPI通信費(トークン代)を劇的に削減し、開発効率を最大化することを目的として、パトリック・シムコヴィアク(Patrick Szymkowiak)によって、2025年春から開発が始められたrtk(Rust Token Killer)は、CLIコマンドの出力に対して以下の4つの戦略を適用する。

これはヒューリスティックなルールベースフィルタリングである。つまり、$I(X^;Y)=I(X;Y)$ を保証してはいない。

rtkの圧縮の根拠は「git push の進捗表示はLLMの判断に不要だろう」という人間の事前知識に基づくヒューリスティックです。これは $Y$ (推論タスク)を暗黙的に固定した経験則であり、[ \Delta_i = I(x_i;, Y \mid X \setminus {x_i}) = 0 ]を情報理論的に検証したものではない。タスク $Y$ が変われば(例えば「コミット速度の統計分析」であれば進捗行が必要になる)、冗長性の判断が逆転する可能性がある。

とはいえ、セマンティック符号化工学的近似・実装例の一つとして見ることはできる。すなわち、入力メッセージ $X$ に含まれる冗長なトークン(自然言語の重複や意味のない記号)を間引き、メッセージ全体の長さ(ビット数)を減らしつつも、LLMの推論に必要なセマンティック(意味論的)な相互情報量 $(I(X; Y)$ を全く減少させない状態を目指すセマンティック符号化工学的近似・実装例の一つといえる。

元Netflixのエンジニアであるテジャス・チョープラー(Tejas Chopra)により2026年初頭頃に開発されたHeadroomは、rtkよりもセマンティック符号化に構造的に近い設計をもつ。

Headroomは、60〜95%のトークン削減を実測値として提示しており、圧縮性の条件 $|\hat{X}| < |X|$ を明確に達成している。

セマンティックロスレス性 $I(\hat{X}; Y) = I(X; Y)$ に関しても、Headroomrtkよりも、遥かに、この条件に近い設計をとっている。つまり、IntelligentContext(スコアベース重要度推定)により、メッセージを複数の要因(recency、semantic similarity、TOIN学習パターン、エラー指標、前方参照)でスコアリングし、最もスコアの低いメッセージから削除している。これは単純な古さベースの切り捨てよりも高度である。これは、\[\Delta_i = I(x_i;\, Y \mid X \setminus \{x_i\}) \]

の近似的な推定に対応している。

CCR(Compress-Cache-Retrieve)は、リバーシブル圧縮を実現しており、LLMはオリジナルをオンデマンドで取得できる。

これは情報理論的に重要な設計である。$\hat{X}$ から $X$ を復元できるということは、原理的に $I(\hat{X}; Y) = I(X; Y)$ が成立しうることを意味する。CCRはこの等号条件を「必要になったとき取り出せる」という形で実用的に担保しようとしている。

Kompress-baseというHuggingFaceモデルがエージェントトレースで訓練されており、画像圧縮には訓練済みMLルーターが使われます。これは固定ルールではなく、データから $I(x_i; Y)$ を近似的に学習しようとする試みであり、セマンティック符号化の理念に最も接近した部分と評価できる。

しかし、典型的な結果として、40〜90%のトークン削減において95%以上の精度保存が示されてはいるものの、セマンティック符号化の要件は\[ I(\hat{X}; Y) = I(X; Y) \]

すなわち100%の情報保存であり、理論的には $\varepsilon > 0$ の損失を認めた $\varepsilon$-ロスレスであり、厳密な等号条件を満たしてはいない。

観点 rtk Headroom
対象 CLIコマンド出力(開発ツール特化) あらゆるLLMコンテキスト(汎用)
圧縮手法 ルールベースフィルタリング ML + ルールベースの複合
可逆性 なし(不可逆) あり(CCRによる可逆圧縮)
タスク Y の考慮 暗黙的・固定的 スコアリングによる動的推定
実装言語 Rust(単一バイナリ) Python / TypeScript

参考文献

Mathematics is the language with which God has written the universe.





















セマンティック符号化 MPI-IO Lustre DSPy OKF 最小二乗法