Def:the information-theoretic limit of natural language
自然言語の情報論的限界とは,言語という記号体系が本質的に持っている予測可能性の限界を指す概念である.これは情報理論におけるエントロピーの枠組みで定義される.
言語モデルはテキスト列の次に来る単語やトークンを予測することを目的とするが,いくらモデルの規模や訓練データを増やしても,自然言語自体が内包する不確実性や曖昧さを超えて予測精度を高めることはできない.この予測の理論的下限が自然言語の情報論的限界である.
形式的には,もし自然言語を生成する真の確率分布を $P$ とすると,そのエントロピーは次式で与えられる.\[H(P) = - \sum_{x \in \mathcal{X}} P(x) \log P(x)\]ここで $\mathcal{X}$ は可能な言語表現の集合である.この $H(P)$ が言語に固有の情報量の下限であり,モデルの事前学習損失 $L$ は最終的にこの値 $E = H(P)$ に漸近する.
自然言語の情報論的限界とは,「どれほど最適化されたモデルを用いても,自然言語の持つ固有の不確実性のためにこれ以上損失を下げることはできない」という理論的境界を意味する.
ここでのポイントは
自然言語の情報論的限界の概念は,1948年にクロード・シャノンによって確立された情報理論に端を発する.シャノンは言語を情報源としてモデル化し,その統計的性質からエントロピーを定義することで,符号化や圧縮の理論的限界を示した.
後に,ブリル&ムーア[Brill & Moore $\textnormal{(2000)}$]やシャノン自身の後続研究において,英語など自然言語の統計的エントロピーは単語列や文字列の条件付き確率によって近似可能であることが示され,モデルが達成しうる予測精度の上限を示す指標として利用されるようになった.
\[\mathcal{X} = \{\text{a}, \text{b}, \text{c}, \text{d}\}, \quad P(a)=P(b)=P(c)=P(d)=0.25\]\[H(P) = -4 \times 0.25 \times \log_2 0.25 = 2\] 均等分布の場合,どのトークンも同じ確率で出現する状況,すなわち,予測が最も難しい状況である.エントロピー $H(P)$ は「1トークンあたり平均して含まれる情報量」を表す.ここでは $H(P)=2$ なので,1トークンを知るためには理論的には 2ビットの情報 が必要である.言い換えると,最も不確実な分布[均等分布]の場合,トークンの予測に対する情報量の理論的最大値が2ビットになる.
\[\mathcal{X} = \{\text{a}, \text{b}, \text{c}, \text{d}\}, \quad P(a)=0.7, \; P(b)=0.1, \; P(c)=0.1, \; P(d)=0.1\] \[H(P) = -(0.7\log_2 0.7 + 3 \times 0.1 \log_2 0.1) \approx 1.36\] 偏った分布では,あるトークンに確率が偏るため,情報論的限界は小さくなる.
Mathematics is the language with which God has written the universe.