Definition:grammar-based compression
パーセプトロンとは、入力ベクトル $x \in \mathbb{R}^d$ に対して線形結合と閾値関数を適用することにより、二値分類を行う最も基本的な線形分類モデルである。すなわち、重みベクトル $w \in \mathbb{R}^d$ とバイアス $b \in \mathbb{R}$ に対して、出力 $\hat{y}$ は
\[\hat{y} = \text{sign}(w \cdot x + b)\]
によって与えられる。ここで $\text{sign}(\cdot)$ は符号関数であり、$\text{sign}(z) = +1$($z \ge 0$)、$\text{sign}(z) = -1$($z < 0$)と定義される。
パーセプトロンは、入力空間 $\mathbb{R}^d$ を超平面によって2つの領域に分割するモデルである。決定境界は
\[w \cdot x + b = 0\]
で定義され、この超平面によりデータは2クラスに分類される。なお、バイアス項 $b$ は拡張入力 $\tilde{x} = (x^\top, 1)^\top$、拡張重み $\tilde{w} = (w^\top, b)^\top$ を導入することで、$\hat{y} = \text{sign}(\tilde{w} \cdot \tilde{x})$ と簡潔に表記することもできる。
訓練データ $\mathcal{D} = \{(x_i, y_i)\}_{i=1}^n$($y_i \in \{-1, +1\}$)に対して、パーセプトロンは誤分類されたサンプル、すなわち $y_i(w \cdot x_i + b) \le 0$ を満たすサンプルに対してのみパラメータ更新を行う。
更新則は以下で与えられる:
\[w \leftarrow w + \eta \, y_i x_i\]
\[b \leftarrow b + \eta \, y_i\]
ここで $\eta > 0$ は学習率である。学習率 $\eta$ はスケールの自由度があるため、理論解析では $\eta = 1$ と置くことが多い。更新はデータを繰り返し走査しながら(エポックごとに)適用され、誤分類がなくなるか、収束条件を満たした時点で終了する。
データが線形分離可能である場合、すなわちある $(w^*, b^*)$ が存在して
\[y_i (w^* \cdot x_i + b^*) > 0 \quad \forall i\]
を満たすとき、パーセプトロンアルゴリズムは有限回の更新で収束することが知られている(Rosenblatt, 1957; Block, 1962; Novikoff, 1962)。
より厳密には、マージン $\gamma$ を
\[\gamma = \min_i \frac{y_i (w^* \cdot x_i + b^*)}{\|w^*\|}\]
と定義するとき、誤更新回数は
\[T \le \left(\frac{R}{\gamma}\right)^2\]
で上界付けられる($R = \max_i \|x_i\|$)。この上界はデータ次元数 $d$ に依存しないことが重要な特徴であり、高次元でも有効に機能することを示している。一方、データが線形分離不可能な場合、アルゴリズムは収束せず無限ループに陥る可能性がある。
パーセプトロンは、誤分類点に対して重みを更新することにより、決定境界を逐次的に移動させるアルゴリズムである。この過程は、入力空間における分類誤差の修正として幾何学的に解釈できる。具体的には、更新 $w \leftarrow w + y_i x_i$ は、重みベクトルを誤分類点 $x_i$ の方向へ近づける操作に対応しており、決定境界を誤分類点側に回転させる効果を持つ。
また、損失関数の観点では、パーセプトロンは以下のヒンジ損失の特殊ケース(マージン0のヒンジ損失)を暗黙的に最小化しているとみなせる:
\[L(w, b) = \sum_{i:\,\text{誤分類}} \max(0, -y_i (w \cdot x_i + b))\]
この損失は確率的勾配降下法(SGD)の観点からも理解でき、パーセプトロン更新則はこの損失に対する確率的勾配降下の1ステップと一致する。なお、サポートベクタマシン(SVM)はマージンを明示的に最大化する点でパーセプトロンの自然な拡張と位置づけられる。
パーセプトロンは線形分離可能な問題に対してのみ収束が保証されるため、非線形分離問題(例:XOR問題)を解くことができない。この制約は、単一の線形境界しか表現できないことに起因する。また、線形分離可能な場合においても、得られる解は一意ではなく、データの提示順序に依存する点も限界の一つである(この問題はSVMのマージン最大化によって解消される)。
この問題を克服するために、以下のような拡張が提案されている:
パーセプトロンの起源は、1943年にWarren McCullochとWalter Pittsが提案した神経細胞の数理モデル(McCulloch–Pittsニューロン)に遡る。同モデルは閾値論理素子として定式化されており、論理演算を実行できることが示されたが、学習機構は持たなかった。
1949年にはDonald Hebbが『The Organization of Behavior』においてヘブ則(Hebbian learning)を提唱し、神経細胞間の結合強度がその同時活動によって強化されるという学習原理を与えた。これはパーセプトロンの重み更新則の概念的先駆となった。
1957年、Frank RosenblattはCornell航空研究所において、学習可能な二値分類器としてパーセプトロンを提案し、翌1958年に論文 "The Perceptron: A Probabilistic Model for Information Storage and Organization in the Brain"(Psychological Review)として発表した。Rosenblattはパーセプトロンを当初ハードウェアとして実装し(Mark I Perceptron)、画像認識実験を行った。このモデルは当時のメディアや軍(米海軍が資金提供)から大きな注目を集め、「機械が思考する」という期待を広く喚起した。
1960年代には収束定理の理論的整備が進み、Block(1962)およびNovikoff(1962)によってパーセプトロン収束定理の厳密な証明が与えられた。またWidrow & Hoff(1960)はADALINE(Adaptive Linear Neuron)を提案し、最小二乗誤差を最小化するデルタ則(最急降下法)を導入した。これはパーセプトロンの更新則と類似しつつも損失関数の最小化として定式化される点で異なり、後の最適化理論への橋渡しとなった。
しかし1969年、Marvin MinskyとSeymour PapertはMITにおける研究をもとに著書『Perceptrons』を発表し、単層パーセプトロンがXOR問題をはじめとする線形分離不可能な問題を解けないことを厳密に証明した。さらに多層構造の訓練可能性についても懐疑的な見解を示したこと(ただしこれは後に誤りと判明)などが重なり、ニューラルネットワーク研究全体への資金供給が激減し、いわゆる「第一次AIの冬(AI winter)」を招く一因となった。
1980年代に入ると、誤差逆伝播法(バックプロパゲーション)がRumelhart, Hinton & Williams(1986)によって多層ネットワークへの適用可能な形で再定式化・普及され、多層パーセプトロン(MLP)の訓練が現実的となった。同時期にHopfieldネットワーク(1982)やBoltzmannマシン(1985)など確率的モデルも提案され、ニューラルネットワーク研究は第二次ブームを迎えた。
1990年代にはVapnik らによるサポートベクタマシン(SVM)が台頭し、マージン最大化という統計的学習理論に基づく枠組みがパーセプトロンの自然な拡張として理論的に整備された。またFreund & Schapire(1999)による平均化パーセプトロンは汎化性能の向上をもたらし、構造予測などへの応用が広がった。
2000年代以降、GPUの普及と大規模データの利用可能化により深層学習が急速に発展し、パーセプトロンは現代の深層ニューラルネットワークを構成する最小単位として再評価されている。
Input: Training data $\mathcal{D} = \{(x, y)\}$, Learning Rate $\eta$, Initial weights $w$, Bias $b$
for each epoch do
$\text{errors} = 0$
for each $(x, y) \in \mathcal{D}$ do
$\hat{y} = \text{Activation}(w \cdot x + b)$; // Forward pass
$e = y - \hat{y}$; // Error computation
if $e \neq 0$ then
$w = w + \eta \cdot e \cdot x$; // Update weights
$b = b + \eta \cdot e$; // Update bias
$\text{errors} = \text{errors} + 1$
end for
if $\text{errors} = 0$ then break; // Convergence check
end for
Output: Trained parameters $(w, b)$
Mathematics is the language with which God has written the universe.