SentencePiece

summary:

SentencePiece[/ˈsɛntəns piːs/]とは,サブワードトークン化[Subword Tokenization]を行うためのオープンソースライブラリおよびアルゴリズムである.Googleによって2018年に開発され,自然言語処理[NLP]におけるテキストの前処理の一部として広く用いられている.SentencePieceの目的は,語彙の数を制御可能な形で削減することにより,言語モデルにおける処理を効率的に行い,未知語[Out-Of-Vocabulary, OOV]の問題に柔軟に対応できるようにすることである.

最大の特徴は,言語非依存[language-agnostic]であり,Unicode文字に対応したエンドツーエンドのトークン化システムを提供する点にある.従来の多くのトークナイザーが単語分割や正規化などの言語固有の前処理を必要としたのに対し,SentencePieceは生のテキストを直接処理できるため,特に多言語モデルの構築に適している.

SentencePieceは,特にニューラルネットワークを使った機械翻訳における「未知語の問題」に対処するために生まれた.従来のトークン化手法では,語彙の数が固定されており,モデルは未学習の単語に対して無力であった.SentencePieceは,サブワード単位での分割により,語彙のサイズを固定しつつ,新たな単語に対しても適切に対応できるようにした.

具体的には,SentencePieceは2016年に発表された論文「SentencePiece: A Simple and Language Independent Subword Tokenizer and Detokenizer for Neural Text Processing」において提案された.この研究は,特に多言語に対応した機械翻訳の精度向上を目的としており,サブワードトークン化を使うことによって言語間の共通性を見出すことを目指していた.SentencePieceは主に以下の2つのアルゴリズムを実装している：

Byte Pair Encoding [BPE]: 頻度の高い文字の組み合わせを反復的にマージして新しいサブワードを生成する手法.言語モデルの訓練時に語彙のサイズが大きすぎて学習が困難な場合に有効
Unigram Language Model: 言語モデルの尤度最大化に基づいて最適なサブワード分割を学習する手法.BPEに比べて,より柔軟にトークンを決定できるため,未知語の分割が必要な場合に適している

また,SentencePieceはテキストを直接Unicode文字ではなく,バイトレベルのエンコーディングとして扱うByte Fallback機能も提供しており,これにより完全に未知の文字に対しても堅牢なトークン化が可能になっている.

SentencePieceはC++で実装されており,Python,Java,Go,C#などの主要プログラミング言語へのバインディングが提供されている.BERT,GPT,T5,XLNetなどの最新の大規模言語モデルのトレーニングパイプラインにおいて,前処理コンポーネントとして広く採用されている.

特に,多言語モデルや低リソース言語の処理においてSentencePieceは重要な役割を果たしており,Google TranslateやGoogle Assistantなどの実用システムでも使用されている.TensorFlow,PyTorch,Hugging Faceなどの主要なディープラーニングフレームワークやライブラリとの統合も容易であり,現代のNLPシステム開発における標準的なトークン化ツールとして確立されている.

利用例

!pip install sentencepiece

# 日本語テキストを定義
raw_text = (
    "今日は天気が良いので、散歩に出かけました。"
    "途中で猫に出会いました。"
    "猫はとても可愛かったです。"
    "公園では子供たちが遊んでいました。"
    "春の陽気は心地よいです。"
)

# 一時ファイルに保存
with open("temp_input.txt", "w", encoding="utf-8") as f:
    f.write(raw_text)

# SentencePiece モデルの訓練
spm.SentencePieceTrainer.train(
    input='temp_input.txt',        # ファイル名を渡す必要がある
    model_prefix='ja_model',       # 出力ファイル名の接頭辞
    vocab_size=49,
    character_coverage=0.9995,
    model_type='unigram'
)

# モデルの読み込み
sp = spm.SentencePieceProcessor()
sp.load("ja_model.model")

# テキストをエンコード（文字列 -> トークンIDのリスト）
enc_text = sp.encode(raw_text, out_type=int)
print("エンコード結果（トークンID）:", enc_text)

# デコード（トークンID列 -> 元のテキスト）
dec_text = sp.decode(enc_text)
print("デコード結果:", dec_text)

# 文脈サイズ指定
context_size = 4
x = enc_text[:context_size]
y = enc_text[1:context_size+1]

print("x:", x)
print("y:", y)

# トークン列の学習用ペアの可視化
for i in range(1, context_size + 1):
    context = enc_text[:i]
    desired = enc_text[i]
    print(sp.decode(context), "---->", sp.decode([desired]))

実行結果は次のようになる.

エンコード結果（トークンID）: [31, 33, 36, 7, 35, 13, 15, 28, 6, 14, 3, 17, 26, 27, 11, 10, 18, 8, 9, 5, 4, 29, 22, 3, 12, 11, 23, 6, 8, 9, 5, 4, 12, 7, 20, 19, 21, 24, 25, 10, 32, 5, 3, 16, 4, 34, 43, 3, 7, 45, 42, 5, 38, 15, 48, 41, 3, 6, 8, 9, 5, 4, 47, 14, 37, 13, 7, 46, 44, 40, 6, 3, 16, 4]
デコード結果: 今日は天気が良いので、散歩に出かけました。途中で猫に出会いました。猫はとても可愛かったです。公園では子供たちが遊んでいました。春の陽気は心地よいです。
x: [31, 33, 36, 7]
y: [33, 36, 7, 35]
 ----> 今
今 ----> 日
今日 ----> は
今日は ----> 天

Mathematics is the language with which God has written the universe.

TDM tiktoken YARN 関係代数リレーション型理論