summary:
例えば,「人工知能は様々な分野で応用されている.医療や製造業,自動運転などが代表例である.」という文章を2つのチャンクに分割すると,
「人工知能は様々な分野で応用されている.」
「医療や製造業,自動運転などが代表例である.」
となる.このようにチャンクは,意味のまとまり単位として文や段落単位で設定される.RAGなどの処理では,チャンクごとに埋め込み[embedding]を生成し,検索時に類似度の高いチャンクが抽出される.抽出されたチャンクのテキストはLLMに入力する前にトークン化されるが,チャンクという単位自体はLLM内部では用いられない.チャンクはあくまで文書管理および検索の単位である.
一方,トークンとは,モデルが自然言語を処理するために分割した最小単位である.上記のチャンク「人工知能は様々な分野で応用されている.」は,モデルによって例えば以下のようにトークンに分割されることがある.
「人工」「知能」「は」「様々」「な」「分野」「で」「応用」「されて」「いる」「.」
トークンは単語やサブワードの断片であり,モデル内部で埋め込みベクトルに変換され,計算処理に用いられる.したがって,チャンクは意味のまとまりであり,トークンは計算の最小単位である点で異なる.
Mathematics is the language with which God has written the universe.