チャンク

summary:

チャンクとは,文書を意味的・構造的に適切な単位で分割したテキストのかたまりである.

例えば,「人工知能は様々な分野で応用されている.医療や製造業,自動運転などが代表例である.」という文章を2つのチャンクに分割すると,

「人工知能は様々な分野で応用されている.」

「医療や製造業,自動運転などが代表例である.」

となる.このようにチャンクは,意味のまとまり単位として文や段落単位で設定される.RAGなどの処理では,チャンクごとに埋め込み[embedding]を生成し,検索時に類似度の高いチャンクが抽出される.抽出されたチャンクのテキストはLLMに入力する前にトークン化されるが,チャンクという単位自体はLLM内部では用いられない.チャンクはあくまで文書管理および検索の単位である.

一方,トークンとは,モデルが自然言語を処理するために分割した最小単位である.上記のチャンク「人工知能は様々な分野で応用されている.」は,モデルによって例えば以下のようにトークンに分割されることがある.

「人工」「知能」「は」「様々」「な」「分野」「で」「応用」「されて」「いる」「.」

トークンは単語やサブワードの断片であり,モデル内部で埋め込みベクトルに変換され,計算処理に用いられる.したがって,チャンクは意味のまとまりであり,トークンは計算の最小単位である点で異なる.

Mathematics is the language with which God has written the universe.





















チャンク DIMM プラガブルトランシーバ コヒーレント光モジュール モジュラ型トランスポンダ 光トランスポンダ