Yang, S., Kassner, N., Gribovskaya, E., Riedel, S., & Geva, M.(2024). Do Large Language Models Perform Latent Multi-Hop Reasoning without Exploiting Shortcuts? arXiv. https://arxiv.org/abs/2411.16679
大規模言語モデル[LLM]が, ショートカットを利用せずに潜在的なマルチホップ推論を実際に実行するかどうかを評価している.この研究は, LLMが単一のサブステップの答えを知っていても, しばしばマルチホップ推論を正確に実行できないという以前の研究の指摘を背景としている.
この目的のために, SOCRATES[ShOrtCut-fRee lATent rEaSoning]データセットが導入された.SOCRATESデータセットは, 7,232件のテストケースと17種類の関係構成タイプから構成されており, これらは4種類のブリッジエンティティによって接続されている.例えば, 「Scarlett Johansson」がe1, 「1984」がe2, 「United States」がe3である場合, 「person-birthyear」がr1, 「year-eventcountry」がr2の関係で結合され, 全体として「person-birthyear-eventcountry」というマルチホップの事実が構成される.ここでe2は2つの事実を繋ぐブリッジエンティティであり, e1はヘッドエンティティ, e3はアンサーエンティティである.
このデータセットの作成において特に重視されたのは, LLMが単純なショートカットを悪用する可能性を最小限に抑えることであった.そのために, ヘッドエンティティ[e1]とアンサーエンティティ[e3]の別名が事前学習コーパス内の同じドキュメントに共起するテストケースは除外された.これは, トレーニングシーケンスがドキュメントの部分文字列であることが多いため, シーケンス共起よりも厳格な条件を課すものである.また, モデルの事前学習データのドキュメントレベルの情報がほとんど入手できないことから, Dolma v1.5, v1.7, Tulu v2, OSCAR, C4, OpenWebTextといった6つの異なる訓練コーパスがプロキシとして使用され, 合計約48億件の一意なドキュメントにおける共起が確認された.さらに, ブリッジエンティティ[e2]がヘッドエンティティ[e1]の表面形式から容易に推論できるケース[例:大学名からその所在国が簡単に分かる場合]や, GPT-3.5 turboやClaude 3 Haikuがヘッドエンティティ名のみからブリッジエンティティを正しく予測するケースもデータセットから除外された.当初, 各事実ペアに対して16種類のテンプレートを用いて約10万件のテストケースが生成されたが, これらの厳格なフィルタリングプロセスを経て, 最終的に約3.2万件のテストケースが残された.ブリッジエンティティが「年」であるタイプのクエリが他のタイプに比べて多いため, これらのテストケースはダウンサンプリングされた.
SOCRATESデータセットを用いた評価では, LLMはショートカットを悪用しない形で潜在的なマルチホップ推論能力を示すことが判明した.しかし, その能力はクエリのタイプによって大きく異なり, ブリッジエンティティとして国を想起する必要があるクエリでは, 最高のモデルで80%の潜在的構成可能性を達成する一方, 年を想起する必要があるクエリではわずか5%にまで低下した.これは, 「国」タイプのブリッジエンティティを持つクエリの場合, より明確なブリッジエンティティ表現がモデルによって構築されることと関連している可能性がある.評価には正確な一致[EM]メトリックが使用され, これは生成された回答候補のいずれかが単語の境界を尊重して生成に含まれる場合に1, そうでない場合に0と判断される.この研究では, LLMの生成において, モデルが多肢選択問題の選択肢を構成するようにクエリを完了するなど, 潜在的なマルチホップ推論の正確な評価には使用できないケースも観察された.ショートカットフリーデータと評価で測定された潜在的構成可能性は, ショートカットに依存したデータと評価で測定された場合よりも一貫して低く, これは提案された要件を見落とすと実際の潜在的構成可能性が過大評価される可能性を示唆している.
