Yang, S., Gribovskaya, E., Kassner, N., Geva, M., & Riedel, S.(2024). Do Large Language Models Latently Perform Multi-Hop Reasoning? In Association for Computational Linguistics. https://aclanthology.org/2024.acl-long.550
大規模言語モデル[LLM]が潜在的にマルチホップ推論を実行するかどうかを調査した論文である.この研究は, TransformerベースのLLMが単純なプロンプトを完了するために事実情報をパラメーターに保存し, 検索する能力を示す一方で, シングルホップのサブステップの答えを知っていてもマルチホップ推論を正確に実行できないことが多いという課題に取り組んでいる.本研究は, 潜在的なマルチホップ推論の仕組みに関する積極的な調査が不足している現状を鑑み, この分野を深掘りすることを目指している.
本研究は, 多様な事実構成タイプを持つ潜在的な2ホップ推論を研究するため, Wikidataに基づいて構築されたTWOHOP-FACTデータセットを導入した.このデータセットは, 52種類の事実構成タイプからなる45,595の2ホッププロンプトで構成されており, マルチホップ推論の内部メカニズムを探ることを目的とした, ワンホップおよびツーホップの事実プロンプトのペアを含んでいる.例えば, 「ゲーム『アサシン クリード レディ リバティ』の開発者が上場している証券取引所の名前は」といった2ホッププロンプトや, 「ユービーアイソフトが上場している証券取引所の名前は」といった1ホッププロンプトがその例である.データセット内の事実構成タイプの分布は比較的均等で, 「小説の著者の出生都市」が全体の7.41%を占める最大の割合となっている.
LLaMA-2の7B, 13B, および70Bモデルを用いて実施された実験から, いくつかの主要な発見があった.第一に, 2ホッププロンプトに対する幅広い事実構成タイプにおいて, マルチホップ推論の第一ホップに対する実質的な証拠が見られた.プロンプトをブリッジエンティティを間接的に言及するように変更した場合, 約70%のケースで, Transformerの後期の層がブリッジエンティティの想起の増加を示した.具体的には, LLaMA-2 7B, 13B, 70Bの各モデルサイズにおいて, 52の事実構成タイプのうち, それぞれ18/25/34タイプでエンティティ置換に対する最大相対頻度が0.8を超え, 21/27/38タイプで関係置換に対する最大相対頻度が0.8を超えている.さらに, 11のタイプは, 全てのモデルサイズと置換タイプでこのような強力な第一ホップ推論の証拠を堅牢に示した.
しかし, 第二ホップおよび全体的な探索に対する証拠は弱いことが示されており, エンティティの想起率を増加させた場合でも, 60%のケースでしか改善は見られなかった.モデルの規模が大きくなるにつれて, Transformerの層における相対頻度は増加し, 最大相対頻度は7Bモデルで0.71, 13Bモデルで0.72, 70Bモデルで0.78に上昇している.これは, LLMの規模を拡大することで, 第一ホップの推論能力が向上することを示唆している.
CNSTSCOREを用いた推論プロセスの分析では, 完全なマルチホップ推論が必要とされる2ホッププロンプトでは, CoT[Chain-of-Thought]スタイルのプロンプトと比較してCNSTSCOREが有意に低い値を示した.一方で, ブリッジエンティティが何を指すかという情報が入力に与えられる場合[「青いケース」]は, モデルがワンホッププロンプトへの答えを内部で想起する必要があるため, CNSTSCOREの平均値が高くなった.これは, 記述的言及のアイデンティティに関する情報が入力プロンプトに存在することで, LLMがブリッジエンティティについて知っていることに参照するための接続を使用するのに役立ったことを示唆している.
技術的な詳細として, 実験はNanda and Bloom [2022]のコードベースを修正して実行され, 1-8基の40GB A100 GPUが使用された.全ての実験は24時間以内に完了し, LLaMA-2 7Bと13Bには完全精度, 70Bには半精度が使用された.モデルのウェイトはHuggingFace Transformersから取得され, WikidataのクエリにはGPT-4の助けを借りてSPARQLクエリが作成された.
