cs.LG cs.AI

推論LLMの「どの思考が効いたか」に報酬を配り直す ― 連鎖思考の報酬再配分「RREDCoT」

cs.LG Mykyta Ielanskyi, Kajetan Schweighofer, Lukas Aichberger ほか(計4名) 2026年6月

推論モデルのRL微調整(GRPO等)は、最終答えを検証した後にしか報酬を与えられない「遅延報酬」問題で、モンテカルロ的=高分散になりやすい。RREDCoTは、連鎖思考(CoT)の中で正解に効いたセグメントに報酬を再配分(クレジット割当)する。追加生成なしに、モデル自身で最適な報酬再配分を近似するのが特徴。LSTM考案者Hochreiterら(JKU)。

論文の概要(独自要約)

  • 分野(arXiv分類)cs.LG(+1)
  • 著者Mykyta Ielanskyi, Kajetan Schweighofer, Lukas Aichberger ほか(計4名)
  • 投稿日2026-06-04
  • arXiv ID2606.06475v1

要点

  • 推論モデルのRL(GRPO系)は最終答え検証後にしか報酬を与えられない「遅延報酬」=高分散
  • 解決策=連鎖思考(CoT)の重要セグメントへ報酬を再配分するクレジット割当
  • モンテカルロ標本化は計算負荷大で長文脈・高粒度に不向き、という課題
  • RREDCoTは追加生成なしにモデル自身で最適な報酬再配分を近似
  • MC法・各種帰属法と比較し、CoT分割や状態価値推定も分析(JKU・Hochreiterら)

本研究(RREDCoT)は、推論する大規模言語モデル(LLM)を強化学習(RL)で鍛える際の「どの思考ステップが効いたか」を見極めて報酬を配り直す手法を提案する。

近年の推論モデルの進歩は、RL微調整によって駆動されてきた。多くはGRPO(Group Relative Policy Optimization)アルゴリズムやその改良を用いて、連鎖思考(Chain-of-Thought, CoT)のトレースを生成するようモデルを誘導する。問題は、最終的な答えはCoTトレースが完了して初めて検証でき、報酬もそのとき割り当てられる点だ——これは「遅延報酬(delayed reward)」問題である。GRPOやその改良は、標準的なRLでいうモンテカルロ法に相当し、高分散に悩まされることが知られている。

この問題への解決策の一つが、クレジット割当(credit assignment)による報酬の再配分である。すなわち、望ましい解にたどり着くうえで重要なCoTトレースのセグメントを、より高い報酬を割り当てて強調する。モンテカルロ標本化は中間状態価値の不偏推定を与えうるが、その計算負荷の大きさから、長い文脈で高い粒度の学習時クレジット割当には不向きだ。

著者らが導入するRREDCoT(Reward REDistribution for Chain of Thoughts)は、追加の生成を行うことなく、モデル自身を用いて最適な報酬再配分を近似する。著者らは、MC標本化やいくつかの帰属(attribution)法と比較してその利点を検証し、さらに再配分の構成に関わる側面——CoTトレースのセグメント分割や状態価値推定など——も分析している。なお著者にはLSTMの考案者として知られるSepp Hochreiterら(JKU Linz)が名を連ねる。

なぜ重要か

推論モデル(長い思考連鎖を使うLLM)のRL学習・クレジット割当・学習効率の研究動向を示す。GRPOの高分散という実課題への対処は、推論モデルの学習手法の進化を追う読者の手がかりになる。

よくある質問(FAQ)

「クレジット割当」とは?
良い結果に対して、どのステップ(思考)がどれだけ貢献したかを見積もり、報酬を割り振ることです。最終結果だけで評価するより学習が安定・効率化します。
なぜ重要なのですか?
o1/R1系のような「考えてから答える」推論モデルのRL学習は高分散になりがちです。思考の途中に報酬を配り直せれば、学習の効率と安定性の改善につながります。

出典(一次情報)

出典:arXiv(記述メタデータは CC0 パブリックドメイン)。要約は当サイト独自。原文・PDFは arXiv をご確認ください。

#AI#arXiv#研究論文#LLM#強化学習#推論モデル
免責: 本サイトは各公式データソースをもとに独自に要約・分類したものです。最新・正確な情報は必ず公式ソースをご確認ください。金融・医療・法務・セキュリティに関する内容は情報整理であり、助言ではありません。本サイトは米国政府の公式サイトではありません。