cs.LG cs.AI

推論LLMの「どの思考が効いたか」に報酬を配り直す ― 連鎖思考の報酬再配分「RREDCoT」

cs.LG ・Mykyta Ielanskyi, Kajetan Schweighofer, Lukas Aichberger ほか（計4名）・2026年6月

推論モデルのRL微調整(GRPO等)は、最終答えを検証した後にしか報酬を与えられない「遅延報酬」問題で、モンテカルロ的＝高分散になりやすい。RREDCoTは、連鎖思考(CoT)の中で正解に効いたセグメントに報酬を再配分(クレジット割当)する。追加生成なしに、モデル自身で最適な報酬再配分を近似するのが特徴。LSTM考案者Hochreiterら(JKU)。

論文の概要（独自要約）

分野（arXiv分類）cs.LG（+1）
著者Mykyta Ielanskyi, Kajetan Schweighofer, Lukas Aichberger ほか（計4名）
投稿日2026-06-04
arXiv ID2606.06475v1

要点

推論モデルのRL(GRPO系)は最終答え検証後にしか報酬を与えられない「遅延報酬」＝高分散
解決策＝連鎖思考(CoT)の重要セグメントへ報酬を再配分するクレジット割当
モンテカルロ標本化は計算負荷大で長文脈・高粒度に不向き、という課題
RREDCoTは追加生成なしにモデル自身で最適な報酬再配分を近似
MC法・各種帰属法と比較し、CoT分割や状態価値推定も分析（JKU・Hochreiterら）

本研究(RREDCoT)は、推論する大規模言語モデル(LLM)を強化学習(RL)で鍛える際の「どの思考ステップが効いたか」を見極めて報酬を配り直す手法を提案する。

近年の推論モデルの進歩は、RL微調整によって駆動されてきた。多くはGRPO(Group Relative Policy Optimization)アルゴリズムやその改良を用いて、連鎖思考(Chain-of-Thought, CoT)のトレースを生成するようモデルを誘導する。問題は、最終的な答えはCoTトレースが完了して初めて検証でき、報酬もそのとき割り当てられる点だ——これは「遅延報酬(delayed reward)」問題である。GRPOやその改良は、標準的なRLでいうモンテカルロ法に相当し、高分散に悩まされることが知られている。

この問題への解決策の一つが、クレジット割当(credit assignment)による報酬の再配分である。すなわち、望ましい解にたどり着くうえで重要なCoTトレースのセグメントを、より高い報酬を割り当てて強調する。モンテカルロ標本化は中間状態価値の不偏推定を与えうるが、その計算負荷の大きさから、長い文脈で高い粒度の学習時クレジット割当には不向きだ。

著者らが導入するRREDCoT(Reward REDistribution for Chain of Thoughts)は、追加の生成を行うことなく、モデル自身を用いて最適な報酬再配分を近似する。著者らは、MC標本化やいくつかの帰属(attribution)法と比較してその利点を検証し、さらに再配分の構成に関わる側面——CoTトレースのセグメント分割や状態価値推定など——も分析している。なお著者にはLSTMの考案者として知られるSepp Hochreiterら(JKU Linz)が名を連ねる。

なぜ重要か

推論モデル（長い思考連鎖を使うLLM）のRL学習・クレジット割当・学習効率の研究動向を示す。GRPOの高分散という実課題への対処は、推論モデルの学習手法の進化を追う読者の手がかりになる。

よくある質問（FAQ）

「クレジット割当」とは？

良い結果に対して、どのステップ（思考）がどれだけ貢献したかを見積もり、報酬を割り振ることです。最終結果だけで評価するより学習が安定・効率化します。

なぜ重要なのですか？

o1/R1系のような「考えてから答える」推論モデルのRL学習は高分散になりがちです。思考の途中に報酬を配り直せれば、学習の効率と安定性の改善につながります。

出典（一次情報）

出典：arXiv（記述メタデータは CC0 パブリックドメイン）。要約は当サイト独自。原文・PDFは arXiv をご確認ください。

#AI#arXiv#研究論文#LLM#強化学習#推論モデル

← AI研究論文ウォッチへ