推論LLMの「どの思考が効いたか」に報酬を配り直す ― 連鎖思考の報酬再配分「RREDCoT」
推論モデルのRL微調整(GRPO等)は、最終答えを検証した後にしか報酬を与えられない「遅延報酬」問題で、モンテカルロ的=高分散になりやすい。RREDCoTは、連鎖思考(CoT)の中で正解に効いたセグメントに報酬を再配分(クレジット割当)する。追加生成なしに、モデル自身で最適な報酬再配分を近似するのが特徴。LSTM考案者Hochreiterら(JKU)。
論文の概要(独自要約)
- 分野(arXiv分類)cs.LG(+1)
- 著者Mykyta Ielanskyi, Kajetan Schweighofer, Lukas Aichberger ほか(計4名)
- 投稿日2026-06-04
- arXiv ID2606.06475v1
要点
- 推論モデルのRL(GRPO系)は最終答え検証後にしか報酬を与えられない「遅延報酬」=高分散
- 解決策=連鎖思考(CoT)の重要セグメントへ報酬を再配分するクレジット割当
- モンテカルロ標本化は計算負荷大で長文脈・高粒度に不向き、という課題
- RREDCoTは追加生成なしにモデル自身で最適な報酬再配分を近似
- MC法・各種帰属法と比較し、CoT分割や状態価値推定も分析(JKU・Hochreiterら)
本研究(RREDCoT)は、推論する大規模言語モデル(LLM)を強化学習(RL)で鍛える際の「どの思考ステップが効いたか」を見極めて報酬を配り直す手法を提案する。
近年の推論モデルの進歩は、RL微調整によって駆動されてきた。多くはGRPO(Group Relative Policy Optimization)アルゴリズムやその改良を用いて、連鎖思考(Chain-of-Thought, CoT)のトレースを生成するようモデルを誘導する。問題は、最終的な答えはCoTトレースが完了して初めて検証でき、報酬もそのとき割り当てられる点だ——これは「遅延報酬(delayed reward)」問題である。GRPOやその改良は、標準的なRLでいうモンテカルロ法に相当し、高分散に悩まされることが知られている。
この問題への解決策の一つが、クレジット割当(credit assignment)による報酬の再配分である。すなわち、望ましい解にたどり着くうえで重要なCoTトレースのセグメントを、より高い報酬を割り当てて強調する。モンテカルロ標本化は中間状態価値の不偏推定を与えうるが、その計算負荷の大きさから、長い文脈で高い粒度の学習時クレジット割当には不向きだ。
著者らが導入するRREDCoT(Reward REDistribution for Chain of Thoughts)は、追加の生成を行うことなく、モデル自身を用いて最適な報酬再配分を近似する。著者らは、MC標本化やいくつかの帰属(attribution)法と比較してその利点を検証し、さらに再配分の構成に関わる側面——CoTトレースのセグメント分割や状態価値推定など——も分析している。なお著者にはLSTMの考案者として知られるSepp Hochreiterら(JKU Linz)が名を連ねる。
なぜ重要か
推論モデル(長い思考連鎖を使うLLM)のRL学習・クレジット割当・学習効率の研究動向を示す。GRPOの高分散という実課題への対処は、推論モデルの学習手法の進化を追う読者の手がかりになる。
よくある質問(FAQ)
「クレジット割当」とは?
なぜ重要なのですか?
出典(一次情報)
出典:arXiv(記述メタデータは CC0 パブリックドメイン)。要約は当サイト独自。原文・PDFは arXiv をご確認ください。
- arXiv 概要ページ(原文・公式)
- PDF(arXiv)
- arXiv ID: 2606.06475