長文脈LLMを速くする「一度だけ索引する」スパースAttention(CLSA)
長文脈推論は復号(デコード)効率がボトルネックで、特に長い思考連鎖を生成する推論モデルで顕著。既存のスパースAttentionは効率と品質のトレードオフを抱える。CLSAは、KVキャッシュを層間共有するYOCO上で「ルーティング索引」も層間共有し、top-k選択を一度だけ計算して再利用。128K文脈で復号7.6倍・スループット17.1倍を達成。
論文の概要(独自要約)
- 分野(arXiv分類)cs.CL(+2)
- 著者Yutao Sun, Yanqi Zhang, Li Dong ほか(計5名)
- 投稿日2026-06-04
- arXiv ID2606.06467v1
要点
- 長文脈LLMの復号効率ボトルネック(特に推論モデルの長い思考連鎖)に対処
- KV共有(YOCO)上で「ルーティング索引」も層間共有するスパースAttention(CLSA)
- 1つのindexerがtop-k選択を一度だけ計算し各層で再利用=選択性を保ちつつ負荷を償却
- 事前充填・KVキャッシュ・長文脈復号の主要ボトルネックを同時改善
- 128K文脈で復号7.6倍・全体スループット17.1倍
本研究(CLSA)は、長い文脈を扱うLLMの推論を速くする新しいAttention(注意機構)を提案する。
現代のLLMの長文脈推論は、復号(デコード)効率にますます制約される。特に、長い中間的な思考連鎖(chain of thought)を生成する推論重視の設定で顕著だ。既存のスパースAttention手法は、実用上「効率と品質のトレードオフ」に直面しがちだった。構造的なブロックスパース手法は強い高速化をもたらすが目立つ品質低下を伴い、トークンスパース手法はより正確だが、全キャッシュに対するtop-kルーティングが高コストなため、エンドツーエンドの速度向上は限定的だった。
著者らが提案するcross-layer sparse attention(CLSA)は、YOCOのようなKV共有アーキテクチャの上に構築される。中心となる発想は、層をまたいでKVキャッシュを共有するだけでなく、「ルーティング索引(routing index)」も共有することだ。1つのindexerがトークン単位のtop-k選択を一度だけ計算し、その結果の索引を各層で再利用する。これにより、トークンスパースAttentionの細かい選択性を保ちながら、ルーティングのオーバーヘッドを償却する。結果として得られるアーキテクチャは、事前充填(pre-filling)・KVキャッシュ保存・長文脈の復号という主要な推論ボトルネックを同時に改善する。
短文脈・長文脈の各ベンチマークでの実験から、CLSAは正確かつ効率的で、128K文脈で最大7.6倍の復号高速化と17.1倍の全体スループット向上を達成した。これは、モデルの品質と推論効率を同時に前進させる、長文脈LLMのより完全なアーキテクチャ的解決策を示すという。
なぜ重要か
長文脈・推論モデルの「推論コスト削減」に直結する研究。KVキャッシュ最適化・スパースAttention・LLM推論効率を追う読者にとって、モデル品質と速度を両立する設計の方向性を読む手がかりになる。
よくある質問(FAQ)
スパースAttentionとは?
なぜ推論モデルで効くのですか?
出典(一次情報)
出典:arXiv(記述メタデータは CC0 パブリックドメイン)。要約は当サイト独自。原文・PDFは arXiv をご確認ください。
- arXiv 概要ページ(原文・公式)
- PDF(arXiv)
- arXiv ID: 2606.06467