cs.SE cs.AI cs.CL

コードLLMにリポジトリ知識を「アダプタ」で注入 ― 進化し続けるコードに追従する「Code2LoRA」

cs.SE Liliana Hotsko, Yinxi Li, Yuntian Deng ほか(計4名) 2026年6月

コードLLMは、import・API・プロジェクト規約を解決するためにリポジトリ全体の文脈を必要とする。Code2LoRAは、ハイパーネットワークでリポジトリ専用のLoRAアダプタを生成し、推論時のトークン増加ゼロで知識を注入する。スナップショット用の Static と、コード差分ごとに更新される Evo の2モードを持つ。

論文の概要(独自要約)

  • 分野(arXiv分類)cs.SE(+2)
  • 著者Liliana Hotsko, Yinxi Li, Yuntian Deng ほか(計4名)
  • 投稿日2026-06-04
  • arXiv ID2606.06492v1

要点

  • コードLLMにリポジトリ知識をLoRAアダプタで注入(推論時のトークン増加ゼロ)
  • ハイパーネットワークがリポジトリ専用アダプタを生成
  • Static(スナップショット)と Evo(差分ごとGRUで更新)の2モード
  • 進化トラックで単一共有LoRAより+5.2ポイント、StaticはアダプタのSOTA上限に匹敵
  • 604リポジトリのベンチRepoPeftBenchを構築・公開

本研究(Code2LoRA)は、コードを扱う大規模言語モデル(LLM)に、リポジトリ固有の知識を効率よく注入する方法を提案する。

コードLLMは、import・API・プロジェクトの規約を正しく解決するために、リポジトリ全体(repository-level)の文脈を必要とする。既存手法は、この知識を(1)RAGや依存解析で取得した「長い入力」として注入するか、(2)リポジトリ別の微調整やLoRAで与えるが、いずれもリポジトリ規模ではコストが高く、進化し続けるコードベースに脆弱だった。

著者らが導入するCode2LoRAは、リポジトリ固有のLoRAアダプタを生成するハイパーネットワーク枠組みで、推論時のトークンオーバーヘッドをゼロにしてリポジトリ知識を注入する。2つの利用シナリオを持つ。Code2LoRA-Staticは単一のリポジトリ・スナップショットをアダプタに変換し、安定したコードベースの理解に適する。Code2LoRA-Evoは、コード差分(diff)ごとに更新されるGRU隠れ状態に裏打ちされたアダプタを維持し、活発に開発が進む進化型コードベースに適する。

評価のため、著者らは604のPythonリポジトリから成るベンチマークRepoPeftBenchを構築した(静的トラック=4万件の学習・1.2万件のテスト、進化トラック=コミット由来の21.5万件学習・8.7万件テスト)。静的トラックでCode2LoRA-Staticはクロスリポジトリ63.8%・同一リポジトリ66.2%の完全一致を達成し、per-repository LoRAの上限に匹敵した。進化トラックでCode2LoRA-Evoはクロスリポジトリ60.3%(単一の共有LoRAに対し+5.2ポイント)を達成した。

なぜ重要か

コードLLM・開発支援AIの「リポジトリ適応」を効率化する事例。RAGに依存しないコード理解、進化するコードベースへの追従、パラメータ効率的微調整(PEFT)の動向を追う読者の手がかりになる。

よくある質問(FAQ)

LoRA/アダプタとは?
大規模モデル全体を再学習せず、小さな追加パラメータ(アダプタ)だけを学習して挙動を調整する効率的な手法です。Code2LoRAはこれをリポジトリごとに自動生成します。
なぜ「推論時トークン増加ゼロ」が重要?
RAG等は知識を長い入力として毎回与えるため遅く高コストです。知識をアダプタに焼き込めば、入力を増やさずにリポジトリ知識を使えます。

出典(一次情報)

出典:arXiv(記述メタデータは CC0 パブリックドメイン)。要約は当サイト独自。原文・PDFは arXiv をご確認ください。

#AI#arXiv#研究論文#コードLLM#LoRA#開発支援AI
免責: 本サイトは各公式データソースをもとに独自に要約・分類したものです。最新・正確な情報は必ず公式ソースをご確認ください。金融・医療・法務・セキュリティに関する内容は情報整理であり、助言ではありません。本サイトは米国政府の公式サイトではありません。