AIが定理を「設計図」から証明する ― Lean 4の形式定理証明フレームワーク「Goedel-Architect」
Lean 4の形式定理証明で、定義・補題の依存グラフ「ブループリント(設計図)」を生成・改良するエージェント枠組み。各補題ノードをツール付きLean proverで並列に閉じ、失敗が設計図の改良を駆動。再帰的な補題分解と異なり行き詰まりループを避ける。オープンモデル基盤でMiniF2F 99.2%、PutnamBench 75.6%(自然言語証明併用で88.8%)とSOTA級。
論文の概要(独自要約)
- 分野(arXiv分類)cs.AI
- 著者Jui-Hui Chung, Ziyang Cai, Zihao Li ほか(計17名)
- 投稿日2026-06-04
- arXiv ID2606.06468v1
要点
- Lean 4の形式定理証明を「設計図(ブループリント)の生成・改良」で進めるエージェント枠組み
- 定義・補題の依存グラフを作り、各補題ノードを並列に証明、失敗が設計図を改良
- 再帰的補題分解と異なり行き詰まりループを回避
- オープンモデル基盤でMiniF2F 99.2%・PutnamBench 75.6%(自然言語証明併用で88.8%)
- オープンソースのパイプラインとして最先端・最大500分の1の低コスト
本研究(Goedel-Architect)は、AIが数学の定理を「設計図」を立ててから形式的に証明する枠組みを提案する。
Goedel-Architectは、証明支援系 Lean 4 での形式定理証明を、「ブループリント(blueprint=設計図)の生成と改良」を中心に据えたエージェント枠組みである。ブループリントとは、主定理に積み上がっていく定義と補題(lemma)の依存グラフを指す。
手順はこうだ。まずGoedel-Architectは、形式的に記述された定義・補題と、宣言された依存関係から成るブループリントを生成する(このブループリントは任意で自然言語の証明にガイドされうる)。次に、ツールを備えたLean proverコンポーネントが、関連する依存関係を使って各々の未解決の補題ノードを並列に閉じていく。失敗した補題は、今度は全体のブループリントの改良を駆動する。この戦略は、再帰的な補題分解を用い、行き詰まりの戦略に非効率にループしがちな他の主流アプローチと対照的である。
オープンウェイトのDeepSeek-V4-Flash(284B-A13B)をバックボーンに、Goedel-ArchitectはMiniF2F-testで99.2%、PutnamBenchで75.6%のpass@1を達成した。難問では初期ブループリントに自然言語証明を与えることで、MiniF2F-testの残り2問も閉じて100%に到達、PutnamBenchを88.8%(597/672)へ引き上げ、IMO 2025で4/6、Putnam 2025で11/12、USAMO 2026で3/6を解いた。これは、同等のオープンソース・パイプラインに比べ最大500分の1の価格で、オープンソースとして最先端の性能だとする。
なぜ重要か
AIによる「形式数学・自動定理証明」の急速な進展を示す事例。AIの推論能力、数学・ソフトウェア検証への応用、オープンソースモデルの実力を追う読者の手がかりになる。
よくある質問(FAQ)
形式定理証明とは?
「ブループリント」方式の利点は?
出典(一次情報)
出典:arXiv(記述メタデータは CC0 パブリックドメイン)。要約は当サイト独自。原文・PDFは arXiv をご確認ください。
- arXiv 概要ページ(原文・公式)
- PDF(arXiv)
- arXiv ID: 2606.06468