---
arxiv_id: 2604.08570
title: "QuanBench+: LLM（大規模言語モデル）を用いた量子コード生成のための統合型マルチフレームワークベンチマーク"
authors:
  - Ali Slim
  - Haydar Hamieh
  - Jawad Kotaich
  - Yehya Ghosn
  - Mahdi Chehimi
  - Ammar Mohanna
  - Hasan Abed Al Kader Hammoud
  - Bernard Ghanem
difficulty: Intermediate
tags:
  - LLM
  - Benchmark
  - Reasoning
published_at: 2026-03-25
flecto_url: https://flecto.zer0ai.dev/ja/papers/2604.08570/
lang: ja
---

## Introduction

LLM（大規模言語モデル）は、HumanEvalのような従来のコード生成ベンチマークにおいて目覚ましい成果を上げていますが、 量子コード生成は独自の課題を提示します。 従来のプログラムが決定的な出力をもたらすのに対し、量子プログラムは確率的な測定統計をもたらします。量子ビットは重ね合わせの状態 \(|\psi\rangle = \alpha|0\rangle + \beta|1\rangle\) で存在し、正確な値ではなく、出力分布の観点から正しさが定義される必要があります。

いくつかの量子コードのベンチマークが存在します (Qiskit HumanEval, QHackBench, QCircuitBench, QuanBench)。しかし、ほとんどが 単一のフレームワーク内でのみ モデルを評価します。これにより、失敗が量子計算の理解不足によるものなのか、特定のAPIに慣れていないことが原因なのかを判断することができません。

マルチフレームワークのベンチマークは、 2つの異なる種類の失敗モード を明らかにするために不可欠です。(i) 量子計算の概念的な誤り—例えば、誤ったアルゴリズム構造や測定ロジックなど—と、(ii) フレームワーク固有のAPIエラー—例えば、存在しないメソッドの呼び出しや、パラメータの不適切な使用など—です。

## Methodology

Pass@k は、機能的な正しさを評価する指標です。モデルは k 個のコードサンプルを生成し、そのうち少なくとも1つが正しい出力を生成した場合に合格となります。Pass@1 は、単一回の試行での精度をテストし、Pass@5 は、モデルに5回の試行回数を与えます。

KL-Divergence Acceptance は、確率的な量子出力を取り扱います。量子測定は本質的に確率的であるため、正確な出力の一致は機能しません。代わりに、QuanBench+ は、参照分布とモデルの出力分布との間の KL ダイバージェンス \(D_{KL}(P_{\text{ref}} \| P)\) を計算します。ダイバージェンスが閾値 \(\tau = 0.05\) (ヌル分布の 0.997 分位数で調整) を下回る場合、出力は受け入れられます。

なぜ忠実度ではないのか？ 状態忠実度（state fidelity）は、完全な量子状態ベクトルへのアクセスを必要としますが、これは実際の量子ハードウェアでは利用できません。QuanBench+は、意図的に実際の量子デバイスでも機能する、測定に基づく正確性の基準を使用しています。

Qiskit、PennyLane、およびCirqの42個すべてのタスクは、標準化されたプロンプトと出力正規化によって整合性が保たれています。タスクには、Groverの探索アルゴリズム、Shorのアルゴリズム、量子フーリエ変換、VQEなどの古典的なアルゴリズム、ゲート分解の課題、および量子状態準備の問題が含まれます。各タスクは、決定的なシード制御を備えた、隔離されたサンドボックス環境で評価されます。

## Results

モデルが、実行の失敗によるエラーメッセージや、誤った回答に対するフィードバックを受け取ると、コードを最大5回まで修正することができます。この フィードバックループは、すべてのフレームワークにおいてパフォーマンスを大幅に向上させます。</strong

## Discussion

複数のフレームワークを用いた評価から、 あるフレームワークで高い性能を発揮しても、別のフレームワークでも必ずしも高い能力を発揮するとは限らない ことが明らかになりました。モデルは、量子コンピューティングの本質的な理解を深めるのではなく、フレームワーク固有のAPIパターンを記憶しているように見えます。Qiskit（最も人気があり、おそらくトレーニングデータで最も多く使用されている）とPennyLane（それほど一般的ではない）との間の大きな性能差は、この解釈を裏付けています。フィードバックに基づく改善は非常に効果的であり、最も優れたモデルはQiskitで83.3%の精度を達成しました（59.5%から）。これは、LLMがリアルタイムでエラー信号から学習できる可能性を示唆しています。

## Conclusion

QuanBench+ は、 初のマルチフレームワーク量子コード生成ベンチマーク であり、Qiskit、PennyLane、およびCirqの42の関連タスクを対象としています。 12の最先端LLM（大規模言語モデル）の評価から、進歩と依然として存在する重要な課題の両方が明らかになりました。

## Head Title

### QuanBench+: LLM（大規模言語モデル）を用いた量子コード生成のための統合型マルチフレームワークベンチマーク

## Hero Venue Badge

### ICLR 2026 のワークショップ論文として発表

## Hero H1 Title

### QuanBench+: LLM（大規模言語モデル）ベースの量子コード生成のための統合型多フレームワークベンチマーク

## Hero Authors

Ali Slim, Haydar Hamieh, Jawad Kotaich, Yehya Ghosn, Mahdi Chehimi, Ammar Mohanna, Hasan Abed Al Kader Hammoud, Bernard Ghanem &mdash; American University of Beirut & KAUST

## Hero Abstract

大規模言語モデルは、コード生成においてますます利用されるようになっていますが、量子コード生成は依然として、主に単一のフレームワーク内で評価されています。 QuanBench+ は、 Qiskit 、 PennyLane 、および Cirq を網羅する、統合されたベンチマークを紹介しており、量子アルゴリズム、ゲート分解、および状態準備をカバーする42のタスクが含まれています。実行可能な機能テスト、KLダイバージェンスに基づく受容基準、およびフィードバックに基づく修正を使用することで、本研究は、信頼性の高いマルチフレームワーク量子コード生成が、依然として未解決の課題であることを明らかにしました。

## Hero Metric Label

### Best Pass@1 (Qiskit)

### フィードバック後の最高スコア

### 整合タスク数

## Introduction H2

### はじめに

## Introduction H3

### 主な貢献

## Introduction List

統合されたマルチフレームワークベンチマーク &mdash; Qiskit、PennyLane、およびCirqにまたがる42のタスクを連携させ、各フレームワークで同一の量子問題をテストできるように設計されています。

### 実行可能な機能テスト &mdash; Pass@1、Pass@5、およびKLダイバージェンスに基づく許容度を利用した自動評価による、確率的な出力に対する評価。

### フィードバックに基づくモデルの評価方法 &mdash; モデルが、実行時エラーメッセージや誤った回答フィードバックを受け取った際に、どの程度改善されるかを測定する方法。

### 12種類の最先端LLMを評価 &mdash; GPT 5.1、DeepSeek R1、Claude 3.7 Sonnet、Gemini 3 Proなどをはじめ、その他も含まれます。

## Methodology H2

### 方法論

## Methodology H3

### 正確性評価指標

### タスクのカテゴリ

## Methodology Figcaption

図1: QuanBench+ のベンチマークワークフロー &mdash; フレームワークを選択し、OpenRouter 経由で API リクエストを送信し、コードレスポンスを解析し、隔離されたサンドボックスで実行し、標準的なソリューションに対して検証します。

## Methodology Category

### 量子アルゴリズム

### ゲート分解

### 状態準備

## Results H3

### クロスフレームワークパフォーマンス（RQ1）

### フィードバックに基づく修復 (RQ3)

### 詳細な結果

## Results List

### 最高のワンショットスコア： Qiskit 59.5% (GPT 5.1), Cirq 54.8% (Gemini 3 Pro), PennyLane 42.9% (DeepSeek R1)

### Qiskitは、常に最も使いやすいフレームワークであり 、PennyLaneは、テストされたすべてのモデルにおいて最も難しいことがわかった。

パフォーマンスはフレームワークによって大きく異なります 。あるフレームワークで優れた性能を発揮するモデルでも、別のフレームワークでは性能が低下することがあり、これは、量子コンピューティングの理解だけでなく、APIの知識も重要であることを示唆しています。

GPT 5.1は、QiskitおよびCirqにおいてトップの性能 を示していますが、DeepSeek R1はCirqおよびPennyLaneにおいて競争力があり、特にフィードバックを利用することでその性能を発揮します。

## Results Figcaption

図2: Qiskit、Cirq、およびPennyLaneにおける12種類のLLMのPass@1スコア &mdash; QiskitからPennyLaneへの移行に伴い、パフォーマンスが大幅に低下していることが示されています。

### 図3: フィードバックに基づく修正後のPass@1 &mdash; DeepSeek R1は、Qiskitにおいて83.3%に達し、反復的なデバッグの有効性を示しています。

## Error Analysis H2

### エラー分析

## Error Analysis

すべてのモデルとフレームワークにおける977件のタスク失敗事例を分析した結果、エラーの種類に明確な階層構造が見られました。最も一般的な失敗は、 誤った答え を生成すること (46.7%) で、これはコードが実行されるものの、誤った量子状態や測定結果が得られることを意味します。 論理エラー (25.0%) は、回路の設計に問題がある場合に発生し、 メソッド/ゲートの欠落 エラー (11.8%) は、モデルが実際には存在しないAPI関数を生成してしまうことを示しています。

フィードバックに基づく修正後、未解決のタスクは665件となりました。注目すべき点として、 構文エラーは4.7%から1.5%に減少 し、欠落したメソッド/ゲートエラーは11.8%から3.8%に減少しましたが、 誤った解答の割合は53.4%に増加 しました。これは、フィードバックが表面的な問題を効果的に解決する一方で、量子論におけるより深い概念的なエラーには対応しにくいことを示しています。

## Error Analysis Figcaption

### 図4： フィードバック前のエラー分布 &mdash; 977件の誤ったタスクのうち、誤った回答が46.7%を占め、論理的なエラーが25.0%を占めていました。

図5： フィードバック後のエラー分布 &mdash; 665件の未解決エラーのうち、正解以外の選択肢を選んでしまう傾向が53.4%にシフトしています。これは、修正しやすいエラーが優先的に解決されるためです。

## Prefill H2

### プリフィル (Prefill) と、プリフィルしない場合 (No-Prefill)

## Prefill

プレフィル実験 は、モデルに解答の冒頭部分（インポート文や関数シグネチャ）を与えることで、コード生成が改善されるかどうかを検証するものです。これは、開発者がすでに基本的な構造を構築し、モデルがその実装を完了させるという状況をシミュレートするものです。

結果は、 事前入力の効果が、モデルとフレームワークによって大きく異なる ことを示しています。一部のモデルは大幅な改善が見られます（Gemini 3 Pro は Cirq で +11.3% の向上が見られる）、一方、他のモデルではほとんど変化が見られなかったり、わずかに性能が低下したりします。この効果は、最も複雑なフレームワークである PennyLane で最も顕著であり、これは、モデルが API に慣れていない場合に、インポートヒントが最も効果的であることを示唆しています。

## Prefill Figcaption

### 図6： Cirqにおける、プリフィルありとプリフィルなしの比較 &mdash; Gemini 3 Proは、プリフィルありの場合、51.2%から62.5%へと、最も大きな改善が見られます。

## Heatmaps H2

### タスクごとのパフォーマンス

## Heatmaps

これらのヒートマップは、各フレームワークにおける、すべてのモデルとタスクの組み合わせにおけるPass@1の結果を示しています。各行はLLM（大規模言語モデル）を表し、各列はタスクを表し、 青色のセルは成功 を示し、白色のセルは失敗を示します。このパターンから、いくつかのタスクは普遍的に難しく、一方で他のタスクはほとんどのモデルにとって容易であることがわかります。

## Heatmaps Figcaption

### Qiskit &mdash; Pass@1 のヒートマップで、最も成功しやすいパターンを示しています。

### Cirq &mdash; Pass@1 のヒートマップ。明らかに白色（失敗）のセルがより多く見られます。

### PennyLane &mdash; Pass@1 のヒートマップ。最も疎な成功パターンを示しています。

## Feedback Curves H2

### フィードバック学習曲線

## Feedback Curves

これらのグラフは、各モデルが、より多くのフィードバック試行（1～5回）を受けるにつれて、どれだけのタスクを解決できるかを示しています。 最も改善が見られるのは、最初の2～3回の試行回数 であり、その後は改善の効果が薄れます。GPT 5.1とDeepSeek R1は、すべてのフレームワークにおいて、最も速く収束します。

## Feedback Curves Figcaption

### Qiskit &mdash; フィードバック学習曲線。初期段階での急速な改善を示しています。

### Cirq &mdash; フィードバック学習曲線。類似した収束パターンを示します。

### PennyLane &mdash; フィードバック学習曲線。最も改善が見られる部分を示しています。

## Discussion H3

### 主要な知見

### 妥当性の脅威

### 制限事項と今後の課題

## Discussion List

### ベンチマークの規模： 42のタスクは、一定の範囲をカバーする上で有効ですが、量子プログラミングの多様性全体を十分に反映することはできません。

### APIの非決定性： LLM APIの応答は、実行ごとに異なる場合がありますが、Pass@5はこれを軽減するのに役立ちます。

### フレームワークのバージョン： 結果は特定のフレームワークのバージョンに依存しており、アップデートによって変動する可能性があります。

### 以下の3つのフレームワークのみを扱います（Q#、Amazon Braket、その他の新興プラットフォームは扱いません）。

### 評価はすべてシミュレータベースで行われます。実際の量子ハードウェアを使用すると、追加のノイズや制約が発生します。

### 今後の展望としては、より多くのフレームワークへの対応、ハードウェアを考慮したタスクの追加、そして、Few-shotやRetrieval-augmentedといった手法の研究などが挙げられます。

## Conclusion List

### 最も優れた単発精度は59.5% (Qiskit) であり、これは量子コード生成がLLMにとって依然として困難な課題であることを示しています。

フレームワーク間のパフォーマンス格差は大きい 。優れたモデルであっても、馴染みのないフレームワークでは大幅に性能が低下し、これはAPIの暗記によるものであり、量子力学の深い理解によるものではない可能性を示唆している。

### フィードバックに基づく修正により、最高スコアが83.3%に向上しました。 これは、反復的なデバッグが量子コード生成のための強力な戦略であることを証明しています。

### 信頼性の高い、複数のフレームワークに対応した量子コードの自動生成は、依然として未解決の問題であり、量子計算の原理だけでなく、フレームワーク固有の知識に大きく依存している。

## References Summary

### 参考文献

## Meta

### QuanBench+: LLMベースの量子コード生成のための統合型マルチフレームワークベンチマーク

Qiskit、PennyLane、およびCirqを網羅する、LLM（大規模言語モデル）を用いた量子コード生成の評価のための、42のタスクを含む統合ベンチマーク。最高の単一回の精度は59.5%に達し、フィードバックに基づく修正によって83.3%に向上しました。

Qiskit、PennyLane、およびCirqを網羅する、LLM（大規模言語モデル）を用いた量子コード生成の評価のための、42のタスクを含む統一的なベンチマーク。最高の単一回の精度は59.5%に達し、フィードバックを用いた修正によって83.3%まで向上しました。

### https://flecto.zer0ai.dev/ja/papers/2604.08570/

### ja_JP

### https://flecto.zer0ai.dev/ja/papers/2604.08570/