arXiv:2604.07413 · cs.CV · Apr 2026

FORGE: 製造シナリオのための細粒度マルチモーダル評価

*Equal contribution. Xiangru Jian*, Hao Xu*, Wei Pang* · ウォータールー大学 · シドニー大学 · CUHK-Shenzhen

12,972 アノテーション済みサンプル

18 評価済み MLLM

+25.6% SFT 改善率

製造 AI には物体認識以上のものが必要です——正確な型番の特定、微細な表面欠陥の検出、複雑な組立の確認が求められます。FORGE はこれら 3 つすべてを厳格にテストする初の評価基準であり、現在の最先端モデルが不得意とするのは視覚的位置特定ではなく ドメイン知識 であることを明らかにします。

arXiv で読む ↗ プロジェクトページ ↗ コード ↗ データセット ↗

ABSTRACT

概要

製造業界ではマルチモーダル大規模言語モデル（MLLM）の活用が急速に進んでおり、単純な知覚から自律的な実行へのシフトが期待されています。しかし現在の評価ベンチマークは実際の製造現場が求める厳格な条件を反映できていません——細粒度のドメインセマンティクスが欠如し、2D 画像のみを対象とし、工場自動化が実際に必要とする微妙な推論能力をテストしていません。

FORGE はこのギャップを、12,972 件のアノテーション済みサンプルからなる高品質マルチモーダルデータセットで埋めます。2D 画像と3D 点群を組み合わせ、ワークピース検証・構造表面検査・組立確認という認知的に要求度の高い 3 つの製造タスクを対象に、正確な型番までを含む細粒度アノテーションを提供します。

複数の設定下で 18 の最先端 MLLM を体系的に評価した結果、明確な知見が得られました：現在のモデルにとっての主なボトルネックは視覚的位置特定ではなく、タスクドメイン知識と形態理解であるということです。さらに、FORGE の訓練分割で 3B パラメータモデルをファインチューニングすると +25.6% の性能向上が達成され、その 78 倍の規模を持つモデルに匹敵します。

はじめに

現代の製造業では、これまで人間の専門家が担っていた品質管理や組立検証の自動化に AI ビジョンシステムの活用が急速に広まっています。マルチモーダル大規模言語モデルは、画像とテキストを同時に処理して複雑な推論を行えるという点で有望な手段です。しかし問題があります：既存のベンチマークは実際の製造環境が要求する水準に対応していないのです。

MMAD・MME-Industry・DesignQA などの先行ベンチマークはそれぞれ部分的な貢献をしていますが、実世界データ・3D 点群・細粒度な型番アノテーション・複数の認知タスク種別をひとつの厳格なフレームワークに統合したものはありません。FORGE はこのギャップを次の 4 つの主要貢献で埋めます：

高品質マルチモーダルデータセット

2D 画像と 3D 点群を同期させた初の細粒度製造データセット。粗いカテゴリではなく正確な型番でアノテーション済み。

3 つの実世界認知タスク

WORKVERI・SURFINSP・ASSYVERI は実際の製造現場で最も要求度の高い 3 つの検査シナリオ——欠陥検証・表面検査・組立確認——を捉えます。

大規模 MLLM ベンチマーク

18 の MLLM（オープン・クローズドソース両方）を 4 つの評価設定で体系的に評価し、モデルが実際にどこで失敗するかを特定するボトルネック分析を実施。

SFT 訓練リソース

FORGE の訓練分割によってドメイン特化ファインチューニングが可能になります。FORGE でファインチューニングした 3B パラメータモデルは +25.6% の改善を達成し、ワークピース検証タスクでは 78 倍大きな 235B モデルに匹敵します。

表 1：FORGE と既存の製造・産業ベンチマークの比較。FORGE は 2D 画像・3D 点群・実世界データ・細粒度な型番アノテーションをすべて兼ね備えた唯一のベンチマークです。
Benchmark	Image	3D	Real	Scenario	Workpiece	Model No.	Samples
MMAD	✓	✗	Real	✓	✓	✗	39,672
MME-Industry	✓	✗	Real	✗	✗	✗	1,050
DesignQA	✗	✗	Synthetic	✓	✓	✗	1,451
FailureSensorIQ	✗	✗	Real	✓	✗	✗	8,296
EngDesign	✓	✗	Synthetic	✓	✗	✗	1,717
FORGE (Ours)	✓	✓	Real	✓	✓	✓	12,972

FORGE ベンチマーク

データセット概要

FORGE にはボルト・ネジ・ブラケット・ギア・組立品など多様な製造ワークピースにわたる 12,972 件のサンプルが含まれています。各サンプルは同一の実物部品から撮影した 2D 画像と 3D 点群を組み合わせており、異なるスケールとモダリティで相補的な視覚情報をモデルに提供します。

決定的な違いは、アノテーションが粗いカテゴリを超えていることです。各サンプルにはワークピースの正確な型番——製造品質管理が実際に依存している細粒度な識別子——がラベル付けされています。これが FORGE をすべての先行ベンチマークと区別する特性であり、現在の MLLM のドメイン知識ギャップを明らかにする要因です。

FORGE dataset overview — sample images showing workpieces and surface defects — 図 3：FORGE データセットのサンプルデータ。左：ワークピース検証タスクで使用される 3D マルチビュー画像。右：構造表面検査で使用される 2D 表面画像。アノテーションにはワークピース種別・正確な型番・欠陥タイプ・欠陥位置が含まれます。

3 つの製造タスク

FORGE は製造品質管理における中核的な認知課題を反映した 3 つのタスクを定義しています。各タスクは視覚的知覚・言語的推論能力の異なる組み合わせを必要とします：

WORKVERI

ワークピース検証（WORKVERI）

ワークピースの 3 方向画像から欠陥の有無と欠陥タイプを判定します。特定の部品種別に対する欠陥形態の細粒度な理解とドメイン知識をテストします。

SURFINSP

構造表面検査（SURFINSP）

2D 画像からミクロスケールの表面欠陥（亀裂・凹み・腐食）を検出します。最も難易度の高いタスクであり、熟練した人間の検査員でも課題となる微妙な視覚的異常の検出が求められます。

ASSYVERI

組立確認（ASSYVERI）

複数の部品が正しく組み立てられているかを判定します。部品の関係性に関する空間推論と、部品がどのように組み合わさるべきかの理解が必要です。

Manufacturing quality control scenarios illustration — 製造品質管理の 3 つのシナリオ：（左）3D 点群オーバーレイによるワークピース欠陥検証、（中央）微細な表面亀裂の顕微鏡的検出、（右）複数部品の組立アライメント確認。

評価設定

FORGE は 4 つの設定で MLLM を評価します：ゼロショット（標準的な単一画像）、参照条件付き（Ref-Cond）（正常部品の参照画像を提供）、文脈内デモンストレーション（ICD）（少数ショット例示）、3 方向視点（3V）（3D スキャナによるマルチアングル画像）。

2 つの入力粒度レベルでテストします：モデルレベル（正確な型番の識別）とワークピースレベル（部品カテゴリのみの識別）。この 2 レベル間のギャップが細粒度認識の難易度を定量化します。

実験・結果

18 の MLLM を FORGE のすべてのタスクと設定で評価しました——主要なオープンソースモデル（Gemma-3-27B・InternVL3-78B・Llama-4-MAV・Qwen2.5-VL シリーズ）とクローズドソースのフロンティアモデル（GPT-4o・Claude Opus 4.5・Gemini-2.5-Flash・o3）を含みます。結果はモデルファミリーや規模を横断した系統的な弱点を明らかにしています。

Mean accuracy comparison of 18 MLLMs on FORGE benchmark — 図 4：FORGE ベンチマークにおける 18 の MLLM の平均精度。最も優秀なクローズドソースモデルでも最も簡単な設定（ワークピースレベルのゼロショット）で約 80% しか達成できず、細粒度の型番タスクでは性能が急落します。

主要な知見

SURFINSP が最も難しい

表面検査はすべてのモデルで最も困難なタスクです。微細な亀裂検出には、現在の MLLM がモデルサイズにかかわらず一貫して欠く視覚的感度が必要です。

ドメイン知識がボトルネック

参照条件付き戦略は一貫性がありません——参照画像を提供しても安定した改善は得られません。これはボトルネックが上流にあることを確認しています：モデルには見ているものを解釈するための製造ドメイン知識が不足しています。

3D コンテキストが妨げになることも

驚くべきことに、3 方向ゼロショットが Ref-Cond や ICD 設定を上回ることがしばしばあります。MLLM は 3D コンテキスト情報を効果的に統合することが苦手です——活用するためのフレームワークが欠如している場合、コンテキストの追加が逆効果になることがあります。

型番認識のギャップ

モデルレベルのタスク（正確な型番識別）はワークピースレベルのタスクよりも大幅に難しくなります。この細粒度認識ギャップ——FORGE の核心的な新規性——がすべてのモデルが最も苦手とする部分です。

エラー分析

失敗事例の分析から繰り返し見られるパターンが明らかになっています：モデルは形態的な特徴ではなく材質特性（「プラスチックに見える」）に過度に依存し、関連するサービス条件への新興的な理解を示しながらも正確な型番識別には失敗します。例えば Gemini-2.5-Flash は色だけを根拠にして金属製フラットワッシャーを「プラスチック/ナイロン製」と誤って識別します。

Error analysis: examples of MLLM failures on FORGE tasks — 図 5：エラー事例分析。一般的な失敗パターンを示しています。（A）色の手がかりによる材質の誤判断。（B）型番は誤りながらもサービス条件の推論は正しい——新興的だが不完全な能力。

04.5

ボトルネック分析

モデルが失敗する理由を理解するため、著者らは視覚的位置特定とドメイン知識を切り離すターゲットを絞ったアブレーション実験を実施しました。結果は明確です：ボトルネックはモデルの見る能力ではなく、知識にあります。

視覚的位置特定はボトルネックではない

部品に文字ラベルを付けて（Set-of-Mark プロンプティング）座標で識別するよう求めた場合、性能は許容範囲です——モデルは部品を正しく局所化・参照できます。単一画像および複数画像間の視覚的位置特定は適切に機能します。問題は別のところにあります。

ドメイン知識がボトルネック

欠品検出実験は、視覚的位置特定が成功していても MLLM が特定の型番を認識できないことを示しています。部品がどこにあるかを知ることと、それが何か（正確な種別・型番・欠陥パターン）を知ることの差は、完全にドメイン知識の問題です。

3D 点群にはビジュアルレンダリングが必要

生の 3D 点群座標をシリアライズされたテキストトークンとして入力すると、精度はほぼランダムになります。MLLM はテキスト形式での 3D データ処理ができません——点群の 2D ビジュアル投影が必要です。これにより、3D データの適切な入力モダリティはビジュアルレンダリングであり、生の座標配列ではないことが確認されます。

Bottleneck analysis: visual grounding vs domain knowledge — 図 7：ボトルネック分析実験。視覚的位置特定タスクで許容できる性能が示されており、主な制限要因は視覚的知覚能力ではなくドメイン知識であることが確認されます。

04.6

SFT 訓練リソース

+25.6%

FORGE で Qwen2.5-VL-3B をファインチューニングした後の WorkVeri 3V における改善率

AssyVeri Image で +6.5% · WorkVeri で 90.8% の相対的改善

評価を超えて、FORGE は実用的な訓練リソースとしても機能します。FORGE の訓練分割で Qwen2.5-VL-3B をファインチューニングすると、アーキテクチャの変更や追加データソースなしに、最も困難なタスクで劇的な性能向上が得られます。

SFT training results: Qwen2.5-VL-3B before and after fine-tuning on FORGE — 図 6：FORGE でのファインチューニング前（ベース）後の Qwen2.5-VL-3B の性能比較。WorkVeri 3V は 28.2% から 53.8% へ改善（+25.6 ポイント）。AssyVeri Image は 24.0% から 30.5% へ改善（+6.5 ポイント）。

WorkVeri 3V で 90.8% の相対的改善により、3B パラメータモデルが 53.8% を達成——Qwen3-VL-235B の 54.4% に匹敵し、それは 78 倍大きなモデルです。重要なことに、これらの改善はファインチューニング中に見ていない保留製品カテゴリにも汎化しており、単純な記憶ではなく真のドメイン適応であることを示しています。

おわりに

FORGE は実世界の製造データから構築された細粒度マルチモーダルベンチマークを提供します——3 つの認知的に要求度の高いタスクにわたって 2D 画像と 3D 点群を組み合わせた 12,972 件のサンプルです。正確な型番アノテーションを提供し、製造自動化が実際に必要とする精密な推論について MLLM を評価する初のベンチマークです。

18 の最先端 MLLM の評価から明確な知見が得られています：現在のモデルはマクロスケールの部品認識は処理できますが、細粒度の推論と微細な表面分析では一貫して失敗します。視覚的位置特定は制限要因ではありません——ボトルネックは製造ドメイン知識と形態理解です。この知見は、コミュニティが将来のモデル開発でどこに投資すべきかの方向性を示すものです。

FORGE は価値ある訓練リソースでもあることが実証されています：FORGE でファインチューニングした 3B パラメータモデルは 78 倍大きなモデルに匹敵する性能を達成します。製造 AI が成熟するにつれて、真のドメイン専門知識を要求する FORGE のようなベンチマークが実際の進歩を測定・促進するために不可欠になるでしょう。

REF 参考文献

Akcay, S., et al. (2022). MMAD: Massive Multimodal Anomaly Detection. arXiv:2211.02656.
Bai, J., et al. (2023). Qwen-VL: A Versatile Vision-Language Model for Understanding, Localization, Text Reading, and Beyond. arXiv:2308.12966.
Brown, T., et al. (2020). Language Models are Few-Shot Learners. NeurIPS 2020.
Chen, L., et al. (2024). InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks. CVPR 2024.
Chiang, W.-L., et al. (2024). Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. arXiv:2403.04132.
Dosovitskiy, A., et al. (2020). An Image is Worth 16×16 Words: Transformers for Image Recognition at Scale. ICLR 2021.
Gemini Team, Google. (2024). Gemini: A Family of Highly Capable Multimodal Models. arXiv:2312.11805.
He, K., et al. (2016). Deep Residual Learning for Image Recognition. CVPR 2016.
Hu, Z., et al. (2024). DesignQA: A Multi-Modal Benchmark Evaluating LLMs' Understanding of Engineering Documentation. arXiv:2404.07917.
Jiang, A. Q., et al. (2023). Mistral 7B. arXiv:2310.06825.
Li, J., et al. (2023). BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models. ICML 2023.
Liu, H., et al. (2024). Visual Instruction Tuning. NeurIPS 2023.
Luo, W., et al. (2023). FailureSensorIQ. arXiv.
OpenAI. (2024). GPT-4 Technical Report. arXiv:2303.08774.
Qi, C. R., et al. (2017). PointNet: Deep Learning on Point Sets for 3D Classification and Segmentation. CVPR 2017.
Radford, A., et al. (2021). Learning Transferable Visual Models from Natural Language Supervision. ICML 2021.
Rombach, R., et al. (2022). High-Resolution Image Synthesis with Latent Diffusion Models. CVPR 2022.
Team, Q. (2024). Qwen2.5-VL Technical Report. arXiv:2502.13923.
Touvron, H., et al. (2023). LLaMA 2: Open Foundation and Fine-Tuned Chat Models. arXiv:2307.09288.
Wang, J., et al. (2023). MME-Industry: A Comprehensive Benchmark for Industry MLLMs. arXiv.
Wang, P., et al. (2024). Qwen2-VL: Enhancing Vision-Language Model's Perception of the World at Any Resolution. arXiv:2409.12191.
Yang, A., et al. (2024). Qwen2 Technical Report. arXiv:2407.10671.
Zhang, Z., et al. (2024). InternLM-XComposer2: Mastering Free-form Text-Image Composition and Comprehension in Vision-Language Large Model. arXiv:2401.16420.

FORGE: 製造シナリオのための細粒度マルチモーダル評価

概要

はじめに

高品質マルチモーダルデータセット

3 つの実世界認知タスク

大規模 MLLM ベンチマーク

SFT 訓練リソース

関連研究

FORGE ベンチマーク

データセット概要

3 つの製造タスク

ワークピース検証（WORKVERI）

構造表面検査（SURFINSP）

組立確認（ASSYVERI）

評価設定

実験・結果

主要な知見

SURFINSP が最も難しい

ドメイン知識がボトルネック

3D コンテキストが妨げになることも

型番認識のギャップ

エラー分析

ボトルネック分析

視覚的位置特定はボトルネックではない

ドメイン知識がボトルネック

3D 点群にはビジュアルレンダリングが必要

SFT 訓練リソース

おわりに