---
arxiv_id: 2604.07413
title: "FORGE: 製造シナリオのための細粒度マルチモーダル評価 | Flecto"
authors:
  - Xiangru Jian
  - Hao Xu
  - Wei Pang
  - Xinjian Zhao
  - Chengyu Tao
  - Qixin Zhang
  - Xikun Zhang
  - Chao Zhang
  - Guanzhi Deng
  - Alex Xue
  - Juan Du
  - Tianshu Yu
  - Garth Tarr
  - Linqi Song
  - Qiuzhuang Sun
  - Dacheng Tao
difficulty: Intermediate
tags:
  - Benchmark
  - Vision
  - Multimodal
  - Manufacturing
published_at: 2026-04-08
flecto_url: https://flecto.zer0ai.dev/ja/papers/2604.07413/
lang: ja
---

> *Equal contribution. Xiangru Jian*, Hao Xu*, Wei Pang* · ウォータールー大学 · シドニー大学 · CUHK-Shenzhen

## Abstract

製造業界ではマルチモーダル大規模言語モデル（MLLM）の活用が急速に進んでおり、単純な知覚から自律的な実行へのシフトが期待されています。しかし現在の評価ベンチマークは実際の製造現場が求める厳格な条件を反映できていません——細粒度のドメインセマンティクスが欠如し、2D 画像のみを対象とし、工場自動化が実際に必要とする微妙な推論能力をテストしていません。

FORGE はこのギャップを、12,972 件のアノテーション済みサンプルからなる高品質マルチモーダルデータセットで埋めます。 2D 画像 と 3D 点群 を組み合わせ、ワークピース検証・構造表面検査・組立確認という認知的に要求度の高い 3 つの製造タスクを対象に、正確な型番までを含む細粒度アノテーションを提供します。

複数の設定下で 18 の最先端 MLLM を体系的に評価した結果、明確な知見が得られました：現在のモデルにとっての主なボトルネックは視覚的位置特定ではなく、 タスクドメイン知識と形態理解 であるということです。さらに、FORGE の訓練分割で 3B パラメータモデルをファインチューニングすると +25.6% の性能向上が達成され、その 78 倍の規模を持つモデルに匹敵します。

## Introduction

### はじめに

現代の製造業では、これまで人間の専門家が担っていた品質管理や組立検証の自動化に AI ビジョンシステムの活用が急速に広まっています。マルチモーダル大規模言語モデルは、画像とテキストを同時に処理して複雑な推論を行えるという点で有望な手段です。しかし問題があります：既存のベンチマークは実際の製造環境が要求する水準に対応していないのです。

MMAD・MME-Industry・DesignQA などの先行ベンチマークはそれぞれ部分的な貢献をしていますが、実世界データ・3D 点群・細粒度な型番アノテーション・複数の認知タスク種別をひとつの厳格なフレームワークに統合したものはありません。FORGE はこのギャップを次の 4 つの主要貢献で埋めます：

## Experiments

### 実験・結果

18 の MLLM を FORGE のすべてのタスクと設定で評価しました——主要なオープンソースモデル（Gemma-3-27B・InternVL3-78B・Llama-4-MAV・Qwen2.5-VL シリーズ）とクローズドソースのフロンティアモデル（GPT-4o・Claude Opus 4.5・Gemini-2.5-Flash・o3）を含みます。結果はモデルファミリーや規模を横断した系統的な弱点を明らかにしています。

### 主要な知見

### エラー分析

失敗事例の分析から繰り返し見られるパターンが明らかになっています：モデルは形態的な特徴ではなく材質特性（「プラスチックに見える」）に過度に依存し、関連するサービス条件への新興的な理解を示しながらも正確な型番識別には失敗します。例えば Gemini-2.5-Flash は色だけを根拠にして金属製フラットワッシャーを「プラスチック/ナイロン製」と誤って識別します。

## Conclusion

### おわりに

FORGE は実世界の製造データから構築された細粒度マルチモーダルベンチマークを提供します——3 つの認知的に要求度の高いタスクにわたって 2D 画像と 3D 点群を組み合わせた 12,972 件のサンプルです。正確な型番アノテーションを提供し、製造自動化が実際に必要とする精密な推論について MLLM を評価する初のベンチマークです。

18 の最先端 MLLM の評価から明確な知見が得られています：現在のモデルはマクロスケールの部品認識は処理できますが、細粒度の推論と微細な表面分析では一貫して失敗します。視覚的位置特定は制限要因ではありません——ボトルネックは製造ドメイン知識と形態理解です。この知見は、コミュニティが将来のモデル開発でどこに投資すべきかの方向性を示すものです。

FORGE は価値ある訓練リソースでもあることが実証されています：FORGE でファインチューニングした 3B パラメータモデルは 78 倍大きなモデルに匹敵する性能を達成します。製造 AI が成熟するにつれて、真のドメイン専門知識を要求する FORGE のようなベンチマークが実際の進歩を測定・促進するために不可欠になるでしょう。

## References

### 参考文献

## Head

### FORGE: 製造シナリオのための細粒度マルチモーダル評価 | Flecto

## Hero Metric

### アノテーション済みサンプル

### 評価済み MLLM

### SFT 改善率

## Hero Teaser

製造 AI には物体認識以上のものが必要です——正確な型番の特定、微細な表面欠陥の検出、複雑な組立の確認が求められます。FORGE はこれら 3 つすべてを厳格にテストする初の評価基準であり、現在の最先端モデルが不得意とするのは視覚的位置特定ではなく ドメイン知識 であることを明らかにします。

## Hero Button

### arXiv で読む ↗

### プロジェクトページ ↗

### コード ↗

### データセット ↗

## Abstract Stats

### 実世界の 2D 画像 + 3D 点群

### 正確な型番を含む細粒度アノテーション

### 3 つの製造認知タスク（WORKVERI・SURFINSP・ASSYVERI）

### 多様なワークピースにわたる 12,972 件のアノテーション済みサンプル

### 18 の最先端 MLLM をベンチマーク（オープンソース・クローズドソース両方）

## Introduction Contribution

### 高品質マルチモーダルデータセット

### 2D 画像と 3D 点群を同期させた初の細粒度製造データセット。粗いカテゴリではなく正確な型番でアノテーション済み。

### 3 つの実世界認知タスク

### WORKVERI・SURFINSP・ASSYVERI は実際の製造現場で最も要求度の高い 3 つの検査シナリオ——欠陥検証・表面検査・組立確認——を捉えます。

### 大規模 MLLM ベンチマーク

### 18 の MLLM（オープン・クローズドソース両方）を 4 つの評価設定で体系的に評価し、モデルが実際にどこで失敗するかを特定するボトルネック分析を実施。

### SFT 訓練リソース

FORGE の訓練分割によってドメイン特化ファインチューニングが可能になります。FORGE でファインチューニングした 3B パラメータモデルは +25.6% の改善を達成し、ワークピース検証タスクでは 78 倍大きな 235B モデルに匹敵します。

## Related_Work

### 関連研究

産業・製造シナリオにおける AI 評価を試みたベンチマークはいくつかあります。表 1 は FORGE と最も関連性の高い先行研究を比較しています。それぞれのベンチマークは貢献をしていますが、厳格な製造評価に必要なすべての条件を組み合わせているものはありません。

ギャップは顕著です：先行ベンチマークで 3D 点群入力をサポートするものはなく、実際の製造現場のあり方を反映した細粒度な型番アノテーションを提供するものもありません。粗いカテゴリラベル（「ボルト」）は、特定の M8×1.25 六角ボルトに表面亀裂があるかどうかを識別するという実際の製造タスクには不十分です。

## Related_Work Table Caption

### 表 1：FORGE と既存の製造・産業ベンチマークの比較。FORGE は 2D 画像・3D 点群・実世界データ・細粒度な型番アノテーションをすべて兼ね備えた唯一のベンチマークです。

## Forge_Benchmark

### FORGE ベンチマーク

FORGE にはボルト・ネジ・ブラケット・ギア・組立品など多様な製造ワークピースにわたる 12,972 件のサンプルが含まれています。各サンプルは同一の実物部品から撮影した 2D 画像と 3D 点群を組み合わせており、異なるスケールとモダリティで相補的な視覚情報をモデルに提供します。

決定的な違いは、アノテーションが粗いカテゴリを超えていることです。各サンプルにはワークピースの 正確な型番 ——製造品質管理が実際に依存している細粒度な識別子——がラベル付けされています。これが FORGE をすべての先行ベンチマークと区別する特性であり、現在の MLLM のドメイン知識ギャップを明らかにする要因です。

### FORGE は製造品質管理における中核的な認知課題を反映した 3 つのタスクを定義しています。各タスクは視覚的知覚・言語的推論能力の異なる組み合わせを必要とします：

FORGE は 4 つの設定で MLLM を評価します： ゼロショット （標準的な単一画像）、 参照条件付き（Ref-Cond） （正常部品の参照画像を提供）、 文脈内デモンストレーション（ICD） （少数ショット例示）、 3 方向視点（3V） （3D スキャナによるマルチアングル画像）。

### 2 つの入力粒度レベルでテストします： モデルレベル （正確な型番の識別）と ワークピースレベル （部品カテゴリのみの識別）。この 2 レベル間のギャップが細粒度認識の難易度を定量化します。

## Forge_Benchmark Subsection

### データセット概要

### 3 つの製造タスク

### 評価設定

## Forge_Benchmark Figure Caption

図 3：FORGE データセットのサンプルデータ。左：ワークピース検証タスクで使用される 3D マルチビュー画像。右：構造表面検査で使用される 2D 表面画像。アノテーションにはワークピース種別・正確な型番・欠陥タイプ・欠陥位置が含まれます。

### 図 2：FORGE の 3 つの中核タスクの概要。各タスクは視覚的知覚・ドメイン知識・空間推論の異なる組み合わせを必要とします。

### 製造品質管理の 3 つのシナリオ：（左）3D 点群オーバーレイによるワークピース欠陥検証、（中央）微細な表面亀裂の顕微鏡的検出、（右）複数部品の組立アライメント確認。

## Forge_Benchmark Task

### ワークピース検証（WORKVERI）

### ワークピースの 3 方向画像から欠陥の有無と欠陥タイプを判定します。特定の部品種別に対する欠陥形態の細粒度な理解とドメイン知識をテストします。

### 構造表面検査（SURFINSP）

### 2D 画像からミクロスケールの表面欠陥（亀裂・凹み・腐食）を検出します。最も難易度の高いタスクであり、熟練した人間の検査員でも課題となる微妙な視覚的異常の検出が求められます。

### 組立確認（ASSYVERI）

### 複数の部品が正しく組み立てられているかを判定します。部品の関係性に関する空間推論と、部品がどのように組み合わさるべきかの理解が必要です。

## Experiments Figure Caption

図 4：FORGE ベンチマークにおける 18 の MLLM の平均精度。最も優秀なクローズドソースモデルでも最も簡単な設定（ワークピースレベルのゼロショット）で約 80% しか達成できず、細粒度の型番タスクでは性能が急落します。

### 図 5：エラー事例分析。一般的な失敗パターンを示しています。（A）色の手がかりによる材質の誤判断。（B）型番は誤りながらもサービス条件の推論は正しい——新興的だが不完全な能力。

## Experiments Insight

### SURFINSP が最も難しい

### 表面検査はすべてのモデルで最も困難なタスクです。微細な亀裂検出には、現在の MLLM がモデルサイズにかかわらず一貫して欠く視覚的感度が必要です。

### ドメイン知識がボトルネック

参照条件付き戦略は一貫性がありません——参照画像を提供しても安定した改善は得られません。これはボトルネックが上流にあることを確認しています：モデルには見ているものを解釈するための製造ドメイン知識が不足しています。

### 3D コンテキストが妨げになることも

驚くべきことに、3 方向ゼロショットが Ref-Cond や ICD 設定を上回ることがしばしばあります。MLLM は 3D コンテキスト情報を効果的に統合することが苦手です——活用するためのフレームワークが欠如している場合、コンテキストの追加が逆効果になることがあります。

### 型番認識のギャップ

### モデルレベルのタスク（正確な型番識別）はワークピースレベルのタスクよりも大幅に難しくなります。この細粒度認識ギャップ——FORGE の核心的な新規性——がすべてのモデルが最も苦手とする部分です。

## Bottleneck

### ボトルネック分析

モデルが失敗する 理由 を理解するため、著者らは視覚的位置特定とドメイン知識を切り離すターゲットを絞ったアブレーション実験を実施しました。結果は明確です：ボトルネックはモデルの見る能力ではなく、知識にあります。

## Bottleneck Card

### 視覚的位置特定はボトルネックではない

部品に文字ラベルを付けて（Set-of-Mark プロンプティング）座標で識別するよう求めた場合、性能は許容範囲です——モデルは部品を正しく局所化・参照できます。単一画像および複数画像間の視覚的位置特定は適切に機能します。問題は別のところにあります。

### ドメイン知識がボトルネック

欠品検出実験は、視覚的位置特定が成功していても MLLM が特定の型番を認識できないことを示しています。部品が どこに あるかを知ることと、それが 何か （正確な種別・型番・欠陥パターン）を知ることの差は、完全にドメイン知識の問題です。

### 3D 点群にはビジュアルレンダリングが必要

生の 3D 点群座標をシリアライズされたテキストトークンとして入力すると、精度はほぼランダムになります。MLLM はテキスト形式での 3D データ処理ができません——点群の 2D ビジュアル投影が必要です。これにより、3D データの適切な入力モダリティはビジュアルレンダリングであり、生の座標配列ではないことが確認されます。

## Bottleneck Figure Caption

### 図 7：ボトルネック分析実験。視覚的位置特定タスクで許容できる性能が示されており、主な制限要因は視覚的知覚能力ではなくドメイン知識であることが確認されます。

## Sft

### SFT 訓練リソース

評価を超えて、FORGE は実用的な訓練リソースとしても機能します。FORGE の訓練分割で Qwen2.5-VL-3B をファインチューニングすると、アーキテクチャの変更や追加データソースなしに、最も困難なタスクで劇的な性能向上が得られます。

## Sft Metric

### FORGE で Qwen2.5-VL-3B をファインチューニングした後の WorkVeri 3V における改善率

### AssyVeri Image で +6.5% · WorkVeri で 90.8% の相対的改善

## Sft Figure Caption

図 6：FORGE でのファインチューニング前（ベース）後の Qwen2.5-VL-3B の性能比較。WorkVeri 3V は 28.2% から 53.8% へ改善（+25.6 ポイント）。AssyVeri Image は 24.0% から 30.5% へ改善（+6.5 ポイント）。

## Sft Callout

WorkVeri 3V で 90.8% の相対的改善により、 3B パラメータモデルが 53.8% を達成—— Qwen3-VL-235B の 54.4% に匹敵し、それは 78 倍大きな モデルです。重要なことに、これらの改善はファインチューニング中に見ていない保留製品カテゴリにも汎化しており、単純な記憶ではなく真のドメイン適応であることを示しています。

## Footer

### Flecto でレンダリング · 論文: arXiv:2604.07413

## Meta

### FORGE: 製造シナリオのための細粒度マルチモーダル評価

FORGE は 2D 画像と 3D 点群を組み合わせた 12,972 件のサンプルで細粒度マルチモーダル製造ベンチマークを提供します。18 の MLLM 評価によりドメイン知識がボトルネックであることを明らかにしました。SFT で +25.6% の改善を達成し、78 倍大きなモデルに匹敵します。

FORGE は 2D 画像と 3D 点群を組み合わせた 12,972 件のサンプルで細粒度マルチモーダル製造ベンチマークを提供します。18 の MLLM 評価によりドメイン知識がボトルネックであることを明らかにしました。SFT で +25.6% の改善を達成し、78 倍大きなモデルに匹敵します。

### https://flecto.zer0ai.dev/ja/papers/2604.07413/

### ja_JP

### https://flecto.zer0ai.dev/ja/papers/2604.07413/