製造業界ではマルチモーダル大規模言語モデル(MLLM)の活用が急速に進んでおり、単純な知覚から自律的な実行へのシフトが期待されています。しかし現在の評価ベンチマークは実際の製造現場が求める厳格な条件を反映できていません——細粒度のドメインセマンティクスが欠如し、2D 画像のみを対象とし、工場自動化が実際に必要とする微妙な推論能力をテストしていません。
FORGE はこのギャップを、12,972 件のアノテーション済みサンプルからなる高品質マルチモーダルデータセットで埋めます。2D 画像と3D 点群を組み合わせ、ワークピース検証・構造表面検査・組立確認という認知的に要求度の高い 3 つの製造タスクを対象に、正確な型番までを含む細粒度アノテーションを提供します。
複数の設定下で 18 の最先端 MLLM を体系的に評価した結果、明確な知見が得られました:現在のモデルにとっての主なボトルネックは視覚的位置特定ではなく、タスクドメイン知識と形態理解であるということです。さらに、FORGE の訓練分割で 3B パラメータモデルをファインチューニングすると +25.6% の性能向上が達成され、その 78 倍の規模を持つモデルに匹敵します。
現代の製造業では、これまで人間の専門家が担っていた品質管理や組立検証の自動化に AI ビジョンシステムの活用が急速に広まっています。マルチモーダル大規模言語モデルは、画像とテキストを同時に処理して複雑な推論を行えるという点で有望な手段です。しかし問題があります:既存のベンチマークは実際の製造環境が要求する水準に対応していないのです。
MMAD・MME-Industry・DesignQA などの先行ベンチマークはそれぞれ部分的な貢献をしていますが、実世界データ・3D 点群・細粒度な型番アノテーション・複数の認知タスク種別をひとつの厳格なフレームワークに統合したものはありません。FORGE はこのギャップを次の 4 つの主要貢献で埋めます:
2D 画像と 3D 点群を同期させた初の細粒度製造データセット。粗いカテゴリではなく正確な型番でアノテーション済み。
WORKVERI・SURFINSP・ASSYVERI は実際の製造現場で最も要求度の高い 3 つの検査シナリオ——欠陥検証・表面検査・組立確認——を捉えます。
18 の MLLM(オープン・クローズドソース両方)を 4 つの評価設定で体系的に評価し、モデルが実際にどこで失敗するかを特定するボトルネック分析を実施。
FORGE の訓練分割によってドメイン特化ファインチューニングが可能になります。FORGE でファインチューニングした 3B パラメータモデルは +25.6% の改善を達成し、ワークピース検証タスクでは 78 倍大きな 235B モデルに匹敵します。
FORGE にはボルト・ネジ・ブラケット・ギア・組立品など多様な製造ワークピースにわたる 12,972 件のサンプルが含まれています。各サンプルは同一の実物部品から撮影した 2D 画像と 3D 点群を組み合わせており、異なるスケールとモダリティで相補的な視覚情報をモデルに提供します。
決定的な違いは、アノテーションが粗いカテゴリを超えていることです。各サンプルにはワークピースの正確な型番——製造品質管理が実際に依存している細粒度な識別子——がラベル付けされています。これが FORGE をすべての先行ベンチマークと区別する特性であり、現在の MLLM のドメイン知識ギャップを明らかにする要因です。
FORGE は製造品質管理における中核的な認知課題を反映した 3 つのタスクを定義しています。各タスクは視覚的知覚・言語的推論能力の異なる組み合わせを必要とします:
ワークピースの 3 方向画像から欠陥の有無と欠陥タイプを判定します。特定の部品種別に対する欠陥形態の細粒度な理解とドメイン知識をテストします。
2D 画像からミクロスケールの表面欠陥(亀裂・凹み・腐食)を検出します。最も難易度の高いタスクであり、熟練した人間の検査員でも課題となる微妙な視覚的異常の検出が求められます。
複数の部品が正しく組み立てられているかを判定します。部品の関係性に関する空間推論と、部品がどのように組み合わさるべきかの理解が必要です。
FORGE は 4 つの設定で MLLM を評価します:ゼロショット(標準的な単一画像)、参照条件付き(Ref-Cond)(正常部品の参照画像を提供)、文脈内デモンストレーション(ICD)(少数ショット例示)、3 方向視点(3V)(3D スキャナによるマルチアングル画像)。
2 つの入力粒度レベルでテストします:モデルレベル(正確な型番の識別)とワークピースレベル(部品カテゴリのみの識別)。この 2 レベル間のギャップが細粒度認識の難易度を定量化します。
18 の MLLM を FORGE のすべてのタスクと設定で評価しました——主要なオープンソースモデル(Gemma-3-27B・InternVL3-78B・Llama-4-MAV・Qwen2.5-VL シリーズ)とクローズドソースのフロンティアモデル(GPT-4o・Claude Opus 4.5・Gemini-2.5-Flash・o3)を含みます。結果はモデルファミリーや規模を横断した系統的な弱点を明らかにしています。
表面検査はすべてのモデルで最も困難なタスクです。微細な亀裂検出には、現在の MLLM がモデルサイズにかかわらず一貫して欠く視覚的感度が必要です。
参照条件付き戦略は一貫性がありません——参照画像を提供しても安定した改善は得られません。これはボトルネックが上流にあることを確認しています:モデルには見ているものを解釈するための製造ドメイン知識が不足しています。
驚くべきことに、3 方向ゼロショットが Ref-Cond や ICD 設定を上回ることがしばしばあります。MLLM は 3D コンテキスト情報を効果的に統合することが苦手です——活用するためのフレームワークが欠如している場合、コンテキストの追加が逆効果になることがあります。
モデルレベルのタスク(正確な型番識別)はワークピースレベルのタスクよりも大幅に難しくなります。この細粒度認識ギャップ——FORGE の核心的な新規性——がすべてのモデルが最も苦手とする部分です。
失敗事例の分析から繰り返し見られるパターンが明らかになっています:モデルは形態的な特徴ではなく材質特性(「プラスチックに見える」)に過度に依存し、関連するサービス条件への新興的な理解を示しながらも正確な型番識別には失敗します。例えば Gemini-2.5-Flash は色だけを根拠にして金属製フラットワッシャーを「プラスチック/ナイロン製」と誤って識別します。
モデルが失敗する理由を理解するため、著者らは視覚的位置特定とドメイン知識を切り離すターゲットを絞ったアブレーション実験を実施しました。結果は明確です:ボトルネックはモデルの見る能力ではなく、知識にあります。
部品に文字ラベルを付けて(Set-of-Mark プロンプティング)座標で識別するよう求めた場合、性能は許容範囲です——モデルは部品を正しく局所化・参照できます。単一画像および複数画像間の視覚的位置特定は適切に機能します。問題は別のところにあります。
欠品検出実験は、視覚的位置特定が成功していても MLLM が特定の型番を認識できないことを示しています。部品がどこにあるかを知ることと、それが何か(正確な種別・型番・欠陥パターン)を知ることの差は、完全にドメイン知識の問題です。
生の 3D 点群座標をシリアライズされたテキストトークンとして入力すると、精度はほぼランダムになります。MLLM はテキスト形式での 3D データ処理ができません——点群の 2D ビジュアル投影が必要です。これにより、3D データの適切な入力モダリティはビジュアルレンダリングであり、生の座標配列ではないことが確認されます。
評価を超えて、FORGE は実用的な訓練リソースとしても機能します。FORGE の訓練分割で Qwen2.5-VL-3B をファインチューニングすると、アーキテクチャの変更や追加データソースなしに、最も困難なタスクで劇的な性能向上が得られます。
WorkVeri 3V で 90.8% の相対的改善により、3B パラメータモデルが 53.8% を達成——Qwen3-VL-235B の 54.4% に匹敵し、それは 78 倍大きなモデルです。重要なことに、これらの改善はファインチューニング中に見ていない保留製品カテゴリにも汎化しており、単純な記憶ではなく真のドメイン適応であることを示しています。
FORGE は実世界の製造データから構築された細粒度マルチモーダルベンチマークを提供します——3 つの認知的に要求度の高いタスクにわたって 2D 画像と 3D 点群を組み合わせた 12,972 件のサンプルです。正確な型番アノテーションを提供し、製造自動化が実際に必要とする精密な推論について MLLM を評価する初のベンチマークです。
18 の最先端 MLLM の評価から明確な知見が得られています:現在のモデルはマクロスケールの部品認識は処理できますが、細粒度の推論と微細な表面分析では一貫して失敗します。視覚的位置特定は制限要因ではありません——ボトルネックは製造ドメイン知識と形態理解です。この知見は、コミュニティが将来のモデル開発でどこに投資すべきかの方向性を示すものです。
FORGE は価値ある訓練リソースでもあることが実証されています:FORGE でファインチューニングした 3B パラメータモデルは 78 倍大きなモデルに匹敵する性能を達成します。製造 AI が成熟するにつれて、真のドメイン専門知識を要求する FORGE のようなベンチマークが実際の進歩を測定・促進するために不可欠になるでしょう。