---
arxiv_id: 2604.08644
title: "EXAONE 4.5 技術レポート | Flecto"
authors:
  - LG AI Research
difficulty: Intermediate
tags:
  - Vision-Language
  - LLM
  - Multimodal
published_at: 2026-04-09
flecto_url: https://flecto.zer0ai.dev/ja/papers/2604.08644/
lang: ja
---

> EXAONE 4.5 技術レポート

**著者**: LG初の、産業用インテリジェンス向けオープンウェイトのビジョン・ランゲージモデル.

## Introduction

EXAONEの基盤モデルは、現実世界の産業環境における複雑で高度な課題に対応するために、継続的に開発されています。以前のバージョンでは、金融、法律、バイオメディカル研究、化学プロセス工学など、さまざまな分野におけるドメイン固有の理解において、優れた能力が確立されました。EXAONE 4.0のハイブリッド推論アーキテクチャを基に、EXAONE 4.5は次の大きな進化を遂げました。それは、ネイティブな視覚認識機能を追加したことです。

EXAONE 4.5 は、堅牢な EXAONE 4.0 の 32B 基本モデルに、カスタムで構築された 1.2B パラメータのビジョンエンコーダを統合しています。これにより、システムはテキスト、画像、ドキュメントをシームレスに処理できるようになり、複雑なドキュメント、グラフ、および図を理解することが重要な、新しい産業分野での応用を可能にします。

このモデルは、韓国語、英語、スペイン語、ドイツ語、日本語、ベトナム語の6つの言語をサポートしており、コンテキスト長を最大256Kトークンまで拡張できます。これは、複数の言語とモダリティにわたる長文ドキュメントの推論が重要な要件となる、企業環境での実用的な展開を目的として設計されています。

### パラメータ

### 33B

### 言語.

以下に翻訳されたテキストを示します。 以下のテキストを日本語に翻訳してください。固有名詞、人名、所属、組織名は原文のままにして、HTMLタグはそのまま保持してください。Markdownへの変換は行わないでください。 Context Window

### 256K

## Conclusion

EXAONE 4.5は、EXAONEモデルシリーズにおける重要な進歩であり、LG AI Researchが初めて公開する、画像とテキストを組み合わせたモデルです。カスタムで構築された12億パラメータの画像エンコーダーと、EXAONE 4.0の強力なテキストデコーダーを統合することで、このモデルは、特に産業分野の文書処理に重点を置いたアプリケーションにおいて、画像認識とテキスト理解のバランスを最適化しています。

主な技術的な貢献には、効率化のためのGQAベースのビジョンエンコーダ設計、ネイティブ解像度の画像処理のための2D RoPE、生成能力の向上を実現するMTP（Multi-Token Prediction）モジュール、および256Kトークンのウィンドウを可能にするコンテキスト並列処理が含まれます。評価の結果、これらの選択が有効であることが確認され、EXAONE 4.5は、韓国語の推論において新たな基準を確立し、330億パラメータ規模において優れた文書理解性能を発揮しました。

### ビジョン・言語統合 (Vision-Language Integration)

LG社が開発した、初のオープンウェイトのVLM（Visual Language Model）。1.2Bのビジュアルエンコーダーと、EXAONE 4.0の32Bの言語デコーダーを組み合わせ、ネイティブなマルチモーダル推論を実現します。

### 産業ドキュメントに特化

### ドキュメント中心のトレーニングパイプラインは、実際のドキュメントAIタスクにおいて優れたパフォーマンスを発揮します。具体的には、グラフQ&A、OCR、長文ドキュメントの要約などが挙げられます。

### 韓国語の卓越性

### 92.1のKMMLUスコアは、EXAONE 4.5が韓国語の産業用途において優れたモデルであることを示しており、これはLGの企業顧客にとって重要な差別要因となっています。

## Head

### EXAONE 4.5 技術レポート | Flecto

## Meta

### EXAONE 4.5 技術レポート

EXAONE 4.5は、LG AI Researchが開発した最初のオープンソースのビジョン・ランゲージモデルであり、1.2Bの視覚エンコーダーとEXAONE 4.0を組み合わせることで、文書理解、多言語推論、および256Kトークンのコンテキストを実現します。

EXAONE 4.5は、LG AI Researchが開発した初のオープンウェイトのビジョン・ランゲージモデルであり、1.2BのビジュアルエンコーダとEXAONE 4.0を組み合わせることで、ドキュメント理解、多言語推論、および256Kトークンのコンテキストを実現します。

### https://flecto.zer0ai.dev/ja/papers/2604.08644/

### ja_JP

### https://flecto.zer0ai.dev/ja/papers/2604.08644/

## Modeling

### モデルのアーキテクチャとトレーニング

### モデル構成

EXAONE 4.5は、画像とテキストを組み合わせたモデルにおける、主要な課題である、大量の視覚トークンとテキストを効率的に処理するという問題に対処します。計算効率を維持するために、開発チームはハイブリッドな注意機構と、ビジョンエンコーダー自体に適用されるグループクエリアテンション（GQA）を採用しました。これは革新的な選択であり、推論時のKVキャッシュメモリのフットプリントを大幅に削減します。このビジョンエンコーダーは、既存のエンコーダーがLGの拡張性と効率の要件を満たしていなかったため、1.2Bパラメータのモデルとしてゼロからトレーニングされました。また、このモデルは、画像をリサイズせずに、そのネイティブ解像度で処理するために、2Dロータリーポジショニング埋め込み（2D RoPE）を使用しており、文書理解において重要な空間関係を維持します。

図1: EXAONE 4.5 アーキテクチャ — 専用の視覚エンコーダ (1.2B パラメータ) が、ネイティブ解像度の画像を処理し、視覚トークンを EXAONE 4.0 言語デコーダ (32B パラメータ) に入力します。このシステムは、複数画像入力とビデオに対応しています。

### 事前学習

マルチモーダル事前学習は、2つの段階で進められます。第1段階では、大規模な視覚-言語アライメントに焦点を当て、8Kのシーケンス長で、4200億個の画像トークンと4000億個のテキストトークンを用いて学習を行います。第2段階では、高品質なデータを用いて、より小規模なスケール（2250億個の画像トークン、1100億個のテキストトークン）で微調整を行います。この際、第1段階と比較して、FLOPsは6.43×10²²であり、第1段階の1.57×10²³よりも小さい値となります。事前学習に使用されるデータには、画像キャプション（韓国語-英語バイリンガル）、画像とテキストが交互に記述されたドキュメント、OCR/ドキュメントコーパス（LGのドキュメント中心のアプローチにとって重要）、および時間的な理解のためのビデオデータが含まれます。

### 表1： 2段階の事前学習構成 — 1段階目では、広範な視覚-言語の整合性を確立し、2段階目では、計算リソースを削減しながら、高品質なデータを用いて精度を向上させます。

### コンテキスト長拡張

EXAONE 4.5は、コンテキストのサイズを256Kトークンまで拡張します。これは、長さの拡張を、別個の事前学習段階としてではなく、教師ありのファインチューニング段階に直接統合することで実現されています。すでに128Kトークンの処理が可能なベースモデルを使用することで、安定性と高速な収束が実現されます。コンテキスト並列処理により、256Kの長さを持つシーケンスを複数のGPUに分散し、メモリ要件を管理可能な範囲に保ちます。これは、長文の法的文書、技術マニュアル、または複数ページの財務報告書など、産業用途における大規模なデータ処理において特に重要です。

### トレーニング後

公的なデータセットだけに依存するのではなく、チームは、複数のドメインとモダリティをカバーする高品質なSFTデータセットを構築しました。これには、金融、法律、科学、および韓国語タスクに関するドメイン固有の指示データ、およびドキュメントQ&A、チャート理解、OCRタスクに関するマルチモーダルな指示データが含まれます。

オフラインでの好みの最適化は、Direct Preference Optimization (DPO) を用いた多段階フレームワークで実行されます。各段階は、特定の能力を対象としています。具体的には、指示の理解、ドキュメントの理解、そして多言語対応です。DPOの損失関数は、参照モデルからの低品質な代替応答よりも、高品質な応答をモデルが優先するように促します。

ジョイントなマルチモーダル強化学習が、テキストとビジョンという両方のモダリティに適用されます。テキストデータは、数学的推論、コーディング、科学の問題を扱います。ビジョンデータは、図の理解、グラフに関する質疑応答、および文書解釈に焦点を当てています。強化学習は、モデルが様々な入力タイプに対して汎化する堅牢な推論能力を開発するのに役立ちます。

## Evaluation

### 評価結果

EXAONE 4.5は、包括的なビジョンと言語のベンチマークを用いて評価され、GPT-4.5 mini、Qwen3.5-VL-32B、およびQwen3.5-72Bといった主要なモデルと比較されています。ベンチマークは、以下の4つのビジョンカテゴリ（STEM/パズル、ドキュメント理解、一般、韓国語）と、以下の4つの言語カテゴリ（推論、長文コンテキスト、多言語対応、韓国語）をカバーしています。

### ビジョンベンチマーク

EXAONE 4.5は、ビジョンベンチマークにおいて、競争力があり、バランスの取れたパフォーマンスを発揮します。特に、ドキュメント理解の分野で優れた結果を示しており、ChartQAPROやCharXivといった、グラフやドキュメントを中心としたタスクにおいて、同規模のモデルを上回る性能を発揮します。このモデルは、専門的なドキュメント学習パイプラインと、ネイティブ解像度のビジュアルエンコーダを備えており、実世界のドキュメントAIタスクにおいて、明確な優位性を持っています。

表2: ビジョンベンチマーク結果 — EXAONE 4.5 33B と GPT-4.5 mini、Qwen3.5-VL-32B-A22B、および Qwen3.5-72B を、STEM、ドキュメント理解、一般、および韓国語のカテゴリで比較。

### ChartQAPRO スコア

### 71.7

### KMMLU (韓国語)

### 92.1

### CCSum 長文コンテキスト

### 95.0

### 言語ベンチマーク

言語ベンチマークにおいて、EXAONE 4.5 の最大の強みは、推論能力、長文コンテキストの理解、および韓国語処理にあります。 IF-Eval（指示に従う能力）で91.0、CCSum（68Kのコンテキストを持つ長文の要約）で95.0、そしてKMMLU（韓国語の理解）で92.1というスコアを達成しています。 これらの結果は、EXAONE が得意とする、ドキュメント中心のエンタープライズグレードのタスクにおけるモデルの深い専門知識を反映しています。

### 表3: 言語ベンチマークの結果 - 推論、長文コンテキスト理解、多言語性 (WMT25)、および韓国語 (KMMLU, ReleKA) のカテゴリ。

## Limitations

### 制約事項

EXAONE 4.5のような大規模なマルチモーダルモデルは、制限があり、時折、不正確または不適切な応答を生成する可能性があります。このモデルは、韓国語に特化しているため、6つの言語をサポートする多言語機能は、すべての非韓国語に対して均一に強力であるとは限りません。

ドキュメントの理解能力は、特に韓国語および英語のドキュメントにおいて優れており、これは学習データの分布を反映しています。このモデルの産業分野への重点が、創造性や自由度を重視したタスクにおける性能を、そのような用途に最適化されたモデルと比較して制限する可能性があります。ユーザーは、本番環境への展開前に、EXAONE 4.5を特定のドメインにおいて慎重に評価する必要があります。

## Deployment

### デプロイメントと可用性

EXAONE 4.5は、EXAONE AI Model License Agreement 1.2 – NC (非商用) の下で、オープンウェイトモデルとしてリリースされました。モデルの重みはHuggingFaceにホストされており、参照コードはGitHubで利用可能です。このモデルは、長文コンテキスト（256Kトークン）のワークロードに対応した、実用的な産業用途での展開を想定して設計されています。商用ライセンスについては、論文の付録に記載されている公式のライセンスドキュメントをご参照ください。

### 🤗 HuggingFaceでダウンロード ↗

### 📦 GitHubでコードを見る ↗

## Footer

### EXAONE 4.5 技術レポート · LG AI Research · 2026年4月 · arXiv:2604.08644 · ← Flectoに戻る
