技術レポート

EXAONE 4.5 技術レポート

LG初の、産業用インテリジェンス向けオープンウェイトのビジョン・ランゲージモデル.

🏢 LG AI Research 📅 2026年4月 ⬆ 49件の賛同 cs.AI · cs.CL

EXAONE 4.5は、LG AI Researchが開発した、最初のオープンソースのビジョン・ランゲージモデルです。このモデルは、強力なEXAONE 4.0言語モデルに、カスタムで構築された12億パラメータのビジュアルエンコーダーを統合することで実現されました。産業分野での応用を重視し、文書中心のデータセットでトレーニングされており、文書理解と韓国語の推論において最先端の結果を達成しています。また、6つの言語に対応し、256Kトークンの巨大なコンテキストウィンドウをサポートしています。

arXivで読む ↗ View on GitHub ↗ GitHub での表示 ↗

🌐 多言語対応 × 6 このドキュメントは、プロジェクトXの初期段階における主要な決定事項と戦略をまとめたものです。本ドキュメントの目的は、プロジェクトXに関わるすべての関係者、特に開発チーム、マーケティングチーム、および経営陣が、プロジェクトの全体像を理解し、共通の目標に向かって協力することを促進することです。 プロジェクトXは、新しい市場セグメントを開拓し、収益を向上させることを目的とした、_革新的な製品です。本プロジェクトは、CEOであるJohn Smithのリーダーシップの下、CTOであるJane Doeが技術的な側面を担当し、マーケティングディレクターであるDavid Leeがマーケティング戦略を主導します。 プロジェクトXの成功には、チームワークとコミュニケーションが不可欠です。本ドキュメントが、そのための基礎となることを願っています。 🔍 Document AI 🇰🇷 韓国 SOTA

導入

EXAONEの基盤モデルは、現実世界の産業環境における複雑で高度な課題に対応するために、継続的に開発されています。以前のバージョンでは、金融、法律、バイオメディカル研究、化学プロセス工学など、さまざまな分野におけるドメイン固有の理解において、優れた能力が確立されました。EXAONE 4.0のハイブリッド推論アーキテクチャを基に、EXAONE 4.5は次の大きな進化を遂げました。それは、ネイティブな視覚認識機能を追加したことです。

EXAONE 4.5 は、堅牢な EXAONE 4.0 の 32B 基本モデルに、カスタムで構築された 1.2B パラメータのビジョンエンコーダを統合しています。これにより、システムはテキスト、画像、ドキュメントをシームレスに処理できるようになり、複雑なドキュメント、グラフ、および図を理解することが重要な、新しい産業分野での応用を可能にします。

このモデルは、韓国語、英語、スペイン語、ドイツ語、日本語、ベトナム語の6つの言語をサポートしており、コンテキスト長を最大256Kトークンまで拡張できます。これは、複数の言語とモダリティにわたる長文ドキュメントの推論が重要な要件となる、企業環境での実用的な展開を目的として設計されています。

33B

パラメータ

言語.

256K

以下に翻訳されたテキストを示します。以下のテキストを日本語に翻訳してください。固有名詞、人名、所属、組織名は原文のままにして、HTMLタグはそのまま保持してください。Markdownへの変換は行わないでください。 Context Window

モデルのアーキテクチャとトレーニング

モデル構成

EXAONE 4.5は、画像とテキストを組み合わせたモデルにおける、主要な課題である、大量の視覚トークンとテキストを効率的に処理するという問題に対処します。計算効率を維持するために、開発チームはハイブリッドな注意機構と、ビジョンエンコーダー自体に適用されるグループクエリアテンション（GQA）を採用しました。これは革新的な選択であり、推論時のKVキャッシュメモリのフットプリントを大幅に削減します。このビジョンエンコーダーは、既存のエンコーダーがLGの拡張性と効率の要件を満たしていなかったため、1.2Bパラメータのモデルとしてゼロからトレーニングされました。また、このモデルは、画像をリサイズせずに、そのネイティブ解像度で処理するために、2Dロータリーポジショニング埋め込み（2D RoPE）を使用しており、文書理解において重要な空間関係を維持します。

GQA（グループクエリアテンション）とは？

従来のTransformerアテンションでは、各アテンションヘッドごとに個別のKey-Value (KV)キャッシュを保持する必要があります。これは、大規模モデルでは膨大なメモリを消費します。グループクエリアテンション（GQA）は、複数のクエリヘッドをまとめて、1つのKVキャッシュペアを共有することで、メモリ使用量を大幅に削減し、わずかな精度損失で実現します。

なぜこれはEXAONE 4.5にとって重要なのか？ GQAをビジョンエンコーダに適用することは、非常に珍しく、革新的なアプローチです。画像は数千の視覚トークンを生成するため、KVキャッシュのサイズを小さく保つことは、実際のハードウェア上でモデルを効率的に実行するために不可欠です。

EXAONE 4.5 Architecture Diagram — **図1:** EXAONE 4.5 アーキテクチャ — 専用の視覚エンコーダ (1.2B パラメータ) が、ネイティブ解像度の画像を処理し、視覚トークンを EXAONE 4.0 言語デコーダ (32B パラメータ) に入力します。このシステムは、複数画像入力とビデオに対応しています。

2D RoPE (2D Rotary Positional Embedding) は、各視覚的なパッチが2次元画像グリッドのどこに位置しているかをエンコードする方法です。これは、順序を前提とする標準的な1次元の位置エンコーディングとは異なります。これにより、モデルは歪みなしに、あらゆる解像度の画像を処理できます。これは、テキストのレイアウトが意味を持つスキャンされたドキュメントを読む上で不可欠です。

事前学習

マルチモーダル事前学習は、2つの段階で進められます。第1段階では、大規模な視覚-言語アライメントに焦点を当て、8Kのシーケンス長で、4200億個の画像トークンと4000億個のテキストトークンを用いて学習を行います。第2段階では、高品質なデータを用いて、より小規模なスケール（2250億個の画像トークン、1100億個のテキストトークン）で微調整を行います。この際、第1段階と比較して、FLOPsは6.43×10²²であり、第1段階の1.57×10²³よりも小さい値となります。事前学習に使用されるデータには、画像キャプション（韓国語-英語バイリンガル）、画像とテキストが交互に記述されたドキュメント、OCR/ドキュメントコーパス（LGのドキュメント中心のアプローチにとって重要）、および時間的な理解のためのビデオデータが含まれます。

トレーニングにおけるFLOPsの理解

FLOPs (浮動小数点演算) は、トレーニング中に使用される総計算量を測定します。ステージ1では1.57×10²³のFLOPsが必要となり、これは、単一の高性能GPUが約5,000年かけて計算するのに相当します。そのため、LLMのトレーニングには、数十台のGPUを並列で稼働させ、数週間かかるのです。

ステージ2のスケールダウン（6.43×10²² FLOPs）は、優れたベースモデルを改良するには、最初から構築するよりもはるかに少ない計算量で済むことを反映しています。

Training Stages Comparison Table — **表1：** 2段階の事前学習構成 — 1段階目では、広範な視覚-言語の整合性を確立し、2段階目では、計算リソースを削減しながら、高品質なデータを用いて精度を向上させます。

コンテキスト長拡張

EXAONE 4.5は、コンテキストのサイズを256Kトークンまで拡張します。これは、長さの拡張を、別個の事前学習段階としてではなく、教師ありのファインチューニング段階に直接統合することで実現されています。すでに128Kトークンの処理が可能なベースモデルを使用することで、安定性と高速な収束が実現されます。コンテキスト並列処理により、256Kの長さを持つシーケンスを複数のGPUに分散し、メモリ要件を管理可能な範囲に保ちます。これは、長文の法的文書、技術マニュアル、または複数ページの財務報告書など、産業用途における大規模なデータ処理において特に重要です。

なぜ256Kのコンテキストウィンドウが重要なのか？

多くの言語モデルは、4K～32Kトークンで制限されています。256Kのコンテキストウィンドウとは、モデルが一度に約200,000語を処理できることを意味します。これは、3～4冊の長編小説、またはすべての付録を含む長い法的契約書に相当します。

エンタープライズ向けドキュメントAIにとって、これは画期的なものです。金融アナリストは、完全な四半期報告書（注釈付き）を読み込ませることができます。法務チームは、完全な契約書を処理できます。エンジニアは、複数の章からなる技術マニュアルを理解できます。これらはすべて、テキストを分割したり、コンテキストを失ったりすることなく可能です。

トレーニング後

Supervised Fine-Tuning (SFT)

公的なデータセットだけに依存するのではなく、チームは、複数のドメインとモダリティをカバーする高品質なSFTデータセットを構築しました。これには、金融、法律、科学、および韓国語タスクに関するドメイン固有の指示データ、およびドキュメントQ&A、チャート理解、OCRタスクに関するマルチモーダルな指示データが含まれます。

Offline Preference Optimization

オフラインでの好みの最適化は、Direct Preference Optimization (DPO) を用いた多段階フレームワークで実行されます。各段階は、特定の能力を対象としています。具体的には、指示の理解、ドキュメントの理解、そして多言語対応です。DPOの損失関数は、参照モデルからの低品質な代替応答よりも、高品質な応答をモデルが優先するように促します。

Direct Preference Optimization (DPO) の解説

論文に記載されている DPO の式は複雑に見えますが、基本的な考え方はシンプルです。モデルが、応答のペアを比較することで、より良い回答を好むように学習させるというものです。

各トレーニングデータにおいて、モデルはプロンプト x、良い回答 y⁺（人間の評価者によって好まれる）、および悪い回答 y⁻（却下される）を見ます。モデルは、参照モデルと比較して、y⁺を生成する確率を高くし、y⁻を生成する確率を低くするように学習します。これにより、従来の RLHF とは異なり、別の報酬モデルを必要とせず、トレーニングをより安定させ、効率的に行うことができます。

Reinforcement Learning (RL)

ジョイントなマルチモーダル強化学習が、テキストとビジョンという両方のモダリティに適用されます。テキストデータは、数学的推論、コーディング、科学の問題を扱います。ビジョンデータは、図の理解、グラフに関する質疑応答、および文書解釈に焦点を当てています。強化学習は、モデルが様々な入力タイプに対して汎化する堅牢な推論能力を開発するのに役立ちます。

評価結果

EXAONE 4.5は、包括的なビジョンと言語のベンチマークを用いて評価され、GPT-4.5 mini、Qwen3.5-VL-32B、およびQwen3.5-72Bといった主要なモデルと比較されています。ベンチマークは、以下の4つのビジョンカテゴリ（STEM/パズル、ドキュメント理解、一般、韓国語）と、以下の4つの言語カテゴリ（推論、長文コンテキスト、多言語対応、韓国語）をカバーしています。

ビジョンベンチマーク

EXAONE 4.5は、ビジョンベンチマークにおいて、競争力があり、バランスの取れたパフォーマンスを発揮します。特に、ドキュメント理解の分野で優れた結果を示しており、ChartQAPROやCharXivといった、グラフやドキュメントを中心としたタスクにおいて、同規模のモデルを上回る性能を発揮します。このモデルは、専門的なドキュメント学習パイプラインと、ネイティブ解像度のビジュアルエンコーダを備えており、実世界のドキュメントAIタスクにおいて、明確な優位性を持っています。

Vision Benchmark Results Table — **表2:** ビジョンベンチマーク結果 — EXAONE 4.5 33B と GPT-4.5 mini、Qwen3.5-VL-32B-A22B、および Qwen3.5-72B を、STEM、ドキュメント理解、一般、および韓国語のカテゴリで比較。

71.7
ChartQAPRO スコア

92.1
KMMLU (韓国語)

95.0
CCSum 長文コンテキスト

言語ベンチマーク

言語ベンチマークにおいて、EXAONE 4.5 の最大の強みは、推論能力、長文コンテキストの理解、および韓国語処理にあります。 IF-Eval（指示に従う能力）で91.0、CCSum（68Kのコンテキストを持つ長文の要約）で95.0、そしてKMMLU（韓国語の理解）で92.1というスコアを達成しています。これらの結果は、EXAONE が得意とする、ドキュメント中心のエンタープライズグレードのタスクにおけるモデルの深い専門知識を反映しています。

Language Benchmark Results Table — **表3: 言語ベンチマークの結果 - 推論、長文コンテキスト理解、多言語性 (WMT25)、および韓国語 (KMMLU, ReleKA) のカテゴリ。**

なぜEXAONE 4.5は韓国語において優れた性能を発揮するのか？

それは偶然ではありません。LG AI Researchは、EXAONEの韓国語の性能を向上させるために、トレーニングパイプラインに特別な工夫を施しました。韓国語は、AIにとって特に難しい言語です。なぜなら、韓国語は膠着語（接尾辞を組み合わせて単語を形成する言語）、複雑な敬語体系を持ち、英語と比較して公開されているトレーニングデータが限られているからです。

EXAONEの92.1というKMMLUスコア（競合製品のスコアが通常70台から80台であるのに対し）は、LGが意図的に大規模な韓国語の産業用文書、韓国語のOCRコーパス、そして韓国語と英語のバイリンガルデータを、トレーニングのあらゆる段階で組み込んだ結果です。

制約事項

EXAONE 4.5のような大規模なマルチモーダルモデルは、制限があり、時折、不正確または不適切な応答を生成する可能性があります。このモデルは、韓国語に特化しているため、6つの言語をサポートする多言語機能は、すべての非韓国語に対して均一に強力であるとは限りません。

ドキュメントの理解能力は、特に韓国語および英語のドキュメントにおいて優れており、これは学習データの分布を反映しています。このモデルの産業分野への重点が、創造性や自由度を重視したタスクにおける性能を、そのような用途に最適化されたモデルと比較して制限する可能性があります。ユーザーは、本番環境への展開前に、EXAONE 4.5を特定のドメインにおいて慎重に評価する必要があります。

デプロイメントと可用性

EXAONE 4.5は、EXAONE AI Model License Agreement 1.2 – NC (非商用) の下で、オープンウェイトモデルとしてリリースされました。モデルの重みはHuggingFaceにホストされており、参照コードはGitHubで利用可能です。このモデルは、長文コンテキスト（256Kトークン）のワークロードに対応した、実用的な産業用途での展開を想定して設計されています。商用ライセンスについては、論文の付録に記載されている公式のライセンスドキュメントをご参照ください。

🤗 HuggingFaceでダウンロード ↗ 📦 GitHubでコードを見る ↗

結論

EXAONE 4.5は、EXAONEモデルシリーズにおける重要な進歩であり、LG AI Researchが初めて公開する、画像とテキストを組み合わせたモデルです。カスタムで構築された12億パラメータの画像エンコーダーと、EXAONE 4.0の強力なテキストデコーダーを統合することで、このモデルは、特に産業分野の文書処理に重点を置いたアプリケーションにおいて、画像認識とテキスト理解のバランスを最適化しています。

主な技術的な貢献には、効率化のためのGQAベースのビジョンエンコーダ設計、ネイティブ解像度の画像処理のための2D RoPE、生成能力の向上を実現するMTP（Multi-Token Prediction）モジュール、および256Kトークンのウィンドウを可能にするコンテキスト並列処理が含まれます。評価の結果、これらの選択が有効であることが確認され、EXAONE 4.5は、韓国語の推論において新たな基準を確立し、330億パラメータ規模において優れた文書理解性能を発揮しました。

ビジョン・言語統合 (Vision-Language Integration)

LG社が開発した、初のオープンウェイトのVLM（Visual Language Model）。1.2Bのビジュアルエンコーダーと、EXAONE 4.0の32Bの言語デコーダーを組み合わせ、ネイティブなマルチモーダル推論を実現します。

産業ドキュメントに特化

ドキュメント中心のトレーニングパイプラインは、実際のドキュメントAIタスクにおいて優れたパフォーマンスを発揮します。具体的には、グラフQ&A、OCR、長文ドキュメントの要約などが挙げられます。

韓国語の卓越性

92.1のKMMLUスコアは、EXAONE 4.5が韓国語の産業用途において優れたモデルであることを示しており、これはLGの企業顧客にとって重要な差別要因となっています。