---
arxiv_id: 2603.26164
title: "DataFlex：大規模言語モデルのデータ中心動的学習のための統合フレームワーク"
authors:
  - Hao Liang
  - Zhengyang Zhao
  - Meiyi Qiang
  - Mingrui Chen
  - Lu Ma
  - Rongyi Yu
  - Hengyi Feng
  - Shixuan Sun
  - Zimo Meng
  - Xiaochen Ma
  - Xuanlin Yang
  - Qifeng Cai
  - Ruichuan An
  - Bohan Zeng
  - Zhen Hao Wong
  - Chengyu Shen
  - Runming He
  - Zhaoyang Han
  - Yaowei Zheng
  - Fangcheng Fu
  - Conghui He
  - Bin Cui
  - Zhiyu Li
  - Weinan E
  - Wentao Zhang
difficulty: Advanced
tags:
  - LLM
  - Training
  - Data Curation
  - Data Selection
  - Domain Mixture
  - LLaMA-Factory
published_at: 2026-03-27
flecto_url: https://flecto.zer0ai.dev/ja/papers/2603.26164/
lang: ja
---

## Html Page Title

### DataFlex：大規模言語モデルのデータ中心動的学習のための統合フレームワーク

## Html Meta Description

### DataFlexは、動的データ選択・ドメインミックス最適化・サンプル重み付けを単一のLLaMA-Factory互換フレームワークに統合し、再現性の高いスケーラブルなLLM学習を実現します。

## Small Badge In Hero Section

### arXiv 2603.26164 &middot; cs.AI &middot; 2026年3月

## Main Paper Title In Hero

### DataFlex：大規模言語モデルのデータ中心動的学習のための統合フレームワーク

## Author List In Hero

Hao Liang*, Zhengyang Zhao*, Meiyi Qiang*, Mingrui Chen*, Lu Ma, Rongyi Yu ほか 北京大学 / 上海人工知能研究院 / LLaMA-Factory チーム / OpenDCAI

## Key Claim / Tagline In Hero

### 1つのフレームワーク、3つのパラダイム。 DataFlexは動的データ選択・ドメインミックス・サンプル重み付けを統合し、標準的なLLM学習のドロップイン代替として機能します。

## Arxiv Button In Hero

### arXiv

## Github Button In Hero

### GitHub

## Alt Text For Thumbnail Image

### 3つのデータストリームがニューラルネットワークノードに収束する抽象的なイラスト。DataFlexの統合学習パラダイムを表現しています。

## Section Heading

### アブストラクト

### 3層アーキテクチャ

### 3つのデータ中心パラダイム

### YAMLドロップイン設定

### 実験結果：データ選択

### 実験結果：データミックス

### 実行時効率

### DataFlexが重要な理由

## Paper Abstract

データ中心学習は、モデルパラメータだけでなく 学習データの選択・構成・重み付け も最適化することで、大規模言語モデル（LLM）を改善する有望な方向性として注目されています。しかし既存手法は互換性のないコードベースに分散しており、再現性・公平な比較・実用的統合を阻んでいました。本論文では、LLaMA-Factory上に構築された統合データ中心動的学習フレームワーク DataFlex を提案します。DataFlexは 動的サンプル選択 ・ ドメインミックス調整 ・ サンプル重み付け の3大パラダイムをサポートし、 DeepSpeed ZeRO-3 を含む大規模設定にも対応しています。

## Sub Heading For Contribution Cards

### 主な貢献

## Card Title

### 統合インターフェース

### ドロップイン置換

### DeepSpeed ZeRO-3対応

### 安定したMMLU改善

## Card Body

### 互換性のない3つのデータ中心パラダイムを単一フレームワークに統合。

### YAMLの設定追加だけでLLaMA-Factoryに統合。学習コードの変更不要。

### DeepSpeed ZeRO-3およびFSDP分散学習に完全対応。大規模設定でも動作。

### Mistral-7BとLlama-3.2-3Bの双方でMMLU静的ベースラインを安定して上回ることを実験で確認。

## Alt Text For Architecture Diagram

DataFlexの3層アーキテクチャ：LLaMA-FactoryのBase Layer、Select/Mix/WeightトレーナーのTrainer Layer、プラガブルなアルゴリズムのComponent Layer

## Figure Caption

図2：DataFlexフレームワーク概要。(a) Base LayerはLLaMA-Factoryの基盤を継承。(b) Trainer Layerは3種類の統合トレーナーを導入。(c) Component Layerはプラガブルな戦略アルゴリズムを提供。

### 図5：DataFlexとTSDS元実装の実行時間比較。DataFlexは学習サンプル5Kから100K（左）、検証サンプル50から1,000（右）にスケールするにつれて安定した改善を実現。

## Description Below Architecture Figure

DataFlexは 3層構造 で設計されています： Base 層はLLaMA-Factoryのモデル管理・データ処理・オプティマイザをDeepSpeed/FSPDサポートと共に継承し、 Trainer 層は SelectTrainer ・ MixTrainer ・ WeightTrainer の3種統合トレーナーを提供し、 Component 層は差し替え可能なアルゴリズムモジュールを提供します。

## Flecto Note Heading

### データ中心学習とは？

### LLaMA-Factoryとは？

### なぜ動的データ選択が効果的なのか？

### DoReMiとは？なぜドメイン比率が重要なのか？

### DeepSpeed ZeRO-3とは？

## Flecto Note Body

従来のLLM学習は学習データを固定したまま モデルパラメータ を最適化します。データ中心学習はこの視点を逆転させ、 データパイプライン自体 を最適化の対象とします。現在のモデル状態において最も情報量の多いサンプルは何か？汎化を最大化するドメイン比率は？どの学習例により大きな勾配重みが必要か？DataFlexはこれら3つの問いを単一の学習ランの中で自動化します。

LLaMA-Factoryは大規模言語モデルの効率的なファインチューニングと事前学習のために広く使用されるオープンソースフレームワークです。分散学習・データセット読み込み・オプティマイザ設定のボイラープレートを抽象化し、LLaMA・Mistral・Qwen・Phiなど多数のモデルアーキテクチャをサポートします。DataFlexはLLaMA-Factoryのトレーナー基盤の上に直接構築され、その全機能を継承しつつデータ中心最適化層を追加します。

静的学習では、その学習ステップでの実際の有用性に関わらず、データセットのすべてのサンプルが均等にモデルに影響する機会を得ます。動的選択は現在のモデル状態を使って各サンプルの期待学習価値をスコアリングします。例えばサンプルに対するモデルの内部表現の変化量や勾配シグナルの大きさを測定します。有用性の高いサンプルはより頻繁に選択され、低いものはより少なく選択されます。これは学生がすでに知っているページを再読するのではなく、まだ習得していない問題に勉強時間をより多く集中するようなものです。

SlimPajamaのような言語モデル事前学習データセットは、ウィキペディア・GitHubコード・C4ウェブテキスト・書籍・ArXiv論文など複数のテキストドメインを組み合わせています。各学習バッチでの各ドメインの比率は重要なハイパーパラメータです。コードが多すぎるとモデルの自然言語能力が低下し、ウィキペディアが少なすぎると事実想起が損なわれます。DoReMi（Domain Reweighting with Minimax Optimization）は均一な比率で学習した参照モデルをベースラインとして使用し、メインモデルが最大の超過損失を持つドメインを上重みするよう学習します。これによりデータ量が少ないが重要なドメインがより多くの学習シグナルを得られます。ODM（Online Domain Mixing）は参照モデルなしで同様の適応的アプローチを実現します。

数十億パラメータを持つ大規模言語モデルの学習には、単一のアクセラレータが保持できる以上のGPUメモリが必要です。DeepSpeedのZeRO（Zero Redundancy Optimizer）アルゴリズムは、オプティマイザ状態・勾配・モデルパラメータをデバイス間でシャーディングすることでモデルを複数のGPUに分散します。ZeRO-3は最も積極的な分割で、3つすべてが分散され、単一のGPUには収まらないモデルをクラスタで効率的に学習できます。DataFlexのZeRO-3サポートにより、埋め込み抽出やモデル推論などの補助操作を必要とするデータ中心手法が現代のマルチGPU学習セットアップと完全に互換性を持ちます。

## Panel Title

### 動的サンプル選択

### ドメインミックス調整

### サンプル重み付け

## Panel Body

各ステップで最も情報量の多い学習サンプルを反復的に特定・選択します。DataFlexはLESS・TSDS・カスタムセレクタをサポートし、スコアリングとフィルタリングの統一インターフェースを共有します。

### 事前学習中にデータドメイン（例：SlimPajamaサブセット）のサンプリング比率を動的に調整します。DoReMiとODMが組み込みアルゴリズムとして利用可能です。

### モデル依存の品質シグナルに基づき、勾配更新時のサンプルごとの損失重みを割り当てます。プラガブルなweighterコンポーネントでカスタム戦略を実装できます。

## Alt Text For Config Figure

### LLaMA-Factoryの標準フィールドと並んで表示されたDataFlex DoReMi動的ミックス学習設定のYAMLスニペット

## Figure Caption For Config

### 図3：最小限のYAML設定 — 既存のLLaMA-Factory設定に ### dataflex ブロックを追加するだけで動的データ最適化が有効になります。

## Description For Config Section

DataFlexはLLaMA-Factory標準設定に追加するYAML設定ブロックで統合されます。 train_type ・ component_name ・コンポーネント固有のハイパーパラメータを設定するだけで動的データ最適化が有効になり、 学習コードの変更は不要 です。この例ではQwen2.5-0.5BのwikiとC4データセットへの事前学習にDoReMiドメインミックスを適用しています。

## Alt Text

### Mistral-7B（左）とLlama-3.2-3B（右）での動的データ選択手法のMMLU精度学習曲線。静的な全データ学習に対する安定した改善を示す。

### 学習データセットサイズ（5K-100Kサンプル）と検証データセットサイズ（50-1000サンプル）の増加に伴うDataFlexとTSDS元実装の実行時間（秒）を比較した2つの折れ線グラフ

## Caption For Results Figure

### 図4：動的データ選択手法と静的全データベースラインのMMLU精度学習曲線。両モデルで動的手法が安定して上回ることを示す。

## Description For Results Section

7種類の動的データ選択アルゴリズム の包括的な実験により、データ中心動的学習が静的ベースラインに対して測定可能な安定した改善をもたらすことが確認されました。7Bと3Bの両モデルスケールで改善が持続し、統合DataFlexインフラがスタンドアロン実装と比較して性能劣化を引き起こさないことを示しています。

## Alt Text For Mixture Results Table

### Qwen2.5-1.5BのDoReMiとODMデータミックス手法とデフォルト比率のMMLU精度とコーパスパープレキシティを6Bと30Bトークンスケールで比較した表

## Table Caption

表：SlimPajamaでQwen2.5-1.5Bを6Bおよび30Bトークンスケールで事前学習する際、DoReMiとODMはデフォルト比率よりもMMLU精度とコーパスレベルのパープレキシティの両方を改善します。

## Description For Mixture Results

ドメインミックス最適化において、 DoReMi と ODM の両方が SlimPajama データセットでQwen2.5-1.5Bを事前学習する際に固定デフォルト比率を上回ります。6Bから30Bトークンにスケールしても効果が持続し、実用的な事前学習スケールでのアプローチの有効性を実証しています。

## Description For Efficiency Section

複数のアルゴリズムを単一フレームワークに統合しているにもかかわらず、DataFlexは 実質的な計算オーバーヘッドを引き起こしません 。TSDS元実装との比較ベンチマークでは、DataFlexはすべてのデータセットスケールでスタンドアロンの実行時間と同等か優れた結果を示しています。統合抽象化層はアルゴリズムごとのセットアップコストを分散させ、コンポーネント間でのバッファ再利用を可能にすることで、観察された効率改善をもたらします。

## Conclusion Paragraph

データ中心学習は、データ品質と構成をモデルパラメータと並ぶ第一級の最適化ターゲットとして扱う新興パラダイムです。DataFlexは、この分野を阻んできた断片化（互換性のない実装を公開する異なるグループ）を取り除き、コミュニティが構築できる 再現性の高い拡張可能なプラットフォーム を提供します。LLaMA-Factoryの本番品質のインフラ上に構築されたDataFlexは、研究と実用的なLLM学習パイプラインの両方に対応しています。

## Takeaways Card Title

### 主なまとめ

## Bullet Point

### DataFlexは動的データ選択・ドメインミックス・サンプル重み付けを単一のLLaMA-Factory互換インターフェースに統合する最初のフレームワークです。

動的データ選択はMistral-7BとLlama-3.2-3Bの両方でMMLUにおいて静的全データ学習を安定して上回ります。「何を学習するか」は「どのように学習するか」と同じくらい重要であることを確認しました。

### DoReMiとODMドメインミックス手法は6Bと30Bトークンスケールの両方で精度とパープレキシティを改善します。効果はスケール依存ではありません。

### 統合は実行時オーバーヘッドを引き起こしません。DataFlexはベンチマークでスタンドアロン元実装と同等か優れた性能を示します。

## Bibtex Citation

@article{liang2026dataflex, title = {DataFlex: A Unified Framework for Data-Centric Dynamic Training of Large Language Models}, author = {Liang, Hao and Zhao, Zhengyang and Qiang, Meiyi and Chen, Mingrui and others}, journal = {arXiv preprint arXiv:2603.26164}, year = {2026} }

## Footer Heading For Links

### リンク

## Footer Acknowledgement

### HTMLは Flecto によって生成されました。コンテンツは元論文に基づいています。すべての図表は著者のものです。