Adam's Law: LLMにおけるテキスト頻度則

主要結果の概要

高頻度のプロンプティングは、テストされたすべてのモデル（GSM8Kベンチマーク）において、数学的な推論の精度を向上させます。

DeepSeek-V3

数学的推論 (GSM8K)

63.55% → 71.54%

+7.99 pts

高頻度の言い換えによって、モデルの変更なしに数学の精度を向上させることができます。

GPT-4o-mini

数学的推論 (GSM8K)

60.70% → 68.70%

+8.00 pts

クローズドソースモデルにおいて、一貫した性能向上が確認されました。

LLaMA3.3-70B

数学的推論 (GSM8K)

80.49% → 88.75%

+8.26 pts

オープンソースのモデルは、特に頻度を考慮したプロンプティングから大きな恩恵を受ける。

概要

テキストの出現頻度が、読書速度における人間の認知において関連性を持つことは検証されていますが、大規模言語モデル (LLMs) との関係については、ほとんど研究されていません。本研究では、テキストの出現頻度が LLMs に与える影響を調査する、新たな研究の方向性を提案します。その概念を テキスト頻度則 (TFL) と名付けます。TFL は、意味が同一である場合、LLMs は、文レベルの出現頻度が低いデータよりも、高いデータを使用する方が、プロンプティングおよびファインチューニングの両方において有利であるという考えを示唆しています。我々は、TFL を、数学的推論、機械翻訳、常識的推論、およびツール呼び出しという 4 つのタスクで検証しました。さらに、出現頻度の推定をさらに向上させるための テキスト頻度蒸留 (TFD) と、文レベルの出現頻度の順に LLMs をファインチューニングする カリキュラムテキスト頻度トレーニング (CTFT) を提案します。

はじめに - なぜ周波数が重要なのか

大規模言語モデル（LLM）は、自然言語処理（NLP）に革命をもたらし、推論、翻訳、コーディングにおいて優れた性能を発揮しています。トレーニングデータの品質が重要であることは広く知られていますが、具体的にどの側面が重要なのでしょうか？本論文では、新たな疑問を提起します。2つの言い換え表現が同じ意味を持つ場合、より一般的に使用される言い回しが、LLMの性能向上につながるのでしょうか？

人間の認知に関する研究（高頻度語彙は脳内でより速く処理されるという研究）に触発され、著者らは、同様の現象がLLM（大規模言語モデル）にも当てはまると提案しています。高頻度の表現は、意味内容が同一であっても、常にモデルの性能向上につながることが示されています。

人間の言語処理とLLM（大規模言語モデル）の挙動との関連性は、これらのモデルが学習中にどのように言語を内面化するかの基本的な特性を示唆しています。その意味するところは、ユーザーや開発者は、より一般的な表現を選択するだけで、追加のコストなしにLLMの出力品質を向上させることができるということです。

三つの貢献

テキスト頻度則 (TFL): 意味が等しい場合、プロンプト作成とファインチューニングの両方において、より頻繁に使用される表現を優先する。
Textual Frequency Distillation (TFD): LLMによって生成されたストーリーの補完を利用して、オフラインでの頻度推定を向上させ、ウェブコーパスの頻度とLLM内部の頻度のギャップを埋めます。
カリキュラムテキスト頻度学習 (CTFT): LLM (大規模言語モデル) を、昇順の頻度順に調整します。まず、多様な低頻度な例から学習し、次に高頻度な例で強化します。

Framework overview diagram — 図1：フレームワークの概要。上部：高頻度リフレーザーは、一般的な言い換えを選択します。中央：精度-頻度曲線は、TFLの原則を示しています。下部：低頻度入力と高頻度入力における翻訳品質の比較。

提案アプローチ

Textual Frequency Framework は、以下の 3 つの構成要素から構成されています：TFL、TFD、および CTFT。

01

テキスト頻度則 (Textual Frequency Law, TFL)

与えられた言い換えの集合 P（すべて同じ意味を持つもの）の中で、TFLは、文レベルでの出現頻度が最も高いものを選択します。これは、単語レベルの出現頻度の幾何平均として計算されます。この計算には、LLMの実際のトレーニングデータへのアクセスは必要ありません。

選択の目的:

$$\text{argmax}_{x \in P} \; s_{\text{freq}}(x, D)$$

「言い換えのargmax」とは、平易な言葉でどういう意味ですか？

この式は、テキストの出現頻度スコア s_freq を最大化する言い換えを選択します。実際には、これは次を意味します。入力テキストを言い換えることができるすべての方法の中で、モデルは、LLM がトレーニング中に見たテキストの中で、その単語が 最も多く 登場する言い換えを選択します。

なぜこれが役立つのか？ LLM は、高頻度テキストに対して統計的により正確に調整されています。なぜなら、LLM はそのテキストの例をより多く見ており、内部表現がより強固だからです。モデルに最も頻繁に出現する言い換えを与えることは、モデルが最もよく知っている言語で話しているようなものです。

文単位の頻度を、単語の頻度の幾何平均で算出します。

$$s_{\text{freq}}(x, D) = \left(\prod_{k=1}^{K} w_{\text{freq}}(x_k, D)\right)^{1/K}$$

単語の出現頻度の幾何平均 — シンプルな直感

s_freq(x) は、テキスト内の個々の単語の出現頻度の幾何平均です。なぜ幾何平均ではなく算術平均なのか？幾何平均は、非常に一般的な単語（例：「the」）がスコアを支配することを防ぎます。すべての単語が乗算的に寄与するため、スコアはモデルにとって、そのフレーズ全体がどの程度一様に馴染みがあるかを示しており、単に人気のある単語が含まれているかどうかだけではありません。

単語の出現頻度は、Zipf-scale WordFreq ライブラリを使用して推定されます。このライブラリは無料で利用可能であり、LLMのトレーニングデータは不要です。これにより、TFLはあらゆるユーザーやアプリケーションにとって実用的です。

02

テキスト周波数蒸留 (Textual Frequency Distillation, TFD)

ウェブコーパスからのオフライン頻度は、LLMが学習中に獲得した知識を完全に反映するものではありません。TFDは、このギャップを埋めます。LLM自体に、各学習文に基づいて物語を完成させるように指示し、「蒸留」された頻度推定値F₂を作成します。このF₂は、LLM内部の頻度をより正確に反映します。

オフラインの頻度 ≠ LLM内部の頻度

オフラインの頻度とは、単に静的なコーパス（例：Wikipedia）における単語の出現回数です。しかし、LLMが学習する際には、その統計情報が圧縮および再重み付けされます。最終的なモデルでは、比較的よく使われる単語が非常に重要であると見なされたり、技術的に頻繁に使われる単語がノイズと見なされたりする可能性があります。

TFDは、生のコーパスをバイパスし、モデル自身の出力確率を使用して、モデル自身が頻繁とみなすものを測定します。これにより、頻度の信号が、LLMが実際に内部でどのように言語を表現しているかに、より忠実になります。

$$F(x) = \alpha F_1(x) + (1 + \xi \cdot \mathbb{1}[F_1(x)=0]) \cdot \beta F_2(x)$$

F(x) 組み合わせ式の解説

最終的な TFD スコア F(x) は、2 つの補完的な信号を組み合わせて算出されます:

オフラインスコア — 大規模な静的コーパスからの単語頻度（データレベルの証拠）
LLM 抽出スコア — モデル自身の出力確率（モデルレベルの証拠）

λ（ラムダ）という混合係数が、バランスを制御します。λ = 1 の場合、純粋なオフライン頻度が得られます。λ = 0 の場合、純粋な LLM 抽出頻度が得られます。実験では、どちらか一方の信号だけを使用するよりも、両方を組み合わせた方が優れた結果が得られます。なぜなら、それらはモデルがよく知っていることの異なる側面を捉えているからです。

結合された頻度スコア F(x) は、オフラインの推定値 (F₁) と、蒸留された推定値 (F₂) を組み合わせたものです。増強係数 ξ は、F₁ がほぼゼロに近い場合に F₂ を増幅させ、出現頻度の低い単語の推定値を回復させます。TFD を使用することで、機械翻訳の成功率が約 13% (TFD を使用しない場合) から 86.7～100% (TFD を使用する場合) に向上しました。

03

カリキュラムテキスト頻度トレーニング（Curriculum Textual Frequency Training：CTFT）

ファインチューニングを行う際、学習データの順序が重要です。出現頻度の低い表現は、より多様な言語的特徴を持つため、最初に提示することで、モデルがより広い範囲の知識を習得できます。その後、学習を進めて、出現頻度の高い例を提示することで、知識の定着と強化を図ります。

なぜ、まず低頻度のテキストで学習するのか？カリキュラムの考え方

カリキュラム学習は、モデルを簡単な例から始めて、徐々に難しい例へと進めていきます。しかし、CTFT（Cross-lingual Transfer Fine-Tuning）では、この順序が直感に反しています。低頻度（より難しい）の例が最初に提示されます。

その理由は、モデルに最初から高頻度のテキストだけを見せると、モデルはすぐに一般的なパターンに特化しすぎて、珍しいパターンを忘れてしまうからです。モデルの重みがまだ強く偏っていない段階で、珍しいパターンを早期に提示することで、モデルは低頻度のコンテンツに対する持続可能な表現を構築できます。後段階で高頻度の例を提示することで、これらの表現を強化し、安定させることができます。これによって、既存の表現が上書きされるのを防ぎます。

これは言語学習に似ています。不規則動詞（珍しいパターン）を、規則的な動詞（一般的なパターン）を反復練習する前に練習することで、規則的な形が例外を記憶することを妨げるからです。

$$\text{sort}_{I \in T}(F(I_n))$$

トレーニングデータは、頻度スコア F(Iₙ) の昇順でソートされます。この「低い順→高い順」の並び順は、様々な言語ペアにおいて、ランダムな並び順、簡単なものから難しいものへのカリキュラム、および高い順から低い順への逆カリキュラムよりも一貫して優れたパフォーマンスを発揮します。

データセット — TFPD

この研究のために、Textual Frequency Paired Dataset (TFPD)が特別に作成されました。既存の3つのベンチマーク—GSM8K（数学）、FLORES-200（翻訳）、およびCommonsenseQA（推論）—を基に、GPT-4o-miniは、1文あたり20の言い換え文を生成します。その内訳は、10文はまれな/複雑な語彙を使用し、10文は一般的な/シンプルな語彙を使用します。

人間のアノテーターが意味的な同等性を検証します。すべてのアノテーターが「同じ意味」に同意した場合にのみ、文のペアが保持されます。この厳格なフィルタリングにより、頻度の違いが意味的な変化によって影響を受けることがないようにします。

数学的推論 (GSM8K)738 pairs

機械翻訳 (FLORES-200)526 pairs

常識推論 (CommonsenseQA)575 pairs

ツールコーリング (TC)114 pairs

TFPD statistics table — 表1：TFPDの統計データ。高頻度セグメントと低頻度セグメントは、文の数において類似していますが、言語的な複雑さには違いがあります。

結果 — 数学的推論

GSM8K solve rates bar chart — 図2: 3つのLLM（大規模言語モデル）におけるGSM8Kの正答率（%）。高頻度データセット（灰色）は、すべてのモデルにおいて一貫して、低頻度データセット（黄色）よりも高い性能を示しました。

高頻度のプロンプティングは、テストされた3つのモデルすべて（2つのクローズドソースモデル：DeepSeek-V3、GPT-4o-mini、および1つのオープンソースモデル：LLaMA3.3-70B-Instruct）において、GSM8Kの数学の精度を向上させます。この向上は一貫しており、その効果は大きく、平均して約8パーセントポイントの改善が見られます。

DeepSeek-V3 63.55% → 71.54% (+7.99 pts)

GPT-4o-mini 60.70% → 68.70% (+8.00 pts)

LLaMA3.3-70B 80.49% → 88.75% (+8.26 pts)

低頻度の入力で正しく回答された質問は、高頻度の入力に対しても依然として正しく回答されます。つまり、性能は一方通行で向上し、後退することはありません。連鎖思考の追跡分析によると、高頻度の入力は、最終的な回答だけでなく、推論のステップの質も向上させます。

結果 — 機械翻訳

機械翻訳の実験は、FLORES-200に含まれる100の言語を対象としており、BLEU、chrF、およびCOMETのスコアを測定しています。テキストの頻度に関する法則は、広範に適用されます。高頻度の原文は、多様な言語ファミリーにわたって翻訳の品質を向上させます。

BLEU、chrF、およびCOMETとは何ですか？

機械翻訳の品質は、3つの補完的な指標を使用して測定されます。

BLEU — 生成された翻訳に含まれるn-gram（単語のグループ）が、参照訳とどれだけ一致するかをカウントします。BLEUスコアが高いほど、単語レベルでの重複が多くなります。高速で広く使用されていますが、言い換えには鈍感です。
chrF — 文字レベルのFスコアです。文字のn-gramレベルでの類似性を測定するため、形態学的に豊かな言語（トルコ語やフィンランド語など）にとって重要な形態学的バリエーションに敏感です。
COMET — 人間の判断データで学習されたニューラルな指標です。人間の翻訳者がどのように翻訳結果を評価するかを直接予測するため、実際の品質との相関が最も高い指標です。COMETスコアが高いほど、翻訳がより自然に読める傾向があります。

3つすべての指標が同時に向上した場合（TFLが達成するように）、翻訳品質のさまざまな側面において、その改善は確実です。

MT radar charts across 100 languages — 図3：ChatGPTとDeepSeekについて、100の言語ペアにおけるBLEU、chrF、およびCOMETのレーダーチャート。高頻度（オレンジ/赤）は、常に低頻度（青）よりも広い範囲をカバーしている。

TFD ablation - win rates — 図4: TFDの除去実験。高周波数において、TFDを使用した場合、勝率が86.7～100%に達しました。一方、TFDを使用しない場合、性能は不安定 (0～16.7%) であり、TFDが重要な役割を果たしていることが示されています。

重要な発見は、Textual Frequency Distillation（TFD）の役割です。TFDなしでは、生のオフライン頻度を使用しても信頼性が低く、機械翻訳（MT）では約13%の成功率しか得られません。一方、TFDを使用すると、モデルと評価指標の組み合わせに関わらず、成功率は86.7～100%に向上します。

重要なポイント： オフラインでの単語頻度（ウェブコーパスから取得）は、LLMが学習した内容の粗い指標となります。TFDは、この不一致を修正するために、LLM自身に「頻度推定値を抽出」させることで、選択の精度を向上させています。

CR accuracy results table — 表2：常識推論の精度。高頻度データセットは、すべてのベースラインモデルにおいて、より高い精度を達成しました。

カリキュラム研修結果 (Curriculum Training Results: CTFT)

CTFT (低周波数から高周波数へのカリキュラム) は、機械翻訳のファインチューニングにおいて、すべてのベースラインを上回る性能を示しました。

低頻度データに対する標準的なファインチューニング（カリキュラム学習はなし）。
易から難へのカリキュラム学習（伝統的なアプローチ）。
高い周波数から低い周波数へ順に並べる（逆カリキュラム）。
元のモデル（ファインチューニングなし）

理由は以下の通りです。出現頻度の低い表現は、より多様な言語的特徴を持つため、最初にそれらを学習させることで、モデルの網羅性を高めることができます。その後、出現頻度の高い例を学習させることで、最も一般的なパターンを強化し、定着させることができます。この学習順序は、人間が言語を習得するプロセスを反映しており、まず多様な形式に触れ、その後、一般的な用法に落ち着くという流れです。

CTFT improvement vs data percentage line chart — 図5：5種類の低リソース言語における、CTFTの改善率とデータ量の関係（BLEUスコア）。ほとんどの言語で、データ量が100%になった時点で約100%の改善が見られます。中国語（zho_Hans）は、データ量が60%の時点でも既に100%の改善を達成しています。

分析 — なぜ頻度が役立つのか？

言語学的分析から、高頻度テキストが大規模言語モデル（LLMs）にとって処理しやすい理由となる構造的な違いが明らかになります。この傾向は、人間の読解について知られていることと一致しており、より単純な構文構造は、より速く、そしてより正確に処理されます。

📐

より低い構文複雑度

高頻度の文は、最大依存関係木の深さ（Max Dependency Tree Depth）が低い傾向にあります（数学の分野では、5.02 vs 5.18）。これは、文法構造が単純であり、解析が容易であることを意味します。

📖

より簡単な読みやすさ。

Flesch-Kincaidの読みやすさ指標が低い（数学タスクの場合、4.36 vs 6.35）ことは、高頻度のテキストの方がアクセスしやすいことを裏付けており、これは言語モデルにとっても同様です。

📊

正のパフォーマンス相関。

テキストの頻度とモデルの精度との間のピアソン相関係数およびスペアマン順位相関係数は、一貫して正の値（0.03～0.28）を示しており、これは因果関係のような関係を裏付けています。

Linguistic statistics and frequency correlations — 表3：高頻度データと低頻度データを比較した言語学的統計。最大依存木深さ、平均依存木深さ、Flesch-Kincaidの読みやすさ指標、および相関係数を示します。

結論

本論文では、アダムの法則：LLM（大規模言語モデル）におけるテキスト頻度法則を確立します。2つの表現が同じ意味を持つ場合、より頻繁に使用される表現の方が、プロンプティングやファインチューニングにおいて、LLMのパフォーマンスを向上させることが確実であり、これは4つの多様な自然言語処理タスクで検証されました。

このフレームワークの3つの構成要素である、TFL、TFD、およびCTFTは、モデルのアーキテクチャを変更したり、トレーニングデータを追加したりすることなく、LLM（大規模言語モデル）の性能を向上させるための実用的なパイプラインを提供します。重要な点は、LLMも人間と同様に、一般的な言語をより効果的に処理することです。

今後の研究では、他のLLM（大規模言語モデル）の機能に対する頻度効果を調査したり、より効率的な頻度推定方法を開発したり、多言語モデルにおける言語間の頻度相互作用を探求したりすることが考えられます。

参考文献（クリックで展開）

Cobbe et al. (2021). Training Verifiers to Solve Math Word Problems. arXiv:2110.14168.
DeepSeek-AI et al. (2024). DeepSeek-V3 Technical Report. arXiv:2412.19437.
Grattafiori et al. (2024). The Llama 3 Herd of Models. arXiv:2407.21783.
NLLB-Team (2022). No Language Left Behind: Scaling Human-Centered Machine Translation. arXiv:2207.04672.
Speer, R. (2022). rspeer/wordfreq. Zenodo.
Talmor et al. (2019). CommonsenseQA: A Question Answering Challenge Targeting Commonsense Knowledge. NAACL.
Wei et al. (2024). Chain-of-Thought Prompting Elicits Reasoning in Large Language Models. NeurIPS.
Lu, H. & Lam, W. (2023). Curriculum Learning for Language Modeling. EMNLP.