大規模言語モデルにおけるテキスト頻度則。
2つの文が同じ意味を持つ場合、LLM(大規模言語モデル)は、より一般的な表現を用いた文の方が常に優れたパフォーマンスを発揮します。本論文では、これを「Textual Frequency Law(テキスト頻度則)」として形式化し、数学的推論、機械翻訳、常識推論、およびツール呼び出しの分野において、その有効性を検証します。
高頻度のプロンプティングは、テストされたすべてのモデル(GSM8Kベンチマーク)において、数学的な推論の精度を向上させます。
高頻度の言い換えによって、モデルの変更なしに数学の精度を向上させることができます。
クローズドソースモデルにおいて、一貫した性能向上が確認されました。
オープンソースのモデルは、特に頻度を考慮したプロンプティングから大きな恩恵を受ける。
テキストの出現頻度が、読書速度における人間の認知において関連性を持つことは検証されていますが、大規模言語モデル (LLMs) との関係については、ほとんど研究されていません。本研究では、テキストの出現頻度が LLMs に与える影響を調査する、新たな研究の方向性を提案します。その概念を テキスト頻度則 (TFL) と名付けます。TFL は、意味が同一である場合、LLMs は、文レベルの出現頻度が低いデータよりも、高いデータを使用する方が、プロンプティングおよびファインチューニングの両方において有利であるという考えを示唆しています。我々は、TFL を、数学的推論、機械翻訳、常識的推論、およびツール呼び出しという 4 つのタスクで検証しました。さらに、出現頻度の推定をさらに向上させるための テキスト頻度蒸留 (TFD) と、文レベルの出現頻度の順に LLMs をファインチューニングする カリキュラムテキスト頻度トレーニング (CTFT) を提案します。
大規模言語モデル(LLM)は、自然言語処理(NLP)に革命をもたらし、推論、翻訳、コーディングにおいて優れた性能を発揮しています。トレーニングデータの品質が重要であることは広く知られていますが、具体的にどの側面が重要なのでしょうか? 本論文では、新たな疑問を提起します。2つの言い換え表現が同じ意味を持つ場合、より一般的に使用される言い回しが、LLMの性能向上につながるのでしょうか?
人間の認知に関する研究(高頻度語彙は脳内でより速く処理されるという研究)に触発され、著者らは、同様の現象がLLM(大規模言語モデル)にも当てはまると提案しています。高頻度の表現は、意味内容が同一であっても、常にモデルの性能向上につながることが示されています。
人間の言語処理とLLM(大規模言語モデル)の挙動との関連性は、これらのモデルが学習中にどのように言語を内面化するかの基本的な特性を示唆しています。その意味するところは、ユーザーや開発者は、より一般的な表現を選択するだけで、追加のコストなしにLLMの出力品質を向上させることができるということです。
Textual Frequency Framework は、以下の 3 つの構成要素から構成されています:TFL、TFD、および CTFT。
与えられた言い換えの集合 P(すべて同じ意味を持つもの)の中で、TFLは、文レベルでの出現頻度が最も高いものを選択します。これは、単語レベルの出現頻度の幾何平均として計算されます。この計算には、LLMの実際のトレーニングデータへのアクセスは必要ありません。
選択の目的:
文単位の頻度を、単語の頻度の幾何平均で算出します。
単語の出現頻度は、Zipf-scale WordFreq ライブラリを使用して推定されます。このライブラリは無料で利用可能であり、LLMのトレーニングデータは不要です。これにより、TFLはあらゆるユーザーやアプリケーションにとって実用的です。
ウェブコーパスからのオフライン頻度は、LLMが学習中に獲得した知識を完全に反映するものではありません。TFDは、このギャップを埋めます。LLM自体に、各学習文に基づいて物語を完成させるように指示し、「蒸留」された頻度推定値F₂を作成します。このF₂は、LLM内部の頻度をより正確に反映します。
結合された頻度スコア F(x) は、オフラインの推定値 (F₁) と、蒸留された推定値 (F₂) を組み合わせたものです。増強係数 ξ は、F₁ がほぼゼロに近い場合に F₂ を増幅させ、出現頻度の低い単語の推定値を回復させます。TFD を使用することで、機械翻訳の成功率が約 13% (TFD を使用しない場合) から 86.7~100% (TFD を使用する場合) に向上しました。
ファインチューニングを行う際、学習データの順序が重要です。出現頻度の低い表現は、より多様な言語的特徴を持つため、最初に提示することで、モデルがより広い範囲の知識を習得できます。その後、学習を進めて、出現頻度の高い例を提示することで、知識の定着と強化を図ります。
トレーニングデータは、頻度スコア F(Iₙ) の昇順でソートされます。この「低い順→高い順」の並び順は、様々な言語ペアにおいて、ランダムな並び順、簡単なものから難しいものへのカリキュラム、および高い順から低い順への逆カリキュラムよりも一貫して優れたパフォーマンスを発揮します。
この研究のために、Textual Frequency Paired Dataset (TFPD)が特別に作成されました。既存の3つのベンチマーク—GSM8K(数学)、FLORES-200(翻訳)、およびCommonsenseQA(推論)—を基に、GPT-4o-miniは、1文あたり20の言い換え文を生成します。その内訳は、10文はまれな/複雑な語彙を使用し、10文は一般的な/シンプルな語彙を使用します。
人間のアノテーターが意味的な同等性を検証します。すべてのアノテーターが「同じ意味」に同意した場合にのみ、文のペアが保持されます。この厳格なフィルタリングにより、頻度の違いが意味的な変化によって影響を受けることがないようにします。
高頻度のプロンプティングは、テストされた3つのモデルすべて(2つのクローズドソースモデル:DeepSeek-V3、GPT-4o-mini、および1つのオープンソースモデル:LLaMA3.3-70B-Instruct)において、GSM8Kの数学の精度を向上させます。この向上は一貫しており、その効果は大きく、平均して約8パーセントポイントの改善が見られます。
低頻度の入力で正しく回答された質問は、高頻度の入力に対しても依然として正しく回答されます。つまり、性能は一方通行で向上し、後退することはありません。連鎖思考の追跡分析によると、高頻度の入力は、最終的な回答だけでなく、推論のステップの質も向上させます。
機械翻訳の実験は、FLORES-200に含まれる100の言語を対象としており、BLEU、chrF、およびCOMETのスコアを測定しています。テキストの頻度に関する法則は、広範に適用されます。高頻度の原文は、多様な言語ファミリーにわたって翻訳の品質を向上させます。
重要な発見は、Textual Frequency Distillation(TFD)の役割です。TFDなしでは、生のオフライン頻度を使用しても信頼性が低く、機械翻訳(MT)では約13%の成功率しか得られません。一方、TFDを使用すると、モデルと評価指標の組み合わせに関わらず、成功率は86.7~100%に向上します。
重要なポイント: オフラインでの単語頻度(ウェブコーパスから取得)は、LLMが学習した内容の粗い指標となります。TFDは、この不一致を修正するために、LLM自身に「頻度推定値を抽出」させることで、選択の精度を向上させています。
CTFT (低周波数から高周波数へのカリキュラム) は、機械翻訳のファインチューニングにおいて、すべてのベースラインを上回る性能を示しました。
理由は以下の通りです。出現頻度の低い表現は、より多様な言語的特徴を持つため、最初にそれらを学習させることで、モデルの網羅性を高めることができます。その後、出現頻度の高い例を学習させることで、最も一般的なパターンを強化し、定着させることができます。この学習順序は、人間が言語を習得するプロセスを反映しており、まず多様な形式に触れ、その後、一般的な用法に落ち着くという流れです。
言語学的分析から、高頻度テキストが大規模言語モデル(LLMs)にとって処理しやすい理由となる構造的な違いが明らかになります。この傾向は、人間の読解について知られていることと一致しており、より単純な構文構造は、より速く、そしてより正確に処理されます。
高頻度の文は、最大依存関係木の深さ(Max Dependency Tree Depth)が低い傾向にあります(数学の分野では、5.02 vs 5.18)。これは、文法構造が単純であり、解析が容易であることを意味します。
Flesch-Kincaidの読みやすさ指標が低い(数学タスクの場合、4.36 vs 6.35)ことは、高頻度のテキストの方がアクセスしやすいことを裏付けており、これは言語モデルにとっても同様です。
テキストの頻度とモデルの精度との間のピアソン相関係数およびスペアマン順位相関係数は、一貫して正の値(0.03~0.28)を示しており、これは因果関係のような関係を裏付けています。
本論文では、アダムの法則:LLM(大規模言語モデル)におけるテキスト頻度法則を確立します。2つの表現が同じ意味を持つ場合、より頻繁に使用される表現の方が、プロンプティングやファインチューニングにおいて、LLMのパフォーマンスを向上させることが確実であり、これは4つの多様な自然言語処理タスクで検証されました。
このフレームワークの3つの構成要素である、TFL、TFD、およびCTFTは、モデルのアーキテクチャを変更したり、トレーニングデータを追加したりすることなく、LLM(大規模言語モデル)の性能を向上させるための実用的なパイプラインを提供します。重要な点は、LLMも人間と同様に、一般的な言語をより効果的に処理することです。
今後の研究では、他のLLM(大規模言語モデル)の機能に対する頻度効果を調査したり、より効率的な頻度推定方法を開発したり、多言語モデルにおける言語間の頻度相互作用を探求したりすることが考えられます。