200件以上の論文を網羅した、トランスフォーマーがどのようにして情報価値の低いトークンに注意を集中させてしまうか、そしてそれに対して私たちが何ができるかについて、初めての包括的な調査です。
清華大学 · Meituan LongCat チーム · 香港大学 · 廈門大学 · ミシガン大学 · オハイオ州立大学
現代機械学習の基礎アーキテクチャであるTransformerは、多様なAI分野で目覚ましい進歩を牽引してきました。しかし、その革新的な影響にもかかわらず、様々なTransformerに共通する課題として、Attention Sink (AS)が存在します。これは、特定のトークン群に過剰な注意が集中する現象であり、そのトークンは情報を提供していない場合があります。ASは解釈を複雑にし、学習と推論のプロセスに大きな影響を与え、また、幻覚(ハルシネーション)といった問題を引き起こす可能性があります。近年、ASの理解と活用に関する研究が活発に行われていますが、ASに関連する研究を体系的にまとめ、今後の発展のための指針を提供する包括的な調査はまだ不足しています。この課題を解決するために、私たちはAttention Sinkに関する初の調査を提示します。この調査は、現在の研究分野を定義する3つの主要な側面を中心に構成されています。Fundamental Utilization、Mechanistic Interpretation、そしてStrategic Mitigationです。私たちの研究は、重要な概念を明確にし、研究者がこの分野の進化と動向を理解するための重要な貢献となるでしょう。
この調査は、Attention Sinkに関する研究を、明確な3つの柱を持つフレームワークに整理しています。 `基本利用 (Fundamental Utilization)` は、実務家がどのようにAttention Sinkのパターンを、効率的な推論のために活用するか(KVキャッシュ圧縮、スパースアテンションなど)を扱います。 `メカニズム解釈 (Mechanistic Interpretation)` は、softmaxの制約、外れ値回路、および幾何学的特性に関する理論を通じて、Attention Sinkがどのように発生するかを探求します。 `戦略的緩和 (Strategic Mitigation)` は、望ましくないアテンションの集中を減らすか、完全に排除するためのアーキテクチャの変更について説明します。
この調査では、200件以上の論文を網羅的に分類し、階層的な分類体系を構築しています。各項目は、活用戦略、解釈理論、緩和アプローチ、および実用的な応用における特定の研究成果を、それぞれのカテゴリへと結び付けています。
Transformerは、マルチヘッド・セルフアテンション機構に基づき、機械学習における基本的なアーキテクチャとして登場し、長距離依存関係を捉えるという比類なき能力を持っています。しかし、Transformerには奇妙な挙動が見られます。Attention Sink(注意の集中):これは、特定のトークン(通常は最初のトークン、または[CLS]のような特殊トークン)が、その意味内容に関わらず、過剰な注意を受ける現象です。この現象は、モデルの解釈性、推論効率に影響を与え、また、幻覚(ハルシネーション)を引き起こす可能性があります。
初の包括的な調査。これは、基礎研究の活用、メカニズム解釈、および戦略的緩和に関する、AS(原因不明の全身性疾患)に関連するすべての研究を体系的に統合したものです。
統合フレームワーク:主要な概念を明確にし、当該分野の発展と動向を把握し、異なる研究分野間の関連性を確立します。
研究者や実務家向けの、事前学習、チューニング、推論、解釈可能性、幻覚の軽減、安全性など、様々な応用分野を網羅した、実践的なガイドライン。
Attention Sinkとは、特定の、しかし意味的に無益なトークン群に、不均衡なほど高い注意の重みが集中する現象を指します。自己回帰型LLM(Large Language Models)において、これは通常、入力内容に関わらず、ほとんどの注意ヘッドとレイヤーにおいて、最初のトークン(またはBOSトークン)が圧倒的に高い注意スコアを受ける形で現れます。
「注意の集中」を、誰もが同じ隅の席に座っている人にばかり注目している会議に例えてみてください。たとえその人が何も有益なことを言っていないとしても。Transformerモデルでは、トークン(単語や画像の一部)が互いに「注意」を払い合うことで、文脈を理解します。しかし、何らかの理由で、その注意の大部分が、しばしばフォーマットマーカーである<BOS>(シーケンスの開始)のような、最初のトークンに集中してしまいます。まるで、モデルが実際のコンテンツに焦点を当てる代わりに、空白の場所をじっと見つめているかのような状態です。本調査では、なぜこのようなことが起こるのか、そして私たちが何ができるのかを探ります。
この概念は、最初に自己回帰型LLM(大規模言語モデル)において、形式的に特定されました。具体的には、初期のトークンが、Softmax正規化の後、アテンション分布において優勢になることが観察されています。Softmax関数は、アテンションの重みが合計で1になることを要求するため、あるアテンションヘッドが特定のトークンに対して強い好みを持たない場合、「余分な」アテンションを、最初の位置など、アクセスしやすいトークンに集中させてしまいます。これにより、アテンションヒートマップ上で目立つ、明るい垂直のストライプとして見える、持続的なアテンションパターンが生じます。
アテンションシンク(注意の集中点)の挙動は、レイヤーやヘッドによって異なります。初期のレイヤーでは、強いシンクパターンが見られる傾向がありますが、より深いレイヤーでは、より多様なアテンション分布が見られます。この現象は、最初のトークンに限定されるものではありません。BERTにおける[CLS]や[SEP]などの特殊なトークンも、双方向モデルにおいてアテンションシンクとして機能する可能性があります。
「アテンションシンク」は、一般的な自己回帰型LLM(大規模言語モデル)に限定されるものではありません。この現象は、古典的なマスク言語モデルから、Vision Transformer、さらにはビデオ生成モデルに至るまで、ほぼすべてのTransformerベースのアーキテクチャに現れます。各アーキテクチャは、独自の「アテンションシンク」の特性を示します。
BERTのような双方向モデルにおいて、[CLS]と[SEP]トークンは、注意の集まる場所として機能します。[CLS]は初期のレイヤーで高い注意を引き、一方、[SEP]は後続のレイヤーでより大きな影響を与えます。このパターンは、特別なトークンに対する注意の集中という、初期の観察事例の一つでした。
DeepSeekやMixtralのようなMoE(Mixture of Experts)アーキテクチャにおいて、アテンションシンク(attention sink)はエキスパートルーティング(expert routing)と相互作用します。シンクトークン(sink tokens)は、ノンシンクトークン(non-sink tokens)とは異なるエキスパートの分布を活性化させることが示唆されており、これはMoEのルーティングメカニズムがアテンションシンク現象に影響を受け、さらにその現象を増強する可能性があることを示しています。
ビジョン・ランゲージモデルにおいて、視覚トークン(<img>)はテキストトークンとアテンション・シンク(attention sink)と相互作用します。BOSトークンは、本来視覚コンテンツに注がれるべき注意を吸収してしまうことがあり、その結果、視覚的な理解が低下する可能性があります。この問題に対処するため、アテンション・シンクから画像トークンへと注意を再配分する技術が開発されています。
Vision Transformers (ViTs)も、attention sinkと呼ばれる現象を示すことがあります。これは、特定のパッチトークン(多くの場合、[CLS]トークンやコーナーのパッチ)が、本来よりも過剰な注意を受ける状態を指します。この現象は、attentionマップにアーティファクトとして現れ、特徴量の品質を低下させる可能性があります。登録トークン(register tokens)は、過剰な注意を吸収し、よりクリーンな特徴量表現を生成するために提案されています。
ビデオ生成のトランスフォーマー、拡散モデル、音声モデル、およびその他の特殊なアーキテクチャにおいて、注意機構の「注意の集中」という問題が観察されています。ビデオ生成においては、この「注意の集中」への対処を省略すると、生成されたフレーム間で時間的な不整合が生じ、視覚的な品質が低下します。
研究者たちは、アテンション・シンクを単なる問題として扱うのではなく、この現象を実用的な利点のために活用するための戦略を開発してきました。その結果、以下の4つの基本的なアプローチが確立されています。具体的には、安定した推論のためにシンク・トークンを保持する、より優れたコンテンツへの集中を実現するためにアテンションを再配分する、学習可能なプレフィックス・トークンを明示的なシンクとして導入する、そして、シンク・トークンを新しい機能のために再利用する、といった方法です。
重要なポイント: KVキャッシュにいくつかの初期のシンクトークンを保持することは、安定した長文コンテキスト推論には不可欠です。StreamingLLMは、スライディングウィンドウと 保持されたシンクトークンを組み合わせることで、単純なウィンドウベースのアプローチと比較して、perplexityを大幅に低減できることを示しました。
Sink Token Preservation(シンク・トークン保持)は、LLM(大規模言語モデル)の推論において、特にトークン削減、KVキャッシュ圧縮、およびスパースアテンションメカニズムにおいて広く採用されている戦略です。 その基本的な考え方はシンプルですが、非常に強力です。 すなわち、特定のトークンは、すべてのヘッドとレイヤーにおいて、常に注意(アテンション)を集める傾向があるため、それらをKVキャッシュから削除すると、パフォーマンスが著しく低下します。 したがって、モデルは、常にこれらの重要なシンク・トークンと、最近のトークンのスライディングウィンドウを一緒に保持することで、メモリ使用量を一定に保ちながら、任意の長さのシーケンスを処理することができます。
ChatGPTのようなLLMとチャットする場合、モデルはこれまでの会話の内容をすべて記憶する必要があります。これは、過去のトークンの処理された表現を保存するKV(Key-Value)キャッシュによって行われます。会話が長くなるにつれて、このキャッシュは増加し、高価なGPUメモリを消費します。StreamingLLMの洞察は、そのシンプルさにおいて素晴らしいものです。すべてを保持する(コストが高すぎる)か、最近のトークンだけを保持する(クラッシュを引き起こす)のではなく、最初の数個の「sink」トークンと、スライディングウィンドウで定義された最近のトークンだけを保持します。この小さな変更により、LLMは固定されたメモリで無限に長い会話を処理できるようになり、すでに実稼働システムで使用されています。
この洞察に基づいて、研究者たちは、効率的なスパース計算戦略を可能にする、さまざまな種類の注意機構(attention head)を特定しました。ラムダ形状の注意機構は、典型的な注意の集中パターンを示し、縦線形状の注意機構は、カラム状の注意を示し、ブロックスパースの注意機構は、散在した注意ブロックを示します。これらのパターンを理解することで、注意計算の最適化をより効果的に行うことができます。
主なポイント: 受け身的に注意を消費するのではなく、再配分は、情報量の少ないトークンから意味的に関連性の高いコンテンツトークンへと、積極的に注意を再配分します。これにより、モデルの性能が向上しますが、再学習は不要です。
Attention Redistributionは、注意の集中(attention sink)による悪影響を軽減するために、過剰に集中された注意の質量を、意味的に関連性の高いトークンに再配分することを目的としています。従来の「保持(preservation)」手法が、集中したトークンを安定したアンカーとして静的に保持するのに対し、Redistributionは、積極的に注意の分布を再構築します。これは、特にマルチモーダルLLMにおいて有効であり、BOSトークンによって吸収された注意を、視覚コンテンツのトークンにリダイレクトすることで、画像理解の向上に貢献します。
主なポイント: 事前学習中に、明示的な注意の対象として、学習可能なトークンを導入することで、より洗練された注意分布が得られ、それがモデルの性能向上につながります。これは、出現するだけの注意の対象に依存するよりも優れています。
Learnable Prefix Tokensは、明示的な注意の集約点として機能する、専用の学習可能なトークンを導入します。これは、最初のトークンやBOS(Beginning of Sequence)から自然に生まれる注意の集約点とは異なり、学習中にモデルのパラメータとして最適化され、余剰な注意の質量を吸収するように設計されています。明示的な集約トークンを用いた事前学習は、より明確な注意分布を生み出し、明確な集約特性を持つため、コンテンツ処理への干渉を低減します。
主なポイント:Vision Transformersにおいて、登録されたトークンはアテンションメカニズムによるアーティファクトを吸収し、よりクリーンな特徴マップを生成します。この再利用は、欠点を設計ツールに変え、より優れた表現を可能にします。
単にシンクの機能を維持したり再配布したりするのではなく、いくつかの手法では、シンクのメカニズム自体を再利用します。Vision Transformersでは、登録トークンが追加され、これらは明示的な注意シンクとして機能し、そうでないと特徴マップを破損させる可能性のあるアーティファクトを吸収します。レジスタを持つDINOv2のようなモデルは、レジスタを持たないモデルと比較して、はるかにクリーンな注意マップを示し、より優れた性能を発揮します。
「注意散漫」が発生する理由を理解することは、適切な解決策を開発するために非常に重要です。これまでに、5つの主要な理論的枠組みが提案されており、それぞれがこの現象を駆動するメカニズムに関する独自の洞察を提供しています。これらの理論は、互いに競合するものではなく、むしろ補完し合い、複雑で多面的な行動の異なる側面を明らかにします。
主なポイント: Softmax関数の合計が1になるという制約により、注意機構(attention heads)は、たとえどのトークンも真に重要でなくても、どこかに重みを割り当てる必要があります。シンクトークンは、ほぼ恒等変換(何もしない操作)を実行する注意機構にとって、「注意の捨てる場所」として機能します。
初期の解釈の一つとして、この理論は、アテンション・シンク(attention sink)を、Softmax関数の固有の制限に帰属させます。標準的なアテンションにおいて、合計が1になるという制約により、すべてのキーに対するアテンションの重みが、すべてのクエリに対して1に正規化される必要があります。アテンション・ヘッドが、特定のクエリの位置に対して意味のある相互作用が存在しないことを学習した場合、どこにも0のアテンションを割り当てることはできません。代わりに、残りの確率質量を、通常は最初のトークンである便利なターゲットに集中させ、特有のアテンション・シンクのパターンを形成します。
Softmaxは、生の注意スコアを確率に変換する関数です。その重要な特性は、すべての出力値が合計して正確に1.0(100%)でなければならないことです。ここに問題があります。100個のトークンがあり、特定の計算において、注意ヘッドがどれにも注意する必要がないと仮定します。Softmaxを使用すると、それは必ず、その100%の注意をどこかに分散させなければなりません。それは「これらのどれにも興味がない」とは言えません。では、どうするのでしょうか?それは、その強制的な注意の大部分を、不要な注意の重みを受け入れるための便利な「ゴミ箱」である、最初のトークンに割り当てます。これがno-op理論です。一部の注意ヘッドは、基本的に何もしていない(「何もしない」操作)のですが、Softmaxはそれらに何かに注意しているかのように見せかけさせます。
重要なポイント: 特定の隠れ層における極端な活性化値の異常が、注意の低下を引き起こす数値的な条件を作り出します。これらの異常値は、層間で相互接続された回路を形成し、そのパターンを増幅し、維持します。
Outlier Circuitsの視点は、Softmax理論がカバーしきれていない問題を提起します。具体的には、どのようにして注意メカニズムにおける「シンク」が数値的に維持されているのか、という問題です。このフレームワークは、Transformerレイヤー全体にまたがる相互接続された回路を形成する、系統的な外れ値(Outlier)アクティベーション、および極端な大きさを持つ特定の隠れ層の次元を特定します。これらの外れ値は、FFN(Feed Forward Network)のダウンプロジェクションで発生し、残差結合(residual connections)を通じて伝播し、注意スコアを決定するQ/Kの内積に影響を与え、自己強化ループを形成してシンクパターンを維持します。
モデル内の特定のニューロン(例えば、4096次元の隠れ状態におけるチャネル#256)を考えてみましょう。このニューロンは、周囲のニューロンよりもはるかに大きな値、例えば1000倍もの大きな値を生成するように学習しているとします。この「外れ値」チャネルは、ドミノ効果を引き起こします。
図29に示すライフサイクルは、このプロセスを美しく示しています。外れ値は、レイヤー1で発生し、ネットワークの大部分で安定し、最終レイヤー付近で消失します。
重要なポイント: シンクトークンへの注意を払うことは、注意出力において、実質的に学習されたバイアス項として機能します。 シンクトークンからの値の更新は、すべての位置でほぼ一定であり、コンテンツに依存しないグローバルなバイアスとして機能します。
この解釈は、アテンションシンクを機能的な観点から捉えています。シンクトークンに割り当てられるアテンション重みは、すべてのクエリ位置で一定の値を更新します。シンクトークンに関連付けられたベクトルは、シーケンスの残りの部分が何であっても、実質的に同じであるため、結果として得られる寄与は、各位置の表現に固定されたバイアスを加えるものです。この洗練された理論は、シンクトークンを除去することがなぜこれほど破壊的なのかを説明しています。なぜなら、モデルが依存してきた学習されたバイアスが除去されるからです。
重要なポイント: 初期トークンは、埋め込み空間において独特な幾何学的位置を占め、他のすべての位置から注目を集める安定した「アンカー」として機能するクラスターを形成します。
この理論は、表現幾何学の視点から、注意の集中(attention sink)を分析します。PCA(主成分分析)の結果、初期のトークンは、コンテンツトークンが占める多様体とは異なる、特徴的な幾何学的クラスタを埋め込み空間内で形成します。RoPE(Rotary Positional Embedding)による位置エンコーディングでは、この分離がさらに顕著になります。なぜなら、このエンコーディングは、初期の位置が幾何学的なアンカーとなる自然な順序を作り出すからです。初期のトークン表現とすべてのクエリベクトルの間の角度的な近接性は、それらが常に高い注意スコアを引き寄せる理由を説明します。
主要な4つの理論に加えて、新たな解釈では、情報理論的な視点、学習過程の分析、および損失関数の形状との関連性を通じて、「注意の集中」現象を探求しています。これらの補完的な視点は、Transformerが常にこの行動パターンを示す理由についての理解を深め続けています。
利用戦略は、注意の集中という要素と連携して機能しますが、緩和戦略は、建築的な変更を通じて、意図しない注意の集中を軽減または排除することを目的としています。4つの主要なアプローチが登場しており、それぞれが注意の集中を引き起こすメカニズムの異なる側面を対象としています。
主なポイント: 学習可能なゲートベクトル G を、Q, K, V とともに追加することで、モデルは注意機構における「注意の集中」という問題を明示的に抑制することができます。このゲートは、どの程度の注意情報が伝達されるかを制御し、無効な操作を注意の割り当てから分離します。
Gated Attention Mechanismsは、Softmax/No-Op 理論に直接対応します。アテンション・シンク(注意の集中)が発生するのは、ヘッドがアテンション・メカニズムを通じて、実際には何もしていない(no-op)操作を学習してしまうためです。そこで、ゲートを追加することで、モデルはゲートを閉じるだけで同じno-op効果を実現し、アテンション・ウェイトを意味的に重要なコンテンツに集中させることができます。バリエーションとしては、入力-状態ゲート、値-状態ゲート、アテンション出力ゲートなどがあり、それぞれがアテンション計算の異なる段階でゲートを適用します。
LLMサービスを構築しており、注意機構の計算コストを削減したい場合、ゲーテッドアテンションは最も実用的な選択肢の一つです。この手法は、各アテンションヘッドに対して、Q、K、Vと同じサイズの小さな学習済みベクトルGを追加し、あたかもボリュームノブのように機能させます。ヘッドが何も処理を行わない(最初のトークンに注意を集中させる)場合、ゲーティングによってその「ボリューム」を下げることができます。これにより、注意の重みが実際のコンテンツに集中できるようになります。オーバーヘッドは最小限で、各層に1つの追加の線形変換を追加するだけで、パラメータ数は約3%増加しますが、それに見合う大きな品質向上が期待できます。
主なポイント: 標準的なSoftmaxを、SoftpickやSigSoftmaxのような代替手法に置き換えることで、注意機構における「集中」を強いる「合計が1である」という制約を解消できます。これにより、各ヘッドは特定のトークンに過剰な重みを割り当てずに、「強い好みはない」という状態を表現できるようになります。
Modified Softmax 関数は、Softmax 正規化自体に介入することで、注意の集中化(attention sink)を軽減するための別の直接的なアプローチを提供します。ゲート機構とは異なり、ゲート機構は追加のパスを介して動作しない状態を分離しますが、これらのアプローチは、根本原因である「合計が 1 になる」という制約に直接対処します。Softpick のような代替手段では、注意の重みを真に疎にすることができます。Softmax1 は、余分な確率を吸収できるバイアスユニットを追加します。また、SigSoftmax は、シグモイド関数と Softmax 関数を組み合わせて、より柔軟な分布を実現します。
Learnable Attention Biasは、Softmax正規化の前に、学習可能なバイアス項を直接、アテンションスコアに追加します。位置の好みを捉えるための明示的な学習可能なパラメータを提供することで、モデルはもはや、最初のトークンを暗黙的なバイアスメカニズムとして使用する必要がなくなります。このアプローチは実装が容易で、パラメータ数を最小限に抑え、既存のアーキテクチャにファインチューニングを適用することができます。
主なポイント: 事前学習における最適化アルゴリズムの選択は、attention sinkの生成に大きな影響を与えます。 Muonオプティマイザーは、Adamと比較して、チャネル特有の極端な活性化を生成しにくいため、より均一な活性化分布を生み出し、attention sinkを引き起こす外れ値スパイクを抑制します。
事前学習段階での介入は、モデルの学習中に発生する「注意の集中」の根本原因に対処します。例えば、Muonオプティマイザーは、Adamと比較して、活性化分布をより均一にする傾向があり、Adamは特定のチャネルで極端な外れ値のスパイクを生じさせやすいです。これらの介入は、学習中に外れ値の回路の形成を防ぐことで、アーキテクチャの変更なしに「注意の集中」を軽減することができます。
Attention sink(注意点沈降)に関する知識は、Transformerモデルの開発と展開における9つの主要な分野において、実用的な意味を持つ。Attention sinkを理解し、管理することで、モデルの品質、効率、安全性、および能力を向上させることができる。
注意散漫が発生する可能性を考慮したトレーニング手順を設計し、最適化手法の選択や、明示的なシンクトークン戦略を含める。
トレーニング後に、LoRAを用いて、アテンションの重み、バイアスの注入、またはアテンションの再配分を通じて、アテンションのパターンを微調整します。
KVキャッシュの管理、スパースアテンション、およびトークン削減戦略を最適化し、安定した推論のために重要なトークンを保持します。
アテンションシンクパターンを、モデルの動作を理解し、アテンションヘッドの専門化を特定するための診断ツールとして活用します。
テキストおよびマルチモーダル生成における幻覚的な出力の低減のために、入力トークンから事実に基づいたコンテンツへの注意を向けさせる。
アテンションシンクの破壊パターンを分析することで、バックドア攻撃や敵対的入力(adversarial inputs)を検知する。
意味的に関連するトークンに対して、より適切な注意の配分を行うことで、モデル全体の品質を向上させます。
長いシーケンスを効率的に処理するために、sink-awareなKVキャッシュ圧縮とストリーミングアテンションを導入しました。
テキストの「sinkトークン」からの注意を、視覚情報や音声コンテンツに再配分することで、異なるモダリティ間の理解を向上させます。
すべての機械学習プロジェクトが、Attention Sink(注意の集中)を気にする必要はありません。以下は簡単なガイドです。
シンク・トークンへの過度な注意は、モデルの焦点が実際のコンテンツから逸れる原因となります。ビジョン・ランゲージモデルにおいて、これはモデルが画像ではなく、BOSトークンに注意を払い、存在しないものの説明を生成することを意味します。以下の注意マップは、シンク・トークン(明るい列)と、幻覚的なテキスト出力との相関関係を示しています。
アテンションシンク解析は、AIの安全性に関する新たなアプローチを可能にします。研究者は、潜在的なトリガーとなるトークン周辺でのアテンションパターンがどのように変化するかを調べることで、バックドア攻撃を特定し、その場所を特定することができます。アテンションシンクは、バックドアがどこに埋め込まれているかを特定するのに役立ち、一方、バリュー・ノルム解析は、それがどのように機能するかを明らかにします。
この調査は、TransformerアーキテクチャにおけるAttention Sinkに関する、最初の包括的なレビューです。本調査では、以下の3つの側面から、200件を超える研究を体系的に分析しています。基本的な利用方法、メカニズム的な解釈、および戦略的な緩和策。Attention Sinkは、LLM(大規模言語モデル)、Vision Transformers、MoEモデル、およびマルチモーダルアーキテクチャにおける、学習プロセス、推論効率、モデルの挙動に大きな影響を与えます。既存の研究を整理し、未解決の課題を特定することで、研究者や実務家が、現在のTransformerパラダイムの中でAttention Sinkを効果的に管理し、次世代のアーキテクチャの開発を促進することを目指します。