Transformerにおける注意機構：サーベイ

概要

現代機械学習の基礎アーキテクチャであるTransformerは、多様なAI分野で目覚ましい進歩を牽引してきました。しかし、その革新的な影響にもかかわらず、様々なTransformerに共通する課題として、Attention Sink (AS)が存在します。これは、特定のトークン群に過剰な注意が集中する現象であり、そのトークンは情報を提供していない場合があります。ASは解釈を複雑にし、学習と推論のプロセスに大きな影響を与え、また、幻覚（ハルシネーション）といった問題を引き起こす可能性があります。近年、ASの理解と活用に関する研究が活発に行われていますが、ASに関連する研究を体系的にまとめ、今後の発展のための指針を提供する包括的な調査はまだ不足しています。この課題を解決するために、私たちはAttention Sinkに関する初の調査を提示します。この調査は、現在の研究分野を定義する3つの主要な側面を中心に構成されています。Fundamental Utilization、Mechanistic Interpretation、そしてStrategic Mitigationです。私たちの研究は、重要な概念を明確にし、研究者がこの分野の進化と動向を理解するための重要な貢献となるでしょう。

調査概要

この調査は、Attention Sinkに関する研究を、明確な3つの柱を持つフレームワークに整理しています。 `基本利用 (Fundamental Utilization)` は、実務家がどのようにAttention Sinkのパターンを、効率的な推論のために活用するか（KVキャッシュ圧縮、スパースアテンションなど）を扱います。 `メカニズム解釈 (Mechanistic Interpretation)` は、softmaxの制約、外れ値回路、および幾何学的特性に関する理論を通じて、Attention Sinkがどのように発生するかを探求します。 `戦略的緩和 (Strategic Mitigation)` は、望ましくないアテンションの集中を減らすか、完全に排除するためのアーキテクチャの変更について説明します。

Survey structure overview — **図1：調査の構造の概要。3つの研究の柱と、それぞれのサブカテゴリの関係を示しています。**

論文の分類と研究の現状.

この調査では、200件以上の論文を網羅的に分類し、階層的な分類体系を構築しています。各項目は、活用戦略、解釈理論、緩和アプローチ、および実用的な応用における特定の研究成果を、それぞれのカテゴリへと結び付けています。

Taxonomy tree of surveyed papers — **図2：調査対象となったすべての論文の完全な分類ツリー。研究分野ごとに整理されています。**

Cumulative publication count — **図3： 2023年から2026年初頭までの累積発表論文数。3つの主要な研究分野すべてで急激な成長が見られます。**

紹介

Transformerは、マルチヘッド・セルフアテンション機構に基づき、機械学習における基本的なアーキテクチャとして登場し、長距離依存関係を捉えるという比類なき能力を持っています。しかし、Transformerには奇妙な挙動が見られます。Attention Sink（注意の集中）：これは、特定のトークン（通常は最初のトークン、または[CLS]のような特殊トークン）が、その意味内容に関わらず、過剰な注意を受ける現象です。この現象は、モデルの解釈性、推論効率に影響を与え、また、幻覚（ハルシネーション）を引き起こす可能性があります。

1

初の包括的な調査。これは、基礎研究の活用、メカニズム解釈、および戦略的緩和に関する、AS（原因不明の全身性疾患）に関連するすべての研究を体系的に統合したものです。

2

統合フレームワーク：主要な概念を明確にし、当該分野の発展と動向を把握し、異なる研究分野間の関連性を確立します。

3

研究者や実務家向けの、事前学習、チューニング、推論、解釈可能性、幻覚の軽減、安全性など、様々な応用分野を網羅した、実践的なガイドライン。

Attention Sinkとは何ですか？

定義

Attention Sinkとは、特定の、しかし意味的に無益なトークン群に、不均衡なほど高い注意の重みが集中する現象を指します。自己回帰型LLM（Large Language Models）において、これは通常、入力内容に関わらず、ほとんどの注意ヘッドとレイヤーにおいて、最初のトークン（またはBOSトークン）が圧倒的に高い注意スコアを受ける形で現れます。

なぜこれが重要なのか？

「注意の集中」を、誰もが同じ隅の席に座っている人にばかり注目している会議に例えてみてください。たとえその人が何も有益なことを言っていないとしても。Transformerモデルでは、トークン（単語や画像の一部）が互いに「注意」を払い合うことで、文脈を理解します。しかし、何らかの理由で、その注意の大部分が、しばしばフォーマットマーカーである<BOS>（シーケンスの開始）のような、最初のトークンに集中してしまいます。まるで、モデルが実際のコンテンツに焦点を当てる代わりに、空白の場所をじっと見つめているかのような状態です。本調査では、なぜこのようなことが起こるのか、そして私たちが何ができるのかを探ります。

この概念は、最初に自己回帰型LLM（大規模言語モデル）において、形式的に特定されました。具体的には、初期のトークンが、Softmax正規化の後、アテンション分布において優勢になることが観察されています。Softmax関数は、アテンションの重みが合計で1になることを要求するため、あるアテンションヘッドが特定のトークンに対して強い好みを持たない場合、「余分な」アテンションを、最初の位置など、アクセスしやすいトークンに集中させてしまいます。これにより、アテンションヒートマップ上で目立つ、明るい垂直のストライプとして見える、持続的なアテンションパターンが生じます。

Transformer architecture and attention sink — **図4:** 標準的なTransformerアーキテクチャ（左）と、注意の集中現象を示した図。これは、注意行列の最初の列に注意が集中している様子を表している（右）。

アテンションシンク（注意の集中点）の挙動は、レイヤーやヘッドによって異なります。初期のレイヤーでは、強いシンクパターンが見られる傾向がありますが、より深いレイヤーでは、より多様なアテンション分布が見られます。この現象は、最初のトークンに限定されるものではありません。BERTにおける[CLS]や[SEP]などの特殊なトークンも、双方向モデルにおいてアテンションシンクとして機能する可能性があります。

Attention heatmaps across layers — **図6:** LLMの異なる層とヘッドにおけるアテンションヒートマップ。ネットワーク全体で強度が異なる、特徴的な最初の列に集中するパターン（アテンションシンク）を示しています。

Modern LLM decoder block — **図7:** モダンなLLMデコーダブロックのアーキテクチャ (LLaMAスタイル)。LayerNorm、RoPE位置エンコーディング、マルチヘッドアテンション、およびゲーテッドFFNが含まれます。

RoPE (Rotary Position Embedding) は、transformerモデルにおいて、各トークンがシーケンスの中でどこにあるのかを示すための一般的な手法です。これは、クエリベクトルとキーベクトルを、それらの位置に比例する角度で回転させることによって機能し、これによりトークン間の距離が自然にエンコードされます。RoPEが、初期位置を幾何学的に区別させることで、注意の集中度を高めるという事実は、この調査における重要な洞察の1つです。

モデルの種類を問わず、注意機構（Attention Mechanism）が重要であること

「アテンションシンク」は、一般的な自己回帰型LLM（大規模言語モデル）に限定されるものではありません。この現象は、古典的なマスク言語モデルから、Vision Transformer、さらにはビデオ生成モデルに至るまで、ほぼすべてのTransformerベースのアーキテクチャに現れます。各アーキテクチャは、独自の「アテンションシンク」の特性を示します。

古典言語モデル (BERT)

BERTのような双方向モデルにおいて、[CLS]と[SEP]トークンは、注意の集まる場所として機能します。[CLS]は初期のレイヤーで高い注意を引き、一方、[SEP]は後続のレイヤーでより大きな影響を与えます。このパターンは、特別なトークンに対する注意の集中という、初期の観察事例の一つでした。

BERT attention patterns — **図5：** BERTにおける注意機構のパターン。各層において、[CLS]トークンと[SEP]トークンが他のトークンよりも過剰に注意を向けられている様子を示しています。

Mixture-of-Experts LLM (大規模言語モデル)

DeepSeekやMixtralのようなMoE（Mixture of Experts）アーキテクチャにおいて、アテンションシンク（attention sink）はエキスパートルーティング（expert routing）と相互作用します。シンクトークン（sink tokens）は、ノンシンクトークン（non-sink tokens）とは異なるエキスパートの分布を活性化させることが示唆されており、これはMoEのルーティングメカニズムがアテンションシンク現象に影響を受け、さらにその現象を増強する可能性があることを示しています。

MoE architecture — **図8：** MoE LLM（Mixture of Experts Large Language Model）のアーキテクチャ。入力トークンに基づいて専門家を選択するルーティングメカニズムを示しています。

Expert activation distribution — **図9:** Qwen3-30B および DeepSeek-V2-Lite における、シンクトークンと非シンクトークンにおける専門家の活性化分布の比較。

マルチモーダルLLM（大規模言語モデル）

ビジョン・ランゲージモデルにおいて、視覚トークン（<img>）はテキストトークンとアテンション・シンク（attention sink）と相互作用します。BOSトークンは、本来視覚コンテンツに注がれるべき注意を吸収してしまうことがあり、その結果、視覚的な理解が低下する可能性があります。この問題に対処するため、アテンション・シンクから画像トークンへと注意を再配分する技術が開発されています。

Multi-modal attention — **図10：** マルチモーダルLLMが、視覚的な質問を処理しており、注意の重みがBOSトークンにおいて「sink」と呼ばれる現象を示している。

Vision Transformers

Vision Transformers (ViTs)も、attention sinkと呼ばれる現象を示すことがあります。これは、特定のパッチトークン（多くの場合、[CLS]トークンやコーナーのパッチ）が、本来よりも過剰な注意を受ける状態を指します。この現象は、attentionマップにアーティファクトとして現れ、特徴量の品質を低下させる可能性があります。登録トークン（register tokens）は、過剰な注意を吸収し、よりクリーンな特徴量表現を生成するために提案されています。

ViT attention sink — **図11：** ViTのアテンションシンクの可視化。特定のパッチトークンに対する不均衡な注意を示しています。

その他のTransformerアーキテクチャ

ビデオ生成のトランスフォーマー、拡散モデル、音声モデル、およびその他の特殊なアーキテクチャにおいて、注意機構の「注意の集中」という問題が観察されています。ビデオ生成においては、この「注意の集中」への対処を省略すると、生成されたフレーム間で時間的な不整合が生じ、視覚的な品質が低下します。

Video generation attention — **図12：** 動画生成におけるアテンションシンク効果。時間ステップごとに、アテンションシンク処理の有無による品質の変化を比較しています。

Pillar 1: 利用状況 (Utilization)

アテンションシンクの基本的な活用法

研究者たちは、アテンション・シンクを単なる問題として扱うのではなく、この現象を実用的な利点のために活用するための戦略を開発してきました。その結果、以下の4つの基本的なアプローチが確立されています。具体的には、安定した推論のためにシンク・トークンを保持する、より優れたコンテンツへの集中を実現するためにアテンションを再配分する、学習可能なプレフィックス・トークンを明示的なシンクとして導入する、そして、シンク・トークンを新しい機能のために再利用する、といった方法です。

シンクトークンの保持

重要なポイント： KVキャッシュにいくつかの初期のシンクトークンを保持することは、安定した長文コンテキスト推論には不可欠です。StreamingLLMは、スライディングウィンドウと保持されたシンクトークンを組み合わせることで、単純なウィンドウベースのアプローチと比較して、perplexityを大幅に低減できることを示しました。

Sink Token Preservation（シンク・トークン保持）は、LLM（大規模言語モデル）の推論において、特にトークン削減、KVキャッシュ圧縮、およびスパースアテンションメカニズムにおいて広く採用されている戦略です。その基本的な考え方はシンプルですが、非常に強力です。すなわち、特定のトークンは、すべてのヘッドとレイヤーにおいて、常に注意（アテンション）を集める傾向があるため、それらをKVキャッシュから削除すると、パフォーマンスが著しく低下します。したがって、モデルは、常にこれらの重要なシンク・トークンと、最近のトークンのスライディングウィンドウを一緒に保持することで、メモリ使用量を一定に保ちながら、任意の長さのシーケンスを処理することができます。

KVキャッシュ：これが現実世界のLLMサービスにとってなぜ重要なのか

ChatGPTのようなLLMとチャットする場合、モデルはこれまでの会話の内容をすべて記憶する必要があります。これは、過去のトークンの処理された表現を保存するKV（Key-Value）キャッシュによって行われます。会話が長くなるにつれて、このキャッシュは増加し、高価なGPUメモリを消費します。StreamingLLMの洞察は、そのシンプルさにおいて素晴らしいものです。すべてを保持する（コストが高すぎる）か、最近のトークンだけを保持する（クラッシュを引き起こす）のではなく、最初の数個の「sink」トークンと、スライディングウィンドウで定義された最近のトークンだけを保持します。この小さな変更により、LLMは固定されたメモリで無限に長い会話を処理できるようになり、すでに実稼働システムで使用されています。

StreamingLLM comparison — 図13： 4つの注意メカニズムの比較：(a) フルKVキャッシュを持つDense、(b) Window Attention、(c) 再計算を行うSliding Window、(d) sinkトークンを保持するStreamingLLM。StreamingLLMは、注意メカニズムにおけるsinkトークンを保持することで、大幅に優れたperplexityを達成します。

この洞察に基づいて、研究者たちは、効率的なスパース計算戦略を可能にする、さまざまな種類の注意機構（attention head）を特定しました。ラムダ形状の注意機構は、典型的な注意の集中パターンを示し、縦線形状の注意機構は、カラム状の注意を示し、ブロックスパースの注意機構は、散在した注意ブロックを示します。これらのパターンを理解することで、注意計算の最適化をより効果的に行うことができます。

Sparse attention head types — **図14：** スパース計算のための3種類の注意機構（アテンションヘッド）：ラムダ形状（注意の集中点）、垂直スラッシュ、およびブロックスパースパターン。

注意の再配分.

主なポイント： 受け身的に注意を消費するのではなく、再配分は、情報量の少ないトークンから意味的に関連性の高いコンテンツトークンへと、積極的に注意を再配分します。これにより、モデルの性能が向上しますが、再学習は不要です。

Attention Redistributionは、注意の集中（attention sink）による悪影響を軽減するために、過剰に集中された注意の質量を、意味的に関連性の高いトークンに再配分することを目的としています。従来の「保持（preservation）」手法が、集中したトークンを安定したアンカーとして静的に保持するのに対し、Redistributionは、積極的に注意の分布を再構築します。これは、特にマルチモーダルLLMにおいて有効であり、BOSトークンによって吸収された注意を、視覚コンテンツのトークンにリダイレクトすることで、画像理解の向上に貢献します。

学習可能なプレフィックストークン.

主なポイント： 事前学習中に、明示的な注意の対象として、学習可能なトークンを導入することで、より洗練された注意分布が得られ、それがモデルの性能向上につながります。これは、出現するだけの注意の対象に依存するよりも優れています。

Learnable Prefix Tokensは、明示的な注意の集約点として機能する、専用の学習可能なトークンを導入します。これは、最初のトークンやBOS（Beginning of Sequence）から自然に生まれる注意の集約点とは異なり、学習中にモデルのパラメータとして最適化され、余剰な注意の質量を吸収するように設計されています。明示的な集約トークンを用いた事前学習は、より明確な注意分布を生み出し、明確な集約特性を持つため、コンテンツ処理への干渉を低減します。

Pre-training with sink token — **図17:** 明示的なシンクトークンなし（左）とあり（右）の場合の注意メカニズムの比較。専用のシンクトークンを持つモデルは、よりクリーンで整理された注意分布を示します。

シンクトークンの再利用.

主なポイント：Vision Transformersにおいて、登録されたトークンはアテンションメカニズムによるアーティファクトを吸収し、よりクリーンな特徴マップを生成します。この再利用は、欠点を設計ツールに変え、より優れた表現を可能にします。

単にシンクの機能を維持したり再配布したりするのではなく、いくつかの手法では、シンクのメカニズム自体を再利用します。Vision Transformersでは、登録トークンが追加され、これらは明示的な注意シンクとして機能し、そうでないと特徴マップを破損させる可能性のあるアーティファクトを吸収します。レジスタを持つDINOv2のようなモデルは、レジスタを持たないモデルと比較して、はるかにクリーンな注意マップを示し、より優れた性能を発揮します。

Register tokens in ViTs — **図19:** DeiT-III、OpenCLIP、およびDINOv2におけるビジョンレジスタのトークン。レジスタなし（左）の場合、アテンションマップにアーティファクトが見られます。レジスタあり（右）の場合、アテンションマップはクリアで、意味的に意味のあるものになります。

第2の柱：解釈

Attention Sink のメカニズムに関する解釈.

「注意散漫」が発生する理由を理解することは、適切な解決策を開発するために非常に重要です。これまでに、5つの主要な理論的枠組みが提案されており、それぞれがこの現象を駆動するメカニズムに関する独自の洞察を提供しています。これらの理論は、互いに競合するものではなく、むしろ補完し合い、複雑で多面的な行動の異なる側面を明らかにします。

Softmaxの制限事項と、No-Op理論.

主なポイント： Softmax関数の合計が1になるという制約により、注意機構（attention heads）は、たとえどのトークンも真に重要でなくても、どこかに重みを割り当てる必要があります。シンクトークンは、ほぼ恒等変換（何もしない操作）を実行する注意機構にとって、「注意の捨てる場所」として機能します。

初期の解釈の一つとして、この理論は、アテンション・シンク（attention sink）を、Softmax関数の固有の制限に帰属させます。標準的なアテンションにおいて、合計が1になるという制約により、すべてのキーに対するアテンションの重みが、すべてのクエリに対して1に正規化される必要があります。アテンション・ヘッドが、特定のクエリの位置に対して意味のある相互作用が存在しないことを学習した場合、どこにも0のアテンションを割り当てることはできません。代わりに、残りの確率質量を、通常は最初のトークンである便利なターゲットに集中させ、特有のアテンション・シンクのパターンを形成します。

SoftmaxにおけるSum-to-One問題：簡単に解説

Softmaxは、生の注意スコアを確率に変換する関数です。その重要な特性は、すべての出力値が合計して正確に1.0（100%）でなければならないことです。ここに問題があります。100個のトークンがあり、特定の計算において、注意ヘッドがどれにも注意する必要がないと仮定します。Softmaxを使用すると、それは必ず、その100%の注意をどこかに分散させなければなりません。それは「これらのどれにも興味がない」とは言えません。では、どうするのでしょうか？それは、その強制的な注意の大部分を、不要な注意の重みを受け入れるための便利な「ゴミ箱」である、最初のトークンに割り当てます。これがno-op理論です。一部の注意ヘッドは、基本的に何もしていない（「何もしない」操作）のですが、Softmaxはそれらに何かに注意しているかのように見せかけさせます。

Attention layer analysis — **図22：** ノープ操作理論を裏付ける証拠を提供する、詳細な注意パターン分析。注意の重みを表すヒートマップ（左）と、値の状態を可視化した図（右）は、シンクに支配されるヘッドにおいて、ほぼ同一の操作を示しています。

Outlier Circuits

重要なポイント： 特定の隠れ層における極端な活性化値の異常が、注意の低下を引き起こす数値的な条件を作り出します。これらの異常値は、層間で相互接続された回路を形成し、そのパターンを増幅し、維持します。

Outlier Circuitsの視点は、Softmax理論がカバーしきれていない問題を提起します。具体的には、どのようにして注意メカニズムにおける「シンク」が数値的に維持されているのか、という問題です。このフレームワークは、Transformerレイヤー全体にまたがる相互接続された回路を形成する、系統的な外れ値（Outlier）アクティベーション、および極端な大きさを持つ特定の隠れ層の次元を特定します。これらの外れ値は、FFN（Feed Forward Network）のダウンプロジェクションで発生し、残差結合（residual connections）を通じて伝播し、注意スコアを決定するQ/Kの内積に影響を与え、自己強化ループを形成してシンクパターンを維持します。

外れ値回路：具体的な例

モデル内の特定のニューロン（例えば、4096次元の隠れ状態におけるチャネル#256）を考えてみましょう。このニューロンは、周囲のニューロンよりもはるかに大きな値、例えば1000倍もの大きな値を生成するように学習しているとします。この「外れ値」チャネルは、ドミノ効果を引き起こします。

FFN（Feed-Forward Network：全結合ネットワーク）は、最初のトークンに対して、そのチャネルで非常に大きなスパイクを生成します。
このスパイクは、残差結合を通じて、すべての後続レイヤーに伝播します。
アテンションを計算する際、Query（クエリ）とKey（キー）ベクトルは、この外れ値を引き継ぎ、最初のトークンのキーベクトルが他のベクトルよりも著しく大きくなります。
任意のQueryとこの過剰なキーとの内積は、非常に大きなスコアを生成します。
Softmax関数を適用すると、このスコアが優勢となり、アテンションの集中点（attention sink）を形成します。

図29に示すライフサイクルは、このプロセスを美しく示しています。外れ値は、レイヤー1で発生し、ネットワークの大部分で安定し、最終レイヤー付近で消失します。

Outlier activations — **図25:** LLaMA-2における3次元アクティベーション可視化。特定のチャンネルで極端な外れ値スパイクが発生し、それがアテンションシンク現象を引き起こしている様子を示しています。

Attention sink lifecycle — **図29:** LLaMA2-7Bのすべてのレイヤーにおける、注意機構の完全なライフサイクル：初期段階（レイヤー0）、出現段階（レイヤー1）、安定段階（レイヤー2～29）、消失段階（レイヤー30）、および最終段階（レイヤー31）。注意機構がどのように出現し、安定し、最終的に消失するかを示しています。

潜在的な注意バイアス

重要なポイント： シンクトークンへの注意を払うことは、注意出力において、実質的に学習されたバイアス項として機能します。シンクトークンからの値の更新は、すべての位置でほぼ一定であり、コンテンツに依存しないグローバルなバイアスとして機能します。

この解釈は、アテンションシンクを機能的な観点から捉えています。シンクトークンに割り当てられるアテンション重みは、すべてのクエリ位置で一定の値を更新します。シンクトークンに関連付けられたベクトルは、シーケンスの残りの部分が何であっても、実質的に同じであるため、結果として得られる寄与は、各位置の表現に固定されたバイアスを加えるものです。この洗練された理論は、シンクトークンを除去することがなぜこれほど破壊的なのかを説明しています。なぜなら、モデルが依存してきた学習されたバイアスが除去されるからです。

簡単に言うと： シンクトークンの値ベクトルを、モデルの「基準設定」と考えてください。すべての位置にこの同じ基準値が追加され、その表現に影響を与えます。これはカメラのホワイトバランスのようなもので、写真の内容に関わらず変化しませんが、取り除くとすべてが不自然に見えてしまいます。

Value update decomposition — **図30：** 値の更新分解。この図は、シンク・トークンからの寄与が、すべての位置でほぼ一定であることを示しており、これは暗黙的なバイアスとして機能している。

幾何学的アンカー固定

重要なポイント： 初期トークンは、埋め込み空間において独特な幾何学的位置を占め、他のすべての位置から注目を集める安定した「アンカー」として機能するクラスターを形成します。

この理論は、表現幾何学の視点から、注意の集中（attention sink）を分析します。PCA（主成分分析）の結果、初期のトークンは、コンテンツトークンが占める多様体とは異なる、特徴的な幾何学的クラスタを埋め込み空間内で形成します。RoPE（Rotary Positional Embedding）による位置エンコーディングでは、この分離がさらに顕著になります。なぜなら、このエンコーディングは、初期の位置が幾何学的なアンカーとなる自然な順序を作り出すからです。初期のトークン表現とすべてのクエリベクトルの間の角度的な近接性は、それらが常に高い注意スコアを引き寄せる理由を説明します。

PCA embedding analysis — **図32:** 各レイヤーにおけるトークン埋め込みのPCA投影。初期トークンは、注意のアンカーとして機能する、特徴的な幾何学的クラスタを形成します。RoPEはこの分離を増幅します。

その他のメカニズムに関する解釈

主要な4つの理論に加えて、新たな解釈では、情報理論的な視点、学習過程の分析、および損失関数の形状との関連性を通じて、「注意の集中」現象を探求しています。これらの補完的な視点は、Transformerが常にこの行動パターンを示す理由についての理解を深め続けています。

第3の柱：緩和策

注意散漫の戦略的軽減.

利用戦略は、注意の集中という要素と連携して機能しますが、緩和戦略は、建築的な変更を通じて、意図しない注意の集中を軽減または排除することを目的としています。4つの主要なアプローチが登場しており、それぞれが注意の集中を引き起こすメカニズムの異なる側面を対象としています。

ゲート付き注意機構 (Gated Attention Mechanisms)

主なポイント： 学習可能なゲートベクトル G を、Q, K, V とともに追加することで、モデルは注意機構における「注意の集中」という問題を明示的に抑制することができます。このゲートは、どの程度の注意情報が伝達されるかを制御し、無効な操作を注意の割り当てから分離します。

Gated Attention Mechanismsは、Softmax/No-Op 理論に直接対応します。アテンション・シンク（注意の集中）が発生するのは、ヘッドがアテンション・メカニズムを通じて、実際には何もしていない（no-op）操作を学習してしまうためです。そこで、ゲートを追加することで、モデルはゲートを閉じるだけで同じno-op効果を実現し、アテンション・ウェイトを意味的に重要なコンテンツに集中させることができます。バリエーションとしては、入力-状態ゲート、値-状態ゲート、アテンション出力ゲートなどがあり、それぞれがアテンション計算の異なる段階でゲートを適用します。

実践におけるゲーティング：生産環境での事例

LLMサービスを構築しており、注意機構の計算コストを削減したい場合、ゲーテッドアテンションは最も実用的な選択肢の一つです。この手法は、各アテンションヘッドに対して、Q、K、Vと同じサイズの小さな学習済みベクトルGを追加し、あたかもボリュームノブのように機能させます。ヘッドが何も処理を行わない（最初のトークンに注意を集中させる）場合、ゲーティングによってその「ボリューム」を下げることができます。これにより、注意の重みが実際のコンテンツに集中できるようになります。オーバーヘッドは最小限で、各層に1つの追加の線形変換を追加するだけで、パラメータ数は約3%増加しますが、それに見合う大きな品質向上が期待できます。

Gated attention mechanism — **図36:** 追加のゲートベクトルGを持つゲート付きアテンション機構。このGは、アテンション出力の流れを制御します。

Gated attention variants — **図39:** 3つのゲート付きアテンションのバリエーション：Vanilla Attention (標準)、Input-State Gated、およびValue-State Gated。それぞれが、異なる箇所にシグモイド関数によるゲートを適用しています。

修正されたソフトマックス関数

主なポイント： 標準的なSoftmaxを、SoftpickやSigSoftmaxのような代替手法に置き換えることで、注意機構における「集中」を強いる「合計が1である」という制約を解消できます。これにより、各ヘッドは特定のトークンに過剰な重みを割り当てずに、「強い好みはない」という状態を表現できるようになります。

Modified Softmax 関数は、Softmax 正規化自体に介入することで、注意の集中化（attention sink）を軽減するための別の直接的なアプローチを提供します。ゲート機構とは異なり、ゲート機構は追加のパスを介して動作しない状態を分離しますが、これらのアプローチは、根本原因である「合計が 1 になる」という制約に直接対処します。Softpick のような代替手段では、注意の重みを真に疎にすることができます。Softmax1 は、余分な確率を吸収できるバイアスユニットを追加します。また、SigSoftmax は、シグモイド関数と Softmax 関数を組み合わせて、より柔軟な分布を実現します。

Softpick vs Softmax: 標準的なsoftmaxは、すべての注意の重みを合計して1になるように強制します。一方、Softpickは、この制約を緩和し、個々の重みが0から1の間で独立して変化することを可能にします。これにより、ヘッドが計算する上で有用な情報がない場合、すべてのトークンに対して実際に低い注意を割り当てることができ、不要なダミーターゲットを必要としなくなります。

Softmax vs Softpick — **図41：** SoftmaxとSoftpickの比較。Softmax（赤色のボックス）は顕著な集中パターンを示しますが、Softpick（緑色のボックス）は、最初の列への集中が見られない、より分散した注意分布を生み出します。

学習可能な注意バイアス (Learnable Attention Bias)

Learnable Attention Biasは、Softmax正規化の前に、学習可能なバイアス項を直接、アテンションスコアに追加します。位置の好みを捉えるための明示的な学習可能なパラメータを提供することで、モデルはもはや、最初のトークンを暗黙的なバイアスメカニズムとして使用する必要がなくなります。このアプローチは実装が容易で、パラメータ数を最小限に抑え、既存のアーキテクチャにファインチューニングを適用することができます。

事前学習の介入.

主なポイント： 事前学習における最適化アルゴリズムの選択は、attention sinkの生成に大きな影響を与えます。 Muonオプティマイザーは、Adamと比較して、チャネル特有の極端な活性化を生成しにくいため、より均一な活性化分布を生み出し、attention sinkを引き起こす外れ値スパイクを抑制します。

事前学習段階での介入は、モデルの学習中に発生する「注意の集中」の根本原因に対処します。例えば、Muonオプティマイザーは、Adamと比較して、活性化分布をより均一にする傾向があり、Adamは特定のチャネルで極端な外れ値のスパイクを生じさせやすいです。これらの介入は、学習中に外れ値の回路の形成を防ぐことで、アーキテクチャの変更なしに「注意の集中」を軽減することができます。

Optimizer comparison — 図42：異なる最適化手法を用いたFFN入力アクティベーションの比較：(a) Adamは極端な外れ値スパイクを生成する。(b) Muonはより均一な分布を生成する。(c) OSPを組み合わせたMuonは、アクティベーションをさらに滑らかにする。

アプリケーションと実践的なガイドライン.

Attention sink（注意点沈降）に関する知識は、Transformerモデルの開発と展開における9つの主要な分野において、実用的な意味を持つ。Attention sinkを理解し、管理することで、モデルの品質、効率、安全性、および能力を向上させることができる。

モデルの事前学習

注意散漫が発生する可能性を考慮したトレーニング手順を設計し、最適化手法の選択や、明示的なシンクトークン戦略を含める。

モデルの調整

トレーニング後に、LoRAを用いて、アテンションの重み、バイアスの注入、またはアテンションの再配分を通じて、アテンションのパターンを微調整します。

モデル推論

KVキャッシュの管理、スパースアテンション、およびトークン削減戦略を最適化し、安定した推論のために重要なトークンを保持します。

解釈可能性

アテンションシンクパターンを、モデルの動作を理解し、アテンションヘッドの専門化を特定するための診断ツールとして活用します。

幻覚の軽減.

テキストおよびマルチモーダル生成における幻覚的な出力の低減のために、入力トークンから事実に基づいたコンテンツへの注意を向けさせる。

安全性と信頼性

アテンションシンクの破壊パターンを分析することで、バックドア攻撃や敵対的入力（adversarial inputs）を検知する。

一般的な能力

意味的に関連するトークンに対して、より適切な注意の配分を行うことで、モデル全体の品質を向上させます。

長文コンテキストの強化

長いシーケンスを効率的に処理するために、sink-awareなKVキャッシュ圧縮とストリーミングアテンションを導入しました。

マルチモーダル拡張

テキストの「sinkトークン」からの注意を、視覚情報や音声コンテンツに再配分することで、異なるモダリティ間の理解を向上させます。

実践的なチェックリスト：Attention Sink を考慮すべきタイミング

すべての機械学習プロジェクトが、Attention Sink（注意の集中）を気にする必要はありません。以下は簡単なガイドです。

長いコンテキストのLLMを展開していますか？ KVキャッシュの管理において、Attention Sinkへの意識は非常に重要です。
画像とテキストを組み合わせたモデルを構築していますか？ Attentionの再配分は、視覚的な理解を大幅に向上させることができます。
幻覚現象を軽減するためのファインチューニングを行っていますか？ Attentionを、不要なトークンからコンテンツトークンへとリダイレクトすることで、効果が得られます。
最初から学習させていますか？ よりクリーンなAttentionパターンを実現するために、Muonオプティマイザーや明示的なシンクトークンを検討してください。
短いコンテキストの分類タスクですか？ Attention Sinkの影響は最小限であり、標準的な手法で問題ありません。

注目記事：Attention Sink & Hallucination

シンク・トークンへの過度な注意は、モデルの焦点が実際のコンテンツから逸れる原因となります。ビジョン・ランゲージモデルにおいて、これはモデルが画像ではなく、BOSトークンに注意を払い、存在しないものの説明を生成することを意味します。以下の注意マップは、シンク・トークン（明るい列）と、幻覚的なテキスト出力との相関関係を示しています。

Attention sink and hallucination — **図20:** ハルシネーションとの関係を示す注意マップ。明るい列が注意の集中点を示し、モデルが幻覚的なコンテンツを生成していることを示しています。

注目ポイント：安全性とバックドア検出.

アテンションシンク解析は、AIの安全性に関する新たなアプローチを可能にします。研究者は、潜在的なトリガーとなるトークン周辺でのアテンションパターンがどのように変化するかを調べることで、バックドア攻撃を特定し、その場所を特定することができます。アテンションシンクは、バックドアがどこに埋め込まれているかを特定するのに役立ち、一方、バリュー・ノルム解析は、それがどのように機能するかを明らかにします。

Backdoor detection via attention sink — **図21：** 機械学習の忘却とバックドア検出におけるアテンションシンク。アテンションパターンが、埋め込まれたバックドアを特定し、無効化するのにどのように役立つかを示しています。

課題と今後の展望

現在の課題

計算コスト： 動的なシンクの効率的で正確な検出は、依然として解決すべき課題であり、動的な識別には追加の計算コストがかかる。
カーネルの互換性： 多くの軽減策は、Softmax後のアテンションスコアに対して適用されるため、FlashAttentionのようなハードウェア最適化されたアテンションカーネルとの互換性が制限される場合があります。
理論の統合：既存の5つのメカニズムに関する理論は、依然として大部分が独立しており、注意の減衰（attention sink）のすべての側面を説明する統合的なフレームワークはまだ確立されていません。
クロスアーキテクチャの汎用性： あるアーキテクチャ向けに開発された手法が、他のアーキテクチャ（LLMs、ViTs、MoEモデルなど）にうまく適用できない場合があります。
評価の標準化： モデル間で、注意の集中度合いとその軽減効果を測定するための標準化されたベンチマークは存在しません。

今後の展望

効率的なアテンション機構の扱い方： 動的なシンクの軽量な検出、効率的なアテンションの再分配、および低遅延のゲーテッドアテンションの実装。
ハードウェアネイティブなソリューション： FlashAttentionやその他の最適化されたカーネル*の中で*、またはそれらに*基づいて*、注意機構の負荷を軽減する設計を行う。
統一されたメカニズム理論： ソフトマックス制約、外れ値回路、潜在的なバイアス、および幾何学的なアプローチを包括的なフレームワークに統合します。
アテンション・シンクのないアーキテクチャ： 建築的な革新を通じて、本質的にアテンション・シンクを回避する次世代のトランスフォーマーを設計する。
マルチモーダル最適化： ビジョン・言語モデルやその他のマルチモーダルアーキテクチャ向けに特化した、アテンションシンク管理戦略の開発。

結論

この調査は、TransformerアーキテクチャにおけるAttention Sinkに関する、最初の包括的なレビューです。本調査では、以下の3つの側面から、200件を超える研究を体系的に分析しています。基本的な利用方法、メカニズム的な解釈、および戦略的な緩和策。Attention Sinkは、LLM（大規模言語モデル）、Vision Transformers、MoEモデル、およびマルチモーダルアーキテクチャにおける、学習プロセス、推論効率、モデルの挙動に大きな影響を与えます。既存の研究を整理し、未解決の課題を特定することで、研究者や実務家が、現在のTransformerパラダイムの中でAttention Sinkを効果的に管理し、次世代のアーキテクチャの開発を促進することを目指します。

キーワード

Attention Sink Transformer Large Language Model Attention Mechanism KV Cache Vision Transformer Softmax Survey

参考文献

A. Vaswani et al., "Attention Is All You Need," NeurIPS, 2017.
J. Devlin et al., "BERT: Pre-training of Deep Bidirectional Transformers," NAACL, 2019.
A. Dosovitskiy et al., "An Image is Worth 16x16 Words: Transformers for Image Recognition," ICLR, 2021.
T. Brown et al., "Language Models are Few-Shot Learners," NeurIPS, 2020.
H. Touvron et al., "LLaMA: Open and Efficient Foundation Language Models," arXiv, 2023.
A. Jiang et al., "Mistral 7B," arXiv, 2023.
G. Xiao et al., "Efficient Streaming Language Models with Attention Sinks," ICLR, 2024.
S. Darcet et al., "Vision Transformers Need Registers," ICLR, 2024.
Full reference list available in the original paper.