---
arxiv_id: 2604.10098
title: "Transformerにおける注意機構：サーベイ | Flecto"
authors:
  - Zunhai Su
  - Hengyuan Zhang
  - Wei Wu
  - Yifan Zhang
  - Yaxiu Liu
  - He Xiao
  - Qingyao Yang
  - Yuxuan Sun
  - Rui Yang
  - Chao Zhang
  - Keyu Fan
  - Weihao Ye
  - Jing Xiong
  - Hui Shen
  - Chaofan Tao
  - Taiqiang Wu
  - Zhongwei Wan
  - Yulei Qian
  - Yuchen Xie
  - Ngai Wong
difficulty: Intermediate
tags:
  - Transformer
  - Attention Mechanism
  - Survey
  - Inference Optimization
published_at: 2026-04-11
flecto_url: https://flecto.zer0ai.dev/ja/papers/2604.10098/
lang: ja
---

> TransformerにおけるAttentionメカニズム：利用、解釈、および軽減に関する調査.

**著者**: 200件以上の論文を網羅した、トランスフォーマーがどのようにして情報価値の低いトークンに注意を集中させてしまうか、そしてそれに対して私たちが何ができるかについて、初めての包括的な調査です。

## Abstract

現代機械学習の基礎アーキテクチャであるTransformerは、多様なAI分野で目覚ましい進歩を牽引してきました。しかし、その革新的な影響にもかかわらず、様々なTransformerに共通する課題として、 Attention Sink (AS) が存在します。これは、特定のトークン群に過剰な注意が集中する現象であり、そのトークンは情報を提供していない場合があります。ASは解釈を複雑にし、学習と推論のプロセスに大きな影響を与え、また、幻覚（ハルシネーション）といった問題を引き起こす可能性があります。近年、ASの理解と活用に関する研究が活発に行われていますが、ASに関連する研究を体系的にまとめ、今後の発展のための指針を提供する包括的な調査はまだ不足しています。この課題を解決するために、私たちは Attention Sinkに関する初の調査 を提示します。この調査は、現在の研究分野を定義する3つの主要な側面を中心に構成されています。 Fundamental Utilization 、 Mechanistic Interpretation 、そして Strategic Mitigation です。私たちの研究は、重要な概念を明確にし、研究者がこの分野の進化と動向を理解するための重要な貢献となるでしょう。

## Introduction

Transformerは、マルチヘッド・セルフアテンション機構に基づき、機械学習における基本的なアーキテクチャとして登場し、長距離依存関係を捉えるという比類なき能力を持っています。しかし、Transformerには奇妙な挙動が見られます。 Attention Sink（注意の集中） ：これは、特定のトークン（通常は最初のトークン、または[CLS]のような特殊トークン）が、その意味内容に関わらず、過剰な注意を受ける現象です。この現象は、モデルの解釈性、推論効率に影響を与え、また、幻覚（ハルシネーション）を引き起こす可能性があります。

### 初の包括的な調査 。これは、基礎研究の活用、メカニズム解釈、および戦略的緩和に関する、AS（原因不明の全身性疾患）に関連するすべての研究を体系的に統合したものです。

### 統合フレームワーク ：主要な概念を明確にし、当該分野の発展と動向を把握し、異なる研究分野間の関連性を確立します。

### 研究者や実務家向けの、事前学習、チューニング、推論、解釈可能性、幻覚の軽減、安全性など、様々な応用分野を網羅した、 実践的なガイドライン 。

## Conclusion

この調査は、TransformerアーキテクチャにおけるAttention Sinkに関する、最初の包括的なレビューです。本調査では、以下の3つの側面から、200件を超える研究を体系的に分析しています。 基本的な利用方法 、 メカニズム的な解釈 、および 戦略的な緩和策 。Attention Sinkは、LLM（大規模言語モデル）、Vision Transformers、MoEモデル、およびマルチモーダルアーキテクチャにおける、学習プロセス、推論効率、モデルの挙動に大きな影響を与えます。既存の研究を整理し、未解決の課題を特定することで、研究者や実務家が、現在のTransformerパラダイムの中でAttention Sinkを効果的に管理し、次世代のアーキテクチャの開発を促進することを目指します。

## References

### 参考文献

## Meta

### Transformerにおける注意機構：サーベイ | Flecto

### Transformerにおける注意機構：利用、解釈、および軽減に関するサーベイ。

### トランスフォーマーにおける「注意の消失」に関する200件以上の論文を網羅的に調査した研究。利用状況、解釈、および軽減策について解説しています。

### トランスフォーマーにおける「アテンションシンク」に関する200件以上の論文を網羅的に調査した内容。利用方法、解釈、および軽減策について解説しています。

### https://flecto.zer0ai.dev/ja/papers/2604.10098/

### ja_JP

### https://flecto.zer0ai.dev/ja/papers/2604.10098/

## Metrics

### 調査対象論文

### 研究の柱

### 2024年中の39件から、2026年初頭の206件へと、論文の発表件数が増加しました。

## Overview

### 調査概要

この調査は、Attention Sinkに関する研究を、明確な3つの柱を持つフレームワークに整理しています。 ` 基本利用 (Fundamental Utilization) ` は、実務家がどのようにAttention Sinkのパターンを、効率的な推論のために活用するか（KVキャッシュ圧縮、スパースアテンションなど）を扱います。 ` メカニズム解釈 (Mechanistic Interpretation) ` は、softmaxの制約、外れ値回路、および幾何学的特性に関する理論を通じて、Attention Sinkがどのように発生するかを探求します。 ` 戦略的緩和 (Strategic Mitigation) ` は、望ましくないアテンションの集中を減らすか、完全に排除するためのアーキテクチャの変更について説明します。

### 図1： 調査の構造の概要。3つの研究の柱と、それぞれのサブカテゴリの関係を示しています。

## Taxonomy

### 論文の分類と研究の現状.

この調査では、200件以上の論文を網羅的に分類し、階層的な分類体系を構築しています。各項目は、活用戦略、解釈理論、緩和アプローチ、および実用的な応用における特定の研究成果を、それぞれのカテゴリへと結び付けています。

### 図2： 調査対象となったすべての論文の完全な分類ツリー。研究分野ごとに整理されています。

### 図3： 2023年から2026年初頭までの累積発表論文数。3つの主要な研究分野すべてで急激な成長が見られます。

## Basics

### Attention Sinkとは何ですか？

Attention Sink とは、特定の、しかし意味的に無益なトークン群に、不均衡なほど高い注意の重みが集中する現象を指します。自己回帰型LLM（Large Language Models）において、これは通常、入力内容に関わらず、ほとんどの注意ヘッドとレイヤーにおいて、最初のトークン（またはBOSトークン）が圧倒的に高い注意スコアを受ける形で現れます。

この概念は、最初に自己回帰型LLM（大規模言語モデル）において、形式的に特定されました。具体的には、初期のトークンが、Softmax正規化の後、アテンション分布において優勢になることが観察されています。Softmax関数は、アテンションの重みが合計で1になることを要求するため、あるアテンションヘッドが特定のトークンに対して強い好みを持たない場合、「余分な」アテンションを、最初の位置など、アクセスしやすいトークンに集中させてしまいます。これにより、アテンションヒートマップ上で目立つ、明るい垂直のストライプとして見える、持続的なアテンションパターンが生じます。

### 図4: 標準的なTransformerアーキテクチャ（左）と、注意の集中現象を示した図。これは、注意行列の最初の列に注意が集中している様子を表している（右）。

アテンションシンク（注意の集中点）の挙動は、レイヤーやヘッドによって異なります。初期のレイヤーでは、強いシンクパターンが見られる傾向がありますが、より深いレイヤーでは、より多様なアテンション分布が見られます。この現象は、最初のトークンに限定されるものではありません。BERTにおける[CLS]や[SEP]などの特殊なトークンも、双方向モデルにおいてアテンションシンクとして機能する可能性があります。

### 図6: LLMの異なる層とヘッドにおけるアテンションヒートマップ。ネットワーク全体で強度が異なる、特徴的な最初の列に集中するパターン（アテンションシンク）を示しています。

### 図7: モダンなLLMデコーダブロックのアーキテクチャ (LLaMAスタイル)。LayerNorm、RoPE位置エンコーディング、マルチヘッドアテンション、およびゲーテッドFFNが含まれます。

## Models

### モデルの種類を問わず、注意機構（Attention Mechanism）が重要であること

「アテンションシンク」は、一般的な自己回帰型LLM（大規模言語モデル）に限定されるものではありません。この現象は、古典的なマスク言語モデルから、Vision Transformer、さらにはビデオ生成モデルに至るまで、ほぼすべてのTransformerベースのアーキテクチャに現れます。各アーキテクチャは、独自の「アテンションシンク」の特性を示します。

### 古典言語モデル (BERT)

BERTのような双方向モデルにおいて、[CLS]と[SEP]トークンは、注意の集まる場所として機能します。[CLS]は初期のレイヤーで高い注意を引き、一方、[SEP]は後続のレイヤーでより大きな影響を与えます。このパターンは、特別なトークンに対する注意の集中という、初期の観察事例の一つでした。

### 図5： BERTにおける注意機構のパターン。各層において、[CLS]トークンと[SEP]トークンが他のトークンよりも過剰に注意を向けられている様子を示しています。

### Mixture-of-Experts LLM (大規模言語モデル)

DeepSeekやMixtralのようなMoE（Mixture of Experts）アーキテクチャにおいて、アテンションシンク（attention sink）はエキスパートルーティング（expert routing）と相互作用します。シンクトークン（sink tokens）は、ノンシンクトークン（non-sink tokens）とは異なるエキスパートの分布を活性化させることが示唆されており、これはMoEのルーティングメカニズムがアテンションシンク現象に影響を受け、さらにその現象を増強する可能性があることを示しています。

### 図8： MoE LLM（Mixture of Experts Large Language Model）のアーキテクチャ。入力トークンに基づいて専門家を選択するルーティングメカニズムを示しています。

### 図9: Qwen3-30B および DeepSeek-V2-Lite における、シンクトークンと非シンクトークンにおける専門家の活性化分布の比較。

### マルチモーダルLLM（大規模言語モデル）

ビジョン・ランゲージモデルにおいて、視覚トークン（<img>）はテキストトークンとアテンション・シンク（attention sink）と相互作用します。BOSトークンは、本来視覚コンテンツに注がれるべき注意を吸収してしまうことがあり、その結果、視覚的な理解が低下する可能性があります。この問題に対処するため、アテンション・シンクから画像トークンへと注意を再配分する技術が開発されています。

### 図10： マルチモーダルLLMが、視覚的な質問を処理しており、注意の重みがBOSトークンにおいて「sink」と呼ばれる現象を示している。

### Vision Transformers

Vision Transformers (ViTs)も、attention sinkと呼ばれる現象を示すことがあります。これは、特定のパッチトークン（多くの場合、[CLS]トークンやコーナーのパッチ）が、本来よりも過剰な注意を受ける状態を指します。この現象は、attentionマップにアーティファクトとして現れ、特徴量の品質を低下させる可能性があります。登録トークン（register tokens）は、過剰な注意を吸収し、よりクリーンな特徴量表現を生成するために提案されています。

### 図11： ViTのアテンションシンクの可視化。特定のパッチトークンに対する不均衡な注意を示しています。

### その他のTransformerアーキテクチャ

ビデオ生成のトランスフォーマー、拡散モデル、音声モデル、およびその他の特殊なアーキテクチャにおいて、注意機構の「注意の集中」という問題が観察されています。ビデオ生成においては、この「注意の集中」への対処を省略すると、生成されたフレーム間で時間的な不整合が生じ、視覚的な品質が低下します。

### 図12： 動画生成におけるアテンションシンク効果。時間ステップごとに、アテンションシンク処理の有無による品質の変化を比較しています。

## Utilization

### Pillar 1: 利用状況 (Utilization)

### アテンションシンクの基本的な活用法

研究者たちは、アテンション・シンクを単なる問題として扱うのではなく、この現象を実用的な利点のために活用するための戦略を開発してきました。その結果、以下の4つの基本的なアプローチが確立されています。具体的には、安定した推論のためにシンク・トークンを保持する、より優れたコンテンツへの集中を実現するためにアテンションを再配分する、学習可能なプレフィックス・トークンを明示的なシンクとして導入する、そして、シンク・トークンを新しい機能のために再利用する、といった方法です。

### シンクトークンの保持

重要なポイント： KVキャッシュにいくつかの初期のシンクトークンを保持することは、安定した長文コンテキスト推論には不可欠です。StreamingLLMは、スライディングウィンドウ と 保持されたシンクトークンを組み合わせることで、単純なウィンドウベースのアプローチと比較して、perplexityを大幅に低減できることを示しました。

Sink Token Preservation（シンク・トークン保持）は、LLM（大規模言語モデル）の推論において、特にトークン削減、KVキャッシュ圧縮、およびスパースアテンションメカニズムにおいて広く採用されている戦略です。 その基本的な考え方はシンプルですが、非常に強力です。 すなわち、特定のトークンは、すべてのヘッドとレイヤーにおいて、常に注意（アテンション）を集める傾向があるため、それらをKVキャッシュから削除すると、パフォーマンスが著しく低下します。 したがって、モデルは、常にこれらの重要なシンク・トークンと、最近のトークンのスライディングウィンドウを一緒に保持することで、メモリ使用量を一定に保ちながら、任意の長さのシーケンスを処理することができます。

図13： 4つの注意メカニズムの比較：(a) フルKVキャッシュを持つDense、(b) Window Attention、(c) 再計算を行うSliding Window、(d) sinkトークンを保持するStreamingLLM。StreamingLLMは、注意メカニズムにおけるsinkトークンを保持することで、大幅に優れたperplexityを達成します。

この洞察に基づいて、研究者たちは、効率的なスパース計算戦略を可能にする、さまざまな種類の注意機構（attention head）を特定しました。ラムダ形状の注意機構は、典型的な注意の集中パターンを示し、縦線形状の注意機構は、カラム状の注意を示し、ブロックスパースの注意機構は、散在した注意ブロックを示します。これらのパターンを理解することで、注意計算の最適化をより効果的に行うことができます。

### 図14： スパース計算のための3種類の注意機構（アテンションヘッド）：ラムダ形状（注意の集中点）、垂直スラッシュ、およびブロックスパースパターン。

### 注意の再配分.

主なポイント： 受け身的に注意を消費するのではなく、再配分は、情報量の少ないトークンから意味的に関連性の高いコンテンツトークンへと、積極的に注意を再配分します。これにより、モデルの性能が向上しますが、再学習は不要です。

Attention Redistributionは、注意の集中（attention sink）による悪影響を軽減するために、過剰に集中された注意の質量を、意味的に関連性の高いトークンに再配分することを目的としています。従来の「保持（preservation）」手法が、集中したトークンを安定したアンカーとして静的に保持するのに対し、Redistributionは、積極的に注意の分布を再構築します。これは、特にマルチモーダルLLMにおいて有効であり、BOSトークンによって吸収された注意を、視覚コンテンツのトークンにリダイレクトすることで、画像理解の向上に貢献します。

### 図16: マルチモーダルLLMにおける注意機構の再配分：(a) 画像に重点を置いた注意ヘッドの選択、(b) 注意予算メカニズムを使用して、BOSトークンから画像トークンへの注意重みの再配分。

### 学習可能なプレフィックストークン.

主なポイント： 事前学習中に、明示的な注意の対象として、学習可能なトークンを導入することで、より洗練された注意分布が得られ、それがモデルの性能向上につながります。これは、出現するだけの注意の対象に依存するよりも優れています。

Learnable Prefix Tokensは、明示的な注意の集約点として機能する、専用の学習可能なトークンを導入します。これは、最初のトークンやBOS（Beginning of Sequence）から自然に生まれる注意の集約点とは異なり、学習中にモデルのパラメータとして最適化され、余剰な注意の質量を吸収するように設計されています。明示的な集約トークンを用いた事前学習は、より明確な注意分布を生み出し、明確な集約特性を持つため、コンテンツ処理への干渉を低減します。

### 図17: 明示的なシンクトークンなし（左）とあり（右）の場合の注意メカニズムの比較。専用のシンクトークンを持つモデルは、よりクリーンで整理された注意分布を示します。

### シンクトークンの再利用.

主なポイント： Vision Transformersにおいて、登録されたトークンはアテンションメカニズムによるアーティファクトを吸収し、よりクリーンな特徴マップを生成します。この再利用は、欠点を設計ツールに変え、より優れた表現を可能にします。

単にシンクの機能を維持したり再配布したりするのではなく、いくつかの手法では、シンクのメカニズム自体を再利用します。Vision Transformersでは、登録トークンが追加され、これらは明示的な注意シンクとして機能し、そうでないと特徴マップを破損させる可能性のあるアーティファクトを吸収します。レジスタを持つDINOv2のようなモデルは、レジスタを持たないモデルと比較して、はるかにクリーンな注意マップを示し、より優れた性能を発揮します。

図19: DeiT-III、OpenCLIP、およびDINOv2におけるビジョンレジスタのトークン。レジスタなし（左）の場合、アテンションマップにアーティファクトが見られます。レジスタあり（右）の場合、アテンションマップはクリアで、意味的に意味のあるものになります。

## Interpretation

### 第2の柱：解釈

### Attention Sink のメカニズムに関する解釈.

「注意散漫」が発生する 理由 を理解することは、適切な解決策を開発するために非常に重要です。これまでに、5つの主要な理論的枠組みが提案されており、それぞれがこの現象を駆動するメカニズムに関する独自の洞察を提供しています。これらの理論は、互いに競合するものではなく、むしろ補完し合い、複雑で多面的な行動の異なる側面を明らかにします。

### Softmaxの制限事項と、No-Op理論.

主なポイント： Softmax関数の合計が1になるという制約により、注意機構（attention heads）は、たとえどのトークンも真に重要でなくても、どこかに重みを割り当てる必要があります。シンクトークンは、ほぼ恒等変換（何もしない操作）を実行する注意機構にとって、「注意の捨てる場所」として機能します。

初期の解釈の一つとして、この理論は、アテンション・シンク（attention sink）を、Softmax関数の固有の制限に帰属させます。標準的なアテンションにおいて、合計が1になるという制約により、すべてのキーに対するアテンションの重みが、すべてのクエリに対して1に正規化される必要があります。アテンション・ヘッドが、特定のクエリの位置に対して意味のある相互作用が存在しないことを学習した場合、どこにも0のアテンションを割り当てることはできません。代わりに、残りの確率質量を、通常は最初のトークンである便利なターゲットに集中させ、特有のアテンション・シンクのパターンを形成します。

図22： ノープ操作理論を裏付ける証拠を提供する、詳細な注意パターン分析。注意の重みを表すヒートマップ（左）と、値の状態を可視化した図（右）は、シンクに支配されるヘッドにおいて、ほぼ同一の操作を示しています。

### Outlier Circuits

### 重要なポイント： 特定の隠れ層における極端な活性化値の異常が、注意の低下を引き起こす数値的な条件を作り出します。これらの異常値は、層間で相互接続された回路を形成し、そのパターンを増幅し、維持します。

Outlier Circuitsの視点は、Softmax理論がカバーしきれていない問題を提起します。 具体的には、 どのようにして注意メカニズムにおける「シンク」が数値的に維持されているのか、という問題です。このフレームワークは、Transformerレイヤー全体にまたがる相互接続された回路を形成する、系統的な外れ値（Outlier）アクティベーション、および極端な大きさを持つ特定の隠れ層の次元を特定します。これらの外れ値は、FFN（Feed Forward Network）のダウンプロジェクションで発生し、残差結合（residual connections）を通じて伝播し、注意スコアを決定するQ/Kの内積に影響を与え、自己強化ループを形成してシンクパターンを維持します。

### 図25: LLaMA-2における3次元アクティベーション可視化。特定のチャンネルで極端な外れ値スパイクが発生し、それがアテンションシンク現象を引き起こしている様子を示しています。

図29: LLaMA2-7Bのすべてのレイヤーにおける、注意機構の完全なライフサイクル：初期段階（レイヤー0）、出現段階（レイヤー1）、安定段階（レイヤー2～29）、消失段階（レイヤー30）、および最終段階（レイヤー31）。注意機構がどのように出現し、安定し、最終的に消失するかを示しています。

### 潜在的な注意バイアス

重要なポイント： シンクトークンへの注意を払うことは、注意出力において、実質的に学習されたバイアス項として機能します。 シンクトークンからの値の更新は、すべての位置でほぼ一定であり、コンテンツに依存しないグローバルなバイアスとして機能します。

この解釈は、アテンションシンクを機能的な観点から捉えています。シンクトークンに割り当てられるアテンション重みは、すべてのクエリ位置で 一定の 値を更新します。シンクトークンに関連付けられたベクトルは、シーケンスの残りの部分が何であっても、実質的に同じであるため、結果として得られる寄与は、各位置の表現に固定されたバイアスを加えるものです。この洗練された理論は、シンクトークンを除去することがなぜこれほど破壊的なのかを説明しています。なぜなら、モデルが依存してきた学習されたバイアスが除去されるからです。

### 図30： 値の更新分解。この図は、シンク・トークンからの寄与が、すべての位置でほぼ一定であることを示しており、これは暗黙的なバイアスとして機能している。

### 幾何学的アンカー固定

### 重要なポイント： 初期トークンは、埋め込み空間において独特な幾何学的位置を占め、他のすべての位置から注目を集める安定した「アンカー」として機能するクラスターを形成します。

この理論は、表現幾何学の視点から、注意の集中（attention sink）を分析します。PCA（主成分分析）の結果、初期のトークンは、コンテンツトークンが占める多様体とは異なる、特徴的な幾何学的クラスタを埋め込み空間内で形成します。RoPE（Rotary Positional Embedding）による位置エンコーディングでは、この分離がさらに顕著になります。なぜなら、このエンコーディングは、初期の位置が幾何学的なアンカーとなる自然な順序を作り出すからです。初期のトークン表現とすべてのクエリベクトルの間の角度的な近接性は、それらが常に高い注意スコアを引き寄せる理由を説明します。

### 図32: 各レイヤーにおけるトークン埋め込みのPCA投影。初期トークンは、注意のアンカーとして機能する、特徴的な幾何学的クラスタを形成します。RoPEはこの分離を増幅します。

### その他のメカニズムに関する解釈

主要な4つの理論に加えて、新たな解釈では、情報理論的な視点、学習過程の分析、および損失関数の形状との関連性を通じて、「注意の集中」現象を探求しています。これらの補完的な視点は、Transformerが常にこの行動パターンを示す理由についての理解を深め続けています。

## Mitigation

### 第3の柱：緩和策

### 注意散漫の戦略的軽減.

利用戦略は、注意の集中という要素 と連携 して機能しますが、緩和戦略は、建築的な変更を通じて、意図しない注意の集中を 軽減または排除 することを目的としています。4つの主要なアプローチが登場しており、それぞれが注意の集中を引き起こすメカニズムの異なる側面を対象としています。

### ゲート付き注意機構 (Gated Attention Mechanisms)

主なポイント： 学習可能なゲートベクトル G を、Q, K, V とともに追加することで、モデルは注意機構における「注意の集中」という問題を明示的に抑制することができます。このゲートは、どの程度の注意情報が伝達されるかを制御し、無効な操作を注意の割り当てから分離します。

Gated Attention Mechanismsは、Softmax/No-Op 理論に直接対応します。アテンション・シンク（注意の集中）が発生するのは、ヘッドがアテンション・メカニズムを通じて、実際には何もしていない（no-op）操作を学習してしまうためです。そこで、ゲートを追加することで、モデルはゲートを閉じるだけで同じno-op効果を実現し、アテンション・ウェイトを意味的に重要なコンテンツに集中させることができます。バリエーションとしては、入力-状態ゲート、値-状態ゲート、アテンション出力ゲートなどがあり、それぞれがアテンション計算の異なる段階でゲートを適用します。

### 図36: 追加のゲートベクトルGを持つゲート付きアテンション機構。このGは、アテンション出力の流れを制御します。

図39: 3つのゲート付きアテンションのバリエーション：Vanilla Attention (標準)、Input-State Gated、およびValue-State Gated。それぞれが、異なる箇所にシグモイド関数によるゲートを適用しています。

### 修正されたソフトマックス関数

主なポイント： 標準的なSoftmaxを、SoftpickやSigSoftmaxのような代替手法に置き換えることで、注意機構における「集中」を強いる「合計が1である」という制約を解消できます。これにより、各ヘッドは特定のトークンに過剰な重みを割り当てずに、「強い好みはない」という状態を表現できるようになります。

Modified Softmax 関数は、Softmax 正規化自体に介入することで、注意の集中化（attention sink）を軽減するための別の直接的なアプローチを提供します。ゲート機構とは異なり、ゲート機構は追加のパスを介して動作しない状態を分離しますが、これらのアプローチは、根本原因である「合計が 1 になる」という制約に直接対処します。Softpick のような代替手段では、注意の重みを真に疎にすることができます。Softmax1 は、余分な確率を吸収できるバイアスユニットを追加します。また、SigSoftmax は、シグモイド関数と Softmax 関数を組み合わせて、より柔軟な分布を実現します。

図41： SoftmaxとSoftpickの比較。Softmax（赤色のボックス）は顕著な集中パターンを示しますが、Softpick（緑色のボックス）は、最初の列への集中が見られない、より分散した注意分布を生み出します。

### 学習可能な注意バイアス (Learnable Attention Bias)

Learnable Attention Biasは、Softmax正規化の前に、学習可能なバイアス項を直接、アテンションスコアに追加します。位置の好みを捉えるための明示的な学習可能なパラメータを提供することで、モデルはもはや、最初のトークンを暗黙的なバイアスメカニズムとして使用する必要がなくなります。このアプローチは実装が容易で、パラメータ数を最小限に抑え、既存のアーキテクチャにファインチューニングを適用することができます。

### 事前学習の介入.

主なポイント： 事前学習における最適化アルゴリズムの選択は、attention sinkの生成に大きな影響を与えます。 Muonオプティマイザーは、Adamと比較して、チャネル特有の極端な活性化を生成しにくいため、より均一な活性化分布を生み出し、attention sinkを引き起こす外れ値スパイクを抑制します。

事前学習段階での介入は、モデルの学習中に発生する「注意の集中」の根本原因に対処します。例えば、Muonオプティマイザーは、Adamと比較して、活性化分布をより均一にする傾向があり、Adamは特定のチャネルで極端な外れ値のスパイクを生じさせやすいです。これらの介入は、学習中に外れ値の回路の形成を防ぐことで、アーキテクチャの変更なしに「注意の集中」を軽減することができます。

図42： 異なる最適化手法を用いたFFN入力アクティベーションの比較：(a) Adamは極端な外れ値スパイクを生成する。(b) Muonはより均一な分布を生成する。(c) OSPを組み合わせたMuonは、アクティベーションをさらに滑らかにする。

## Applications

### アプリケーションと実践的なガイドライン.

Attention sink（注意点沈降）に関する知識は、Transformerモデルの開発と展開における9つの主要な分野において、実用的な意味を持つ。Attention sinkを理解し、管理することで、モデルの品質、効率、安全性、および能力を向上させることができる。

### モデルの事前学習

### 注意散漫が発生する可能性を考慮したトレーニング手順を設計し、最適化手法の選択や、明示的なシンクトークン戦略を含める。

### モデルの調整

### トレーニング後に、LoRAを用いて、アテンションの重み、バイアスの注入、またはアテンションの再配分を通じて、アテンションのパターンを微調整します。

### モデル推論

### KVキャッシュの管理、スパースアテンション、およびトークン削減戦略を最適化し、安定した推論のために重要なトークンを保持します。

### 解釈可能性

### アテンションシンクパターンを、モデルの動作を理解し、アテンションヘッドの専門化を特定するための診断ツールとして活用します。

### 幻覚の軽減.

### テキストおよびマルチモーダル生成における幻覚的な出力の低減のために、入力トークンから事実に基づいたコンテンツへの注意を向けさせる。

### 安全性と信頼性

### アテンションシンクの破壊パターンを分析することで、バックドア攻撃や敵対的入力（adversarial inputs）を検知する。

### 一般的な能力

### 意味的に関連するトークンに対して、より適切な注意の配分を行うことで、モデル全体の品質を向上させます。

### 長文コンテキストの強化

### 長いシーケンスを効率的に処理するために、sink-awareなKVキャッシュ圧縮とストリーミングアテンションを導入しました。

### マルチモーダル拡張

### テキストの「sinkトークン」からの注意を、視覚情報や音声コンテンツに再配分することで、異なるモダリティ間の理解を向上させます。

### 注目記事：Attention Sink & Hallucination

シンク・トークンへの過度な注意は、モデルの焦点が実際のコンテンツから逸れる原因となります。ビジョン・ランゲージモデルにおいて、これはモデルが画像ではなく、BOSトークンに注意を払い、存在しないものの説明を生成することを意味します。以下の注意マップは、シンク・トークン（明るい列）と、幻覚的なテキスト出力との相関関係を示しています。

### 図20: ハルシネーションとの関係を示す注意マップ。明るい列が注意の集中点を示し、モデルが幻覚的なコンテンツを生成していることを示しています。

### 注目ポイント：安全性とバックドア検出.

アテンションシンク解析は、AIの安全性に関する新たなアプローチを可能にします。研究者は、潜在的なトリガーとなるトークン周辺でのアテンションパターンがどのように変化するかを調べることで、バックドア攻撃を特定し、その場所を特定することができます。アテンションシンクは、バックドアが どこに 埋め込まれているかを特定するのに役立ち、一方、バリュー・ノルム解析は、それが どのように 機能するかを明らかにします。

### 図21： 機械学習の忘却とバックドア検出におけるアテンションシンク。アテンションパターンが、埋め込まれたバックドアを特定し、無効化するのにどのように役立つかを示しています。

## Challenges

### 課題と今後の展望

### 現在の課題

### 計算コスト： 動的なシンクの効率的で正確な検出は、依然として解決すべき課題であり、動的な識別には追加の計算コストがかかる。

カーネルの互換性： 多くの軽減策は、Softmax後のアテンションスコアに対して適用されるため、FlashAttentionのようなハードウェア最適化されたアテンションカーネルとの互換性が制限される場合があります。

### 理論の統合： 既存の5つのメカニズムに関する理論は、依然として大部分が独立しており、注意の減衰（attention sink）のすべての側面を説明する統合的なフレームワークはまだ確立されていません。

### クロスアーキテクチャの汎用性： あるアーキテクチャ向けに開発された手法が、他のアーキテクチャ（LLMs、ViTs、MoEモデルなど）にうまく適用できない場合があります。

### 評価の標準化： モデル間で、注意の集中度合いとその軽減効果を測定するための標準化されたベンチマークは存在しません。

### 今後の展望

### 効率的なアテンション機構の扱い方： 動的なシンクの軽量な検出、効率的なアテンションの再分配、および低遅延のゲーテッドアテンションの実装。

### ハードウェアネイティブなソリューション： FlashAttentionやその他の最適化されたカーネル*の中で*、またはそれらに*基づいて*、注意機構の負荷を軽減する設計を行う。

### 統一されたメカニズム理論： ソフトマックス制約、外れ値回路、潜在的なバイアス、および幾何学的なアプローチを包括的なフレームワークに統合します。

### アテンション・シンクのないアーキテクチャ： 建築的な革新を通じて、本質的にアテンション・シンクを回避する次世代のトランスフォーマーを設計する。

### マルチモーダル最適化： ビジョン・言語モデルやその他のマルチモーダルアーキテクチャ向けに特化した、アテンションシンク管理戦略の開発。

## Keywords

### キーワード