---
arxiv_id: 2603.15031
title: "Attention Residuals: 固定された累積を学習可能な深さ方向アテンションで置き換える"
authors:
  - Kimi Team
  - Guangyu Chen
  - Yu Zhang
  - Jianlin Su
  - Weixin Xu
  - Siyuan Pan
  - Yaoyu Wang
  - Yucheng Wang
  - Guanduo Chen
  - Bohong Yin
  - Yutian Chen
  - Junjie Yan
  - Ming Wei
  - Y. Zhang
  - Fanqing Meng
  - Chao Hong
  - Xiaotong Xie
  - Shaowei Liu
  - Enzhe Lu
  - Yunpeng Tai
  - Yanru Chen
  - Xin Men
  - Haiqing Guo
  - Y. Charles
  - Haoyu Lu
  - Lin Sui
  - Jinguo Zhu
  - Zaida Zhou
  - Weiran He
  - Weixiao Huang
  - Xinran Xu
  - Yuzhi Wang
  - Guokun Lai
  - Yulun Du
  - Yuxin Wu
  - Zhilin Yang
  - Xinyu Zhou
difficulty: Advanced
tags:
  - LLM
  - Reasoning
published_at: 2026-03-16
flecto_url: https://flecto.zer0ai.dev/ja/papers/2603.15031/
lang: ja
---

## Head Title

### Attention Residuals: 固定された累積を学習可能な深さ方向アテンションで置き換える

## Hero H1

### Attention Residuals

## Hero Subtitle

### LLMにおける固定的な累積を、学習可能な、入力依存の深層方向アテンションに置き換える。

## Hero Authors

### Kimi Team (MoonshotAI)

## Hero Abstract

LLM（大規模言語モデル）における標準的な残差接続は、すべての層の出力を固定された重みで累積するため、制御不能な成長を引き起こし、各層の貢献を薄めてしまいます。 Attention Residuals (AttnRes) は、この固定された累積を 先行する層の出力に対するsoftmax attention に置き換えることで、各層が入力に依存した学習可能な重みを用いて、以前の表現を選択的に集約することを可能にします。Block AttnResは、この手法を最小限のオーバーヘッドで大規模に適用することを可能にします。

## Key Idea H2

### 基本的な考え方

## Key Idea P1

標準的な残差接続は、現代のLLM（大規模言語モデル）の基盤です。更新ルール h l = h l-1 + f(h l-1 ) は、安定した学習を可能にする勾配ハイウェイを提供します。しかし、PreNorm（主流のパラダイム）では、この固定的な累積により、隠れ状態の大きさが深さとともに O(L) に比例して増加し、各層の相対的な寄与が徐々に希薄化されます。

## Key Idea P2

AttnResは、以下の基本的な洞察に基づいています。 残差ネットワークにおける深さ方向の累積は、形式的にはRNNにおける逐次的な再帰と双対である 。Transformerが、固定された再帰をシーケンスの位置に対するアテンションで置き換えることでRNNを改善したように、AttnResは、固定された深さ方向の累積を、層の出力に対するアテンションで置き換えます。

## Key Idea Figcaption

図1: アテンション残差の概要。(a) 標準残差: 固定された加算による累積。(b) フルAttnRes: 各レイヤーが、すべての前のレイヤーの出力を参照する。(c) ブロックAttnRes: 実用的なスケーラビリティのために、レイヤーをブロックにグループ化する。

## Key Idea Card1 H3

### 標準残差

## Key Idea Card1 P

### 固定された重みは、すべてのレイヤーの出力を均一に集約します。隠れ状態は、深さとともにO(L)に増加し、各レイヤーの寄与を薄めてしまいます。深さ方向の混合を調整するメカニズムはありません。

## Key Idea Card2 H3

### Full AttnRes

## Key Idea Card2 P

すべて の先行レイヤーの出力に対して、Softmax attentionを適用します。入力に依存する、学習可能な重みを使用し、疑似クエリによって実現されます。最適な性能を発揮しますが、メモリ使用量はO(Ld)です。

## Key Idea Card3 H3

### Block AttnRes

## Key Idea Card3 P

### レイヤーをブロックに分割し、ブロックレベルでの表現に注目します。メモリ使用量をO(L)からO(N)に削減します。最小限のオーバーヘッドで、既存のシステムに容易に導入できます。

## Introduction H2

### はじめに

## Introduction P1

標準的な残差接続は、現代のLLM（大規模言語モデル）の事実上の基本構成要素です。更新式 h l = h l-1 + f l-1 (h l-1 ) は、勾配ハイウェイを提供し、恒等写像を通じて勾配が変換をバイパスできるようにすることで、深層における安定した学習を可能にします。しかし、残差接続は、2つ目の、あまり議論されない役割も果たします。それは、各層の出力がどのように単一の、徐々に成長する隠れ状態に 集約 されるかを定義することです。

## Introduction P2

実際には、PreNormが主流なパラダイムとなっていますが、その加重されていない累積によって、隠れ状態の大きさは深さとともにO(L)に増加します。これにより、各層の相対的な寄与が徐々に希薄化されます。初期層の情報は埋もれてしまい、選択的に取り出すことができません。実験的に、著者らは、最初の層と最後の層がしばしば大きな影響力を持つ一方で、中間層はほとんど寄与していないことを観察しています。

## Introduction P3

この論文では、 深層方向に沿った累積と、RNNにおける逐次的な再帰との間の形式的な二重性 が観察されています。この二重性を基に、彼らはAttention Residuals (AttnRes)を提案しており、これは固定された累積を h l = &Sigma; &alpha; l&rarr;j &middot; v j に置き換えるものです。ここで、&alpha;は、学習された各層のクエリと、先行する層の出力との間の単一のドット積から計算される、softmaxの注意の重みです。

## Introduction P4

標準的なトレーニングにおいて、Full AttnResは、バックプロパゲーションのために必要なレイヤーの出力が既に保持されているため、無視できるオーバーヘッドしか発生しません。しかし、大規模なモデルでは、アクティベーションの再計算やパイプライン並列処理が一般的に使用されます。Block AttnResは、レイヤーをブロックに分割し、キャッシュベースのP2P通信と2段階の推論戦略を使用することで、この問題を解決します。

## Introduction Contributions H3

### 主な貢献

## Introduction Contribution1

Attention Residuals: 固定された残差累積を、深さ方向の学習可能なsoftmaxアテンションに置き換えます。さらに、Block AttnResによりメモリ使用量をO(Ld)からO(Nd)に削減します。

## Introduction Contribution2

スケーラビリティのためのインフラストラクチャ： クロスステージキャッシュは、パイプライン並列処理における冗長なデータ転送を排除します。また、2段階の推論により、オンラインのsoftmaxマージを通じて、ブロック間の注意機構の計算コストを削減します。

## Introduction Contribution3

### I/O解析: Block AttnResは、1層あたりわずか5.5dの合計I/Oしか必要としません（標準的な残差接続では3d、mHCでは34d）。

## Introduction Contribution4

### 包括的な評価： 一貫したスケーリング則の改善、Kimi Linear 48Bの15のダウンストリームベンチマーク全てで性能向上、そして安定したトレーニング動態。

## Motivation H2

### 動機: なぜ固定残差では不十分なのか

## Motivation P1

残差学習は、深層ニューラルネットワークの学習において非常に重要です。各層は、隠れ状態を次のように更新します。 h l = h l-1 + f l-1 (h l-1 ) 。この再帰を展開すると、層 l の隠れ状態は、埋め込みベクトルと、それ以前のすべての層の出力の合計に等しくなります。 h l = h 1 + &Sigma;f i (h i ) 。恒等写像は、損失から任意の層への直接的な勾配経路を提供します。

## Motivation P2

しかし、固定された係数を持つユニットは、各層の寄与を均一に扱います。Highwayネットワークは、学習された要素ごとのゲートを使用して、この制約を緩和し、変換と同一の間の補間を行います。しかし、どちらのアプローチも基本的な制約を共有します。 各層は、直前の入力 h l-1 のみを利用でき、これはすべての以前の出力を混在させた単一の圧縮された状態です。

## Motivation P3

これは、(1) 特定の初期層の特徴を個別に抽出しないこと、(2) 深い層から個々の初期層への直接的な勾配経路がないこと、そして (3) すべての先行計算が単一の状態ベクトルに圧縮されるという、表現のボトルネックがあることを意味します。

## Motivation P4

これらの制限は、シーケンスモデリングにおけるRNNのよく知られたボトルネックを反映しており、固定された逐次的な再帰が最終的にアテンションによって置き換えられました。この類似性が、本論文の核心的な提案の動機となっています。 固定された深さ方向の累積を、アテンションベースの集約に置き換える 。

## Methodology H2

### Attention Residuals: 手法

## Methodology Unified P1

重要な洞察は、 時間と深さの間の双対性 です。時間方向のRNNと同様に、残差接続は、深さ方向において、すべての過去の情報を単一の状態に圧縮します。系列モデリングにおいて、Transformerは、再帰をアテンションに置き換えることでRNNを改善し、各位置がすべての過去の位置を選択的に参照できるようにしました。AttnResは、この原則を深さの次元に適用します。

## Methodology Unified P2

一般的な形式では、固定された累積和を次のように置き換えます。 h l = &Sigma; &alpha; l&rarr;j &middot; v j 。ここで、&alpha; は、&Sigma;&alpha; = 1 を満たす、層ごとの注意の重みです。シーケンス長（これは数百万に達する可能性があります）とは異なり、ネットワークの深さは通常はそれほど大きくありません（L 2 ) の注意機構は、計算上実行可能です。

## Methodology Full H3

### Full Attention Residuals

## Methodology Full P1

注意係数は、カーネル関数 φ を用いて、α l→j = φ(q l , k j ) として計算されます。 著者は、φ(q, k) = exp(q T RMSNorm(k)) を、softmax 正規化とともに採用しています。 クエリ q は、層ごとに特有の 学習可能なパラメータ (入力に依存しない) であり、これは並列計算を可能にするための意図的な設計上の選択です。

## Methodology Full P2

RMSNorm が &phi; の内部に組み込まれており、これにより、出力の大きさが大きい層が注意の重みに過度に影響を与えるのを防ぎます。各トークンについて、Full AttnRes は O(L 2 d) の計算量と O(Ld) のメモリ量を必要とします。深さがシーケンス長よりもはるかに小さいことから、このコストは比較的わずかです。

## Methodology Full P3

標準的な学習におけるオーバーヘッドゼロ： O(Ld) のメモリオーバーヘッドは、バックプロパゲーションのために保持されているアクティベーションと完全に一致します。また、疑似的なクエリの独立性により、任意のグループのレイヤーに対する注意の重みは、シーケンシャルなレイヤーの実行を待つことなく、並行して計算できます。

## Methodology Block H3

### ブロックアテンション残差構造

## Methodology Block P1

Block AttnResは、L層を、各ブロックがS = L/N層からなるN個のブロックに分割します。各ブロック内では、層の出力を合計によって単一の表現に削減します。ブロック間で、N個のブロックレベルの表現とトークン埋め込みに対して、フルアテンションが適用されます。これにより、メモリの使用量はO(L)からO(N)に、計算量はO(L 2 )からO(N 2 )にそれぞれ削減されます。

## Methodology Block P2

ブロック数 N は、2つの極値の間を補間します。 N = L の場合、Full AttnRes が得られます 。 N = 1 の場合、標準的な残差接続に帰着します 。実際には、S = 4（ブロックあたり4層）の設定が、ほとんどの利点をもたらしつつ、オーバーヘッドを最小限に押さえます。

## Methodology Block P3

2段階の計算戦略により、効率的な推論が可能になります。 フェーズ1 では、バッチ処理されたクエリを使用して、キャッシュされたブロック表現に対して、すべてのS層のブロック間アテンションを同時に計算します。 フェーズ2 では、ブロック内アテンションを逐次的に計算し、オンラインsoftmaxを通じて、フェーズ1の結果と統合します。これにより、メモリアクセスコストをブロック全体で償却できます。

## Methodology Algorithm Figcaption

アルゴリズム1: Block AttnResのための二段階計算。第1段階ではブロック間のクエリをバッチ処理し、第2段階では、オンラインsoftmaxマージによる逐次的なブロック内アテンションを処理します。

## Infrastructure H2

### インフラ設計

## Infrastructure Training H3

### 大規模学習

## Infrastructure Training P1

小規模なトレーニングの場合、AttnResはごくわずかな計算オーバーヘッドと、追加のメモリ使用量をもたらします。一方、大規模な分散トレーニングでは、パイプライン並列処理が主要なインフラストラクチャ上の課題となります。AttnResを完全に活用するには、パイプラインの各ステージが、先行するすべてのステージのレイヤー出力を参照する必要がありますが、パイプライン並列処理では、これらの出力がローカルで利用できないという問題があります。

## Infrastructure Training P2

クロスステージキャッシュ がこの問題を解決します。各物理ステージは、複数の仮想ステージを順番に処理するため、初期の仮想ステージで受信したブロックはローカルにキャッシュされ、再送信する必要がありません。これにより、トランジションごとのピークコストがO(C)からO(P)に削減され、V倍の改善となり、計算との完全なオーバーラップが可能になります。測定されたエンドツーエンドのオーバーヘッドは、 4%未満 です。

## Infrastructure Pipeline Figcaption

図2: キャッシュベースのパイプライン通信。網目模様のボックスは、ブロックの終端を示します。各ランクは、以前に受信したブロックをキャッシュするため、ステージ間の遷移では、増分ブロックのみが送信されます。

## Infrastructure Training P3

メモリオーバーヘッドはごくわずかです。クロスステージキャッシュにより、各ブロックはすべての仮想ステージ全体でちょうど1回だけ保存されるため、標準的なレイヤーごとのアクティベーションキャッシュと比較して非常に小さいです。

## Infrastructure Inference H3

### 推論最適化

## Infrastructure Inference P1

この二段階の計算戦略は、FullとBlock AttnResの両方に適用されます。単純な実装では、すべてのレイヤーでアテンションを計算するため、ブロック表現全体を毎回完全に処理する必要があります。しかし、代わりに、フェーズ1では、ブロック内のすべてのSクエリをまとめて1回のパスで処理し、フェーズ2では、オンラインのsoftmaxマージを用いた、ブロック内での逐次的な参照を行います。

## Infrastructure Inference P2

この設計により、Block AttnRes の各層あたりの総 I/O コストはわずか 5.5d (読み込み + 書き込み) であり、これは標準的な残差ブロックの 3d と比較して、さらに mHC の 34d と比較しても大幅に低い値です。また、フェーズ 1 は計算と部分的にオーバーラップさせることで、そのコストをさらに隠すことができます。

## Infrastructure Io Figcaption

### 表 1: レイヤーあたり、トークンごとのメモリアクセスコスト。Block AttnResは、合計I/Oが5.5dで、ほぼ標準的なオーバーヘッドを実現します。一方、mHCは34dを必要とします。

## Experiments Scaling H3

### スケーリング則

## Experiments Scaling P1

5つのモデルサイズ（194Mから528Mの活性パラメータ）について、それぞれ3つのバリエーションで学習を行いました。バリエーションは、PreNorm baseline、Full AttnRes、および約8ブロックを持つBlock AttnResです。すべてのバリエーションは、各サイズグループ内で同一のハイパーパラメータとデータを使用しており、これにより残差機構の効果のみを分離して評価することができます。

## Experiments Scaling Figcaption

図3： スケーリング則の曲線。Full と Block AttnRes はいずれも、すべての計算リソースの範囲において、ベースラインよりも常に優れた性能を発揮します。Block AttnRes は、1.25倍の計算リソースで学習されたベースラインと同等の性能を発揮します。

## Experiments Scaling P2

調整されたスケーリング曲線は、以下の結果を示しています。Baseline は L = 1.891 × C -0.057 、Block AttnRes は L = 1.870 × C -0.058 、そして Full AttnRes は L = 1.865 × C -0.057 という関係を示します。これら3つはすべて類似した傾きを持っていますが、AttnRes は常に低い損失値を達成しています。最も大きなスケールにおいて、Full AttnRes と Block AttnRes の差はわずか 0.001 に縮小されます。

## Experiments Scaling Table Figcaption

### 表2: モデル構成と、5つの異なるサイズにおける検証損失。Full AttnResは、すべてのスケールで最も低い損失値を達成しました（太字で表示）。

## Experiments Main H3

### 主な結果: Kimi Linear 48B

## Experiments Main P1

Kimi Linear 48Bのフル構成では、MoE（Mixture of Experts）を使用した27のTransformerブロック（54層）が使用され、合計480億パラメータ、有効パラメータは30億パラメータとなります。各ブロックには6層のAttnResが適用されており、合計9つのブロックが構成されています。このモデルは、4096トークンのコンテキストウィンドウで、1.4兆トークンで事前学習されています。

## Experiments Main P2

トレーニングの動態分析から、以下の3つの重要な利点が明らかになりました。(1) トレーニング全体を通して、 検証損失が低い 状態が維持され、特に減衰段階に入るとその差が大きくなります。(2) 深層ネットワークの各層で、 出力の大きさが均一 になり、PreNormによる影響が軽減されます。これにより、深層のレイヤーは、より大きな出力を学習する必要がなくなります。(3) 安定した勾配分布 が実現され、初期のレイヤーにおける過剰な勾配の発生を防ぎます。

## Experiments Dynamics Figcaption

図4: 学習ダイナミクスの比較。(a) 学習ステップごとの検証損失。(b) 各Transformerブロックごとの出力の大きさ。(c) 各ブロックごとの勾配の大きさ。AttnResは、深さ方向の勾配の大きさが均一になる。

## Experiments Benchmark Figcaption

表3： 一般、数学＆コード、および中国語のカテゴリにまたがる15のタスクにおける、ダウンストリームのベンチマーク結果。AttnResは、すべてのベンチマークにおいて、ベースラインと同等またはそれ以上の性能を示しました。

## Experiments Benchmark P

Block AttnResは、 15のすべてのベンチマークで、ベースラインと同等またはそれ以上の性能を示しました。 特に、GPQA-Diamond (+7.5) やMath (+3.6) などの多段階推論タスク、およびHumanEval (+3.1) などのコード生成タスクにおいて、大幅な改善が見られます。 また、MMLUやHellaSwagなどの知識を必要とするベンチマークでも、わずかながら改善が見られました。

## Experiments Ablation H3

### アブレーションスタディ

## Experiments Ablation P

436Mモデルに関するアブレーション実験は、主要な設計上の選択を検証しています。すべてのバリエーションは、同一のハイパーパラメータと計算リソースを使用しており、各コンポーネントの貢献を個別に評価できるように設計されています。

## Experiments Ablation Figcaption

表4: アブレーション結果。Full AttnRes は 1.737 を達成し、入力依存のクエリを使用することで、さらに 1.731 に向上します。DenseFormer (1.767) は、ベースライン (1.766) よりも性能が劣ります。

## Experiments Ablation Li1

### 入力に依存するクエリ は、損失をさらに1.731にまで低減しますが、各層での計算量が増加するため、デフォルトでは学習済みの（静的な）クエリを使用します。

## Experiments Ablation Li2

入力に依存しない混合（Input-independent mixing） （クエリ/キーを除去し、学習可能なスカラーを使用する手法）は、パフォーマンスを大幅に低下させます（1.749 vs 1.737）。これは、コンテンツに依存した集約（content-dependent aggregation）の重要性を裏付けています。

## Experiments Ablation Li3

### Softmax と sigmoid の比較： Sigmoid は、ソース間のより明確な選択を促すような競争的な正規化の欠如により、性能が低下します (1.741)。

## Experiments Ablation Li4

### ブロックサイズ S=4 は、Full AttnRes (1.746 vs 1.737) にほぼ匹敵し、パフォーマンスとメモリオーバーヘッドの優れたバランスを提供します。

## Experiments Ablation Li5

キーに対するRMSNorm は不可欠です。これを削除すると、Full (1.743) と Block (1.750) の両方の AttnRes の性能が低下し、これは、振幅に基づく注意メカニズムの優位性を阻害するためです。

## Analysis Optimal H3

### 最適なアーキテクチャ

## Analysis Optimal P

固定された計算量（〜6.5 × 10 19 FLOPs）下での制御されたアーキテクチャの探索により、AttnResが最適な深さと幅のトレードオフをどのように変化させるかが明らかになりました。BaselineとAttnResの両方とも、H/L b &asymp; 0.3で最適値に達しますが、AttnResは テストされた25種類の構成すべて で、損失が低くなるという結果を示しました。その改善幅は0.019から0.063の範囲でした。AttnResは より深く、狭いモデル を好む傾向があり、これはAttnResが追加の深さをより効果的に活用できることを示唆しています。

## Analysis Blocksize Figcaption

### 図5： ブロックサイズ (S) と検証損失の関係。ブロックサイズが小さいほど、Full AttnRes の性能に近づき、S=4 の場合にその効果の大部分が得られます。

## Analysis Heatmap Figcaption

### 図6: 固定された計算リソース下でのアーキテクチャ探索ヒートマップ。左：ベースライン。右：AttnRes。AttnResは、すべての構成において損失が低く、特に深層モデルにおいてその傾向が顕著です。

## Analysis Optimal P2

注目すべき点として、低い d model /L b 比率は、より深く狭いネットワークに対応します。AttnResが深さを重視する傾向は、そのメカニズムと一致しています。より深いモデルは、アテンションが選択できる層の出力をより多く生成し、深さ方向の集約の表現力を高めます。ただし、より深いモデルは、一般的に推論レイテンシを増加させます。

## Analysis Patterns H3

### 学習済み AttnRes パターン

## Analysis Patterns P

学習された注意の重みを可視化することで、AttnResが過去の情報源に対してどのように注意を配っているかを理解することができます。各ヒートマップは、l番目の注意層またはMLP層（行）が、過去の情報源（列）に対してどのように注意を配っているかを示しており、注意層とMLP層はそれぞれ個別に表示されます。

## Analysis Patterns Figcaption

図7: 全体 (上) とブロック (下) のバリエーションにおける、学習された AttnRes アテンションパターン。トークンごとに平均化された結果を示しています。アテンション層と MLP 層をそれぞれ個別に表示しています。

## Analysis Patterns Li1

### 保持された局所性： 各層は、直前の層に最も強く注意を向けますが、選択的なオフ対角成分が現れ、標準的な残差パスを超える学習されたスキップ接続を示唆しています。

## Analysis Patterns Li2

層の特殊化: 埋め込み表現 h 1 は、全体を通じて無視できない重みを維持します。Pre-MLP入力はより鋭い対角成分への依存を示し、一方でPre-attention入力はより広い受容野を維持します。

## Analysis Patterns Li3

Block AttnResは構造を保持: 対角優位性、埋め込みの持続性、および層の特殊化は、すべてフルモデルからブロックモデルへと引き継がれ、ブロック単位の圧縮が暗黙的な正則化として機能することを示唆しています。

## Discussions Duality H3

### シーケンスと深さの双対性

## Discussions Duality P1

残差接続は、固定された再帰によって、深さ方向に情報を伝播させます。これは、RNNが時間方向に情報を伝播させるのと同様です。この二重性は、より高度なバリエーションにも及んでいます。シーケンス側におけるデータ依存のゲートは、深さ側におけるHighwayネットワークに対応し、デルタ則はDDLに対応し、MRLAはゲート付き線形注意を反映しています。これらの手法はすべて、層を時間ステップとして扱うものであり、同じ代数構造を共有しています。

## Discussions Duality P2

AttnResは、Transformersがシーケンス次元にもたらしたのと同様に、深さ次元に full softmax attention を導入することで、このアナロジーを完結させます。Block AttnResは、ブロックスパースアテンションに対応しており、表現力をある程度犠牲にすることで、計算効率を向上させています。

## Discussions Matrix Figcaption

### 表6: Full AttnRes（左、完全下三角行列）とBlock AttnRes（右、ブロック構造）の深さ混合行列。背景色は、同じソースブロックに属する要素をグループ分けしています。

## Discussions Matrices H3

### 構造化行列としての残差接続

## Discussions Matrices P1

すべての残差接続のバリエーションは、深さ混合行列 M &isin; R L&times;L として統合することができます。ここで、M l&rarr;j は、層 l が層 j の出力に割り当てる重みを表します。標準的な残差接続は、すべて 1 の下三角行列 M を生成します。Highway ネットワークは、ランク 1 の因子を生成します。AttnRes は、softmax 正規化を用いた、入力に依存する密な下三角行列 M を生成します。

## Discussions Matrices P2

この視点から見ると、既存の残差バリアントは、 深さ軸方向の線形アテンション の具体例であることがわかります。展開された(m)HC重みは、数学的にゲート付き線形アテンション遷移と同等です。AttnResはさらに、フルソフトマックスアテンションを使用することで、より優れた正規化と、ソース層間のより明確な選択を可能にしています。

## Related Work H2

### 関連研究

## Related Work P

AttnResは、残差接続の方法の中でも、 動的で、入力に依存する重み を提供し、 すべての先行レイヤーの出力 にアクセスできる点がユニークです。 従来の他の方法では、固定/静的な重みを使用するもの（標準的な残差、DenseFormer）や、直前のレイヤーのみにアクセスするもの（Highway, ReZero）があります。 mHCのようなマルチステート再帰型の手法は、再帰幅を広げるものの、大きなI/Oオーバーヘッドを伴います（34d vs 5.5d）。

## Related Work Figcaption

### 表5： 残差更新メカニズムの包括的な比較。AttnResは、リストされているすべての方法の中で、完全なクロスレイヤーアクセスを伴う動的な重みを提供するという点で、独自です。

## Conclusion P

シーケンスと深さの間の双対性をヒントに、AttnResは、固定された均一な残差の累積を、学習可能な入力依存の深さ方向アテンションに置き換えます。この手法は、アブレーション実験、スケーリング則の実験、および1.4Tトークンで事前学習された480億パラメータの生産規模モデルへの統合を通じて検証されています。Block AttnResは、実用的なバリエーションとして登場し、最小限のオーバーヘッドでほとんどの利点をもたらします。

## Conclusion Summary H3

### 主なポイント

## Conclusion Summary Li1

### 1.25倍の計算リソース削減効果 ：スケーリング則の実験において、Block AttnResは、25%多くの計算リソースでトレーニングされたベースラインモデルと同等の性能を発揮します。

## Conclusion Summary Li2

### Kimi Linear 48Bで全15ベンチマークが改善。 特にGPQA-Diamond（+7.5）、Math（+3.6）、HumanEval（+3.1）で顕著な向上。

## Conclusion Summary Li3

### 安定した学習ダイナミクス： 一様な出力の大きさ、および深さ方向への勾配分布により、PreNorm の希釈問題を解消します。

## Conclusion Summary Li4

最小限のオーバーヘッド： 各レイヤーあたりわずか5.5dのI/O (基準となる3dと比較して)、ウォールクロック時間でのトレーニングオーバーヘッドは4%未満、標準的な残差項の代替として容易に導入可能。

## References Summary

### 参考文献（抜粋）

## Hero Arxiv Button

### arXivで読む ↗
