最新 AI 論文

🟡 Intermediate Multimodal Spatial Reasoning Viewpoint Token Warping Benchmark

NEW 2026-04-03

トークンワーピングがMLLMの近傍視点推論を助ける | Flecto

ViT画像トークンを並べ替えるだけで、MLLMがファインチューニングなしに近傍視点から推論できるようになる。新提案のViewBenchで全ベースラインを上回る。

HTML で読む → 🤖 Agent 様 → arXiv ↗ PDF ↗

🔴 Advanced エージェントベンチマークマルチモーダルビジョン

NEW 2026-04-03

Agentic-MME: エージェント能力はマルチモーダルインテリジェンスに何をもたらすのか？ | Flecto

人間が93.8%解ける問題を最先端AIはたった56.3%しかクリアできない。このベンチマークはマルチモーダルエージェントの失敗箇所と原因を初めて体系的に解明する。

HTML で読む → 🤖 Agent 様 → arXiv ↗ PDF ↗

🔴 Advanced LLM エージェント推論

NEW 2026-04-03

Self-Distilled RLVR | Flecto

RLSDはオンポリシー自己蒸留の情報リーク問題を解決し、教師をトークンレベルの更新量評価器として活用することで、5つのマルチモーダル推論ベンチマークでSOTAを達成。

HTML で読む → 🤖 Agent 様 → arXiv ↗ PDF ↗

🟡 Intermediate Video VLM Streaming Benchmark

NEW 2026-04-02

ストリーミング動画理解のためのシンプルなベースライン | Flecto

わずか4フレームのスライディングウィンドウで、全ての公開ストリーミングモデルを半分のGPUメモリで上回るベースラインの発見。

HTML で読む → 🤖 Agent 様 → arXiv ↗ PDF ↗

🔴 Advanced LLM harness engineering AutoML agentic AI

2026-03-28

Meta-Harness: End-to-End Optimization of Model Harnesses

ハーネス自動最適化エージェントがTerminalBench-2で1位を獲得。ファイルシステムアクセスによる因果推論でACEを7.7ポイント上回る成果。

HTML で読む → 🤖 Agent 様 → arXiv ↗ PDF ↗

🔴 Advanced LLM Training Data Curation Data Selection Domain Mixture LLaMA-Factory

2026-03-27

DataFlex：大規模言語モデルのデータ中心動的学習のための統合フレームワーク

DataFlexは動的データ選択・ドメインミックス最適化・サンプル重み付けを単一のLLaMA-Factory互換フレームワークに統合し、再現性の高いデータ中心LLM学習を実現します。

HTML で読む → 🤖 Agent 様 → arXiv ↗ PDF ↗

🟡 Intermediate Vision Diffusion

2026-03-26

PixelSmile: 微細な表情編集への取り組み

PixelSmileはピクセルレベルで精密な表情編集を実現し、従来手法の意味的重複問題を克服。

HTML で読む → 🤖 Agent 様 → arXiv ↗ PDF ↗

🟡 Intermediate Audio Multimodal

2026-03-26

Voxtral TTS：Mistral AIによる、表現力豊かな多言語テキスト読み上げサービス。

Mistral AIのVoxtral TTSは最小限のデータから高度に自然な多言語音声を生成し、表現力豊かなTTSの新基準を確立。

HTML で読む → 🤖 Agent 様 → arXiv ↗ PDF ↗

🟡 Intermediate Vision Diffusion

2026-03-26

RealRestorer: 大規模な画像編集モデルを用いた、汎用的な実世界画像修復への取り組み

RealRestorerは大規模画像編集モデルを活用し、従来手法では対処できなかった複雑な劣化を処理する汎用的な実世界画像修復を実現。

HTML で読む → 🤖 Agent 様 → arXiv ↗ PDF ↗

🔴 Advanced LLM Multimodal Benchmark

2026-03-26

Intern-S1-Pro: トリリオン規模の科学マルチモーダル基盤モデル

Intern-S1-Proは世界初の1兆パラメータ科学マルチモーダルモデルで、50以上の科学ベンチマークで最高性能を達成。

HTML で読む → 🤖 Agent 様 → arXiv ↗ PDF ↗

🔴 Advanced Agent LLM

2026-03-26

自然言語エージェントハーネス

本論文は自然言語エージェントハーネス（NLAH）を提案し、エージェントの制御ロジックをコードではなく編集可能なテキストで記述できることを示す。コードから自然言語への移行で55%の性能向上を達成。

HTML で読む → 🤖 Agent 様 → arXiv ↗ PDF ↗

🔴 Advanced Diffusion LLM

2026-03-25

Calibri: パラメータ効率の良いキャリブレーションによる拡散トランスフォーマーの性能向上

Calibriは軽量なパラメータ効率的キャリブレーションで拡散トランスフォーマーの隠れた能力を引き出し、最小限の計算コストで大幅な品質向上を実現。

HTML で読む → 🤖 Agent 様 → arXiv ↗ PDF ↗

🟡 Intermediate Agent Reasoning

2026-03-25

ClawKeeper: OpenClaw エージェントのための包括的な安全対策

自律型AIエージェントのデータ漏洩・権限昇格・悪意あるツール実行をリアルタイムで防御する3層セキュリティフレームワーク。

HTML で読む → 🤖 Agent 様 → arXiv ↗ PDF ↗

🟡 Intermediate Agent Benchmark

2026-03-24

CUA-Suite: コンピュータ操作エージェントのための大規模人手アノテーション付きビデオデモンストレーション

CUA-Suiteは55時間の専門家アノテーション付きデスクトップ操作動画を提供する、コンピュータ操作エージェント訓練のための大規模ベンチマーク。

HTML で読む → 🤖 Agent 様 → arXiv ↗ PDF ↗

🔴 Advanced LLM Reasoning

2026-03-16

Attention Residuals: 固定された累積を学習可能な深さ方向アテンションで置き換える

Transformerのアテンション出力を残差として再利用するシンプルな改良。追加パラメータなしで推論・長文脈性能を向上させる。

HTML で読む → 🤖 Agent 様 → arXiv ↗ PDF ↗

🔴 Advanced LLM Reasoning Superintelligence

2026-02-25

ツール構築が「超知能」への道となる：Koplow, Galanti, Poggio (2026)

AIは自らツールを構築することで超知能を達成できるか？本論文はDiligent Learnerフレームワークによりその可能性を論じる。

HTML で読む → 🤖 Agent 様 → arXiv ↗ PDF ↗

🟡 Intermediate エージェント LLM 推論ベンチマーク

2026-02-10

AutoHarness: コードハーネスを自動合成してLLMエージェントを改善する手法

Gemini-2.5-Flashが自動生成したコードハーネスで違法手を完全排除。145のTextArenaゲームで、より小さなモデルが大規模モデルを超える。

HTML で読む → 🤖 Agent 様 → arXiv ↗ PDF ↗

🟡 Intermediate エージェントビジョンベンチマーク

2026-01-30

PaperBanana: AI研究者向けの学術イラストの自動化

PaperBananaはVLMエージェントを活用して学術論文のイラストを自動生成する、AI研究ワークフローを変革するフレームワーク。

HTML で読む → 🤖 Agent 様 → arXiv ↗ PDF ↗

🟡 Intermediate マルチモーダル Audio Vision

2026-01-06

LTX-2: 高効率な音声・映像統合基盤モデル

テキストプロンプトから映像と音声を同時生成する統合基盤モデル。従来の映像・音声別パイプラインを不要にする。

HTML で読む → 🤖 Agent 様 → arXiv ↗ PDF ↗

🟡 Intermediate Agent LLM Reasoning

2025-10-06

エージェント型コンテキストエンジニアリング: 自己改善型言語モデルのための進化するコンテキスト

ACEはLLMコンテキストを進化するプレイブックとして扱い、体系的なコンテキスト最適化によりエージェントベンチマークで+10.6%の性能向上を達成。

HTML で読む → 🤖 Agent 様 → arXiv ↗ PDF ↗

🟡 Intermediate 音声 LLM 拡散モデルマルチモーダル

2025-08-26

VibeVoice テクニカルレポート — 長時間・多話者音声合成

VibeVoice は7.5 HzトークナイザーでEncodec比80×圧縮を実現し、次トークン拡散によって最大4話者・90分の自然な対話を1つのLLMコンテキストウィンドウ内で合成できる画期的なTTSモデルです。

HTML で読む → 🤖 Agent 様 → arXiv ↗ PDF ↗

🟡 Intermediate LLM ベンチマーク

LlamaFactory: 100種類以上の言語モデルを効率的に微調整するための統合プラットフォーム

LlamaFactoryは100以上の言語モデルを最小限のコードでファインチューニングする統合フレームワークを提供し、LoRA、QLoRA、RLHFなどをすぐに利用できます。

HTML で読む → 🤖 Agent 様 → arXiv ↗ PDF ↗

🔴 Advanced エージェントマルチモーダル推論

CARLA-Air: CARLA World内でドローンを飛行させる

CARLA-Airはドローン飛行と自動運転を単一シミュレーションに統合し、共同シミュレーションのオーバーヘッドなしに空地協調AI研究を可能にします。

HTML で読む → 🤖 Agent 様 → arXiv ↗ PDF ↗

🔴 Advanced LLM 推論ベンチマークエージェント

InCoder-32B-Thinking: 思考のための産業用コード世界モデル

ECoT合成とIndustrial Code World Modelにより、汎用コードと産業コードの両方で最高精度を達成した新しいコードモデル。

HTML で読む → 🤖 Agent 様 → arXiv ↗ PDF ↗