最新 AI 論文

🟡 Intermediate エージェントベンチマーク LLM

2026-04-13

OccuBench: 実際の業務タスクにおけるAIエージェントの評価.

AIエージェントは実際の専門業務をこなせるか？OccuBenchは言語世界モデルを使い65の専門分野100タスクでエージェントを評価し、専門業務パフォーマンスの致命的なギャップを明らかにします。

記事投稿日: 2026-04-17

HTML で読む → 🤖 Agent 様 → arXiv ↗ PDF ↗

🟡 Intermediate 画像生成推論拡散モデル

2026-04-13

RationalRewards: 推論報酬が視覚生成をトレーニング時・テスト時の両方で向上させる

報酬モデルが推論を説明できたら？RationalRewardsは報酬モデルにスコアリング前の明示的な批評生成を学習させ、受動的な評価器を訓練時・テスト時の両方で画像生成を改善する能動的な最適化ツールに変えます。

記事投稿日: 2026-04-17

HTML で読む → 🤖 Agent 様 → arXiv ↗ PDF ↗

🟡 Intermediate エージェントベンチマークマルチモーダル

2026-04-08

GameWorld: マルチモーダルゲームエージェントの標準化された評価システム

GameWorldは、ブラウザベースのビデオゲームにおけるマルチモーダルAIエージェントの標準化された評価ベンチマークを導入し、異種アクションインターフェースとヒューリスティック検証の課題に取り組みます。

記事投稿日: 2026-04-17

HTML で読む → 🤖 Agent 様 → arXiv ↗ PDF ↗

🔴 Advanced LLM 推論強化学習 RLVR

2026-04-16

KnowRL: LLMの推論における強化学習のための、必要最小限の知識ガイダンス。

LLMの推論を強化する鍵は「ちょうど良いヒント」にあるとしたら？KnowRLは問題を原子的な知識ポイントに分解し、Constrained Subset Searchで答えを漏らさず探索を起動する最小ヒントを発見。1.5Bモデルで8つのベンチマーク平均GRPO比+9.63を達成し、同規模SOTAへ。

記事投稿日: 2026-04-17

HTML で読む → 🤖 Agent 様 → arXiv ↗ PDF ↗

🔴 Advanced エージェント推論ベンチマーク

2026-04-15

AiScientist — ML研究のための自律的な長期エンジニアリング | Flecto

AiScientistはLLMエージェントによる長期ML研究エンジニアリングを「システム問題」として再定義。軽量なOrchestratorがFile-as-Busで状態を共有し、PaperBench +10.54ポイント、MLE-Bench Lite 81.82 Any Medal%を達成。

記事投稿日: 2026-04-16

HTML で読む → 🤖 Agent 様 → arXiv ↗ PDF ↗

🟡 Intermediate エージェントベンチマーク推論

2026-04-13

ClawGUI: GUIエージェントの学習、評価、および展開のための統合フレームワーク。

GUIエージェントのためのオープンソース・フルスタックフレームワーク。オンラインRL学習、6ベンチマーク×11+モデルの再現評価、実機デプロイを統合。ScreenSpot-Proで+17.1%を達成。

記事投稿日: 2026-04-16

HTML で読む → 🤖 Agent 様 → arXiv ↗ PDF ↗

🟡 Intermediate Transformer 注意機構サーベイ推論最適化

2026-04-11

Transformerにおける注意機構：サーベイ | Flecto

Transformerが無意味なトークンに注意を集中させる「Attention Sink」現象の初の包括的サーベイ。200件以上の論文から活用・解釈・軽減策を体系化。

記事投稿日: 2026-04-15

HTML で読む → 🤖 Agent 様 → arXiv ↗ PDF ↗

🔴 Advanced 強化学習 LLM訓練報酬設計数学推論

2026-04-13

過去は過去ではない：記憶を活用した動的な報酬形状化

LLMの繰り返しエラーをクラスタリングし、ペナルティを適用するメモリ拡張報酬設計フレームワーク。数学ベンチマークでpass@1を最大+4.13向上。

記事投稿日: 2026-04-15

HTML で読む → 🤖 Agent 様 → arXiv ↗ PDF ↗

🟡 Intermediate LLM ベンチマーク推論

2026-03-25

QuanBench+: LLM（大規模言語モデル）を用いた量子コード生成のための統合型マルチフレームワークベンチマーク

LLMは複数のフレームワークで正しい量子コードを生成できるか？QuanBench+はQiskit、PennyLane、Cirqのコード生成をベンチマークし、フィードバック修正でPass@1が59.5%から83.3%に向上することを明らかにした。

記事投稿日: 2026-04-15

HTML で読む → 🤖 Agent 様 → arXiv ↗ PDF ↗

🟡 Intermediate ビジョン言語 LLM マルチモーダル

2026-04-09

EXAONE 4.5 技術レポート | Flecto

EXAONE 4.5 is LG AI Research's first open-weight vision-language model, combining a 1.2B visual encoder with EXAONE 4.0 for document understanding, multilingual reasoning, and 256K token context.

記事投稿日: 2026-04-14

HTML で読む → 🤖 Agent 様 → arXiv ↗ PDF ↗

🟡 Intermediate Vision 拡散モデルマルチモーダル画像編集

2026-04-08

RefineAnything: 完璧なローカル詳細のためのマルチモーダル領域特定リファインメント | Flecto

バウンディングボックスで指定した領域だけをAIが精製し、テキスト・ロゴ・顔のローカル詳細を完璧に復元。周囲のピクセルはピクセル単位で保持されます。

記事投稿日: 2026-04-13

HTML で読む → 🤖 Agent 様 → arXiv ↗ PDF ↗

🟡 Intermediate ベンチマーク Vision マルチモーダル製造AI

2026-04-08

FORGE: 製造シナリオのための細粒度マルチモーダル評価 | Flecto

製造 AI のボトルネックは視覚的位置特定ではなく「ドメイン知識」にあることを解明。FORGE でファインチューニングした 3B モデルが 78 倍大きなモデルに匹敵。

記事投稿日: 2026-04-13

HTML で読む → 🤖 Agent 様 → arXiv ↗ PDF ↗

🔴 Advanced コンピュータビジョン 3D検出オープン語彙マルチモーダル

2026-04-09

WildDet3D: Scaling Promptable 3D Detection in the Wild | Flecto

「任意の物体・プロンプト・画像」に対応するオープン語彙3D検出器 WildDet3D が従来最高性能の10倍を達成。

記事投稿日: 2026-04-13

HTML で読む → 🤖 Agent 様 → arXiv ↗ PDF ↗

🟡 Intermediate エージェント LLM 推論

2026-04-09

SkillClaw: エージェント主導の進化によって、スキルを集合的に進化させます | Flecto

あるエージェントの失敗が、すべてのエージェントをより賢くしたら？SkillClawは集団的スキル進化の可能性を示す。

記事投稿日: 2026-04-13

HTML で読む → 🤖 Agent 様 → arXiv ↗ PDF ↗

🔴 Advanced 推論 LLM ファインチューニング安全性ベンチマーク

2026-04-08

推論における一般化の再考 SFT | Flecto

SFTは「記憶するだけ」ではなく条件付きで汎化する。最適化・データ品質・モデル能力の3要因が鍵。ただし代償として安全性は低下する。

記事投稿日: 2026-04-13

HTML で読む → 🤖 Agent 様 → arXiv ↗ PDF ↗

🔴 Advanced エージェントセキュリティ LLM ベンチマーク

2026-02-24

SoK: エージェントとしてのスキル - LLMエージェントにおけるツール利用を超えて | Flecto

エージェントスキルレイヤーを初めて体系化したSoK論文。形式的定義から7つの設計パターン、信頼階層モデルまで網羅。ClawHavocによるスキル供給チェーン攻撃がユーザーの36.8%に影響を与えた実例を詳細に分析する。

記事投稿日: 2026-04-13

HTML で読む → 🤖 Agent 様 → arXiv ↗ PDF ↗

🟡 Intermediate LLM NLP ファインチューニングプロンプティング推論

2026-04-02

Adam's Law: LLMにおけるテキスト頻度則 | Flecto

高頻度テキストは読みやすいだけでなく、LLMをより賢くする。Adam's Lawは、この原理を4つのNLPタスクで活用するTFL・TFD・CTFTを提案する。

記事投稿日: 2026-04-13

HTML で読む → 🤖 Agent 様 → arXiv ↗ PDF ↗

🔴 Advanced エージェント推論 LLM

2026-04-08

RAGEN-2: エージェント型強化学習における推論の崩壊 | Flecto

RLで学習したLLMエージェントは、エントロピーが高いにもかかわらず繰り返しテンプレートに静かに崩壊する。相互情報量（+0.39）がエントロピー（-0.14）より優れた診断指標であり、SNR-Aware Filteringが4環境で多様な推論を回復させる。

記事投稿日: 2026-04-10

HTML で読む → 🤖 Agent 様 → arXiv ↗ PDF ↗

🔴 Advanced ビジョンマルチモーダル推論拡散モデル

2026-04-08

「ストロークで考える、ピクセルで考えるな」— Flecto

AIが画家のように下書き・検査・修正を繰り返しながら画像を生成できたら？本論文はBAGEL-7BにPlan→Sketch→Inspect→Refineサイクルを学習させ、GenEvalで+5%、WISEで+6%の精度向上を達成。

記事投稿日: 2026-04-10

HTML で読む → 🤖 Agent 様 → arXiv ↗ PDF ↗

🟡 Intermediate エージェント LLM ベンチマーク

2026-02-26

SkillNet: AIスキルを構築、評価し、連携する | Flecto

SkillNetは、AIエージェントのスキルを大規模に作成・評価・接続するためのオープンインフラです。20万超のスキルを統一オントロジーで整理し、ALFWorld・WebShop・ScienceWorldで平均報酬を40%向上させ、実行ステップを30%削減します。

記事投稿日: 2026-04-10

HTML で読む → 🤖 Agent 様 → arXiv ↗ PDF ↗

🔴 Advanced LLM メモリエージェント

2025-07-04

MemOS: AIシステム向けのメモリOS | Flecto

LLMに専用のメモリOSがあったら？MemOSはプレーンテキスト・KVキャッシュ・モデル重みを統一リソースとして管理し、全主要ベンチマークで最高性能を達成した革新的なメモリ管理システムです。

記事投稿日: 2026-04-09

HTML で読む → 🤖 Agent 様 → arXiv ↗ PDF ↗

🔴 Advanced エージェント情報検索 LLM

2026-03-30

エージェントの軌跡から検索を学ぶ | Flecto

IRシステムの新たな訓練パラダイム：エージェントの軌跡から検索を学ぶことで、人間向けに設計された検索とLLMエージェントによる消費の間のギャップを埋める。

記事投稿日: 2026-04-09

HTML で読む → 🤖 Agent 様 → arXiv ↗ PDF ↗

🟡 Intermediate エージェントベンチマーク LLM

2026-04-07

Claw-Eval: 自律型エージェントの信頼性評価に向けて | Flecto

Claw-Evalは軌跡対応の採点、安全性評価、マルチモーダル対応を導入し、自律型LLMエージェントの信頼性あるベンチマークを構築する。

記事投稿日: 2026-04-09

HTML で読む → 🤖 Agent 様 → arXiv ↗ PDF ↗

🔴 Advanced ベンチマーク動画AI マルチモーダル推論

2026-04-06

Video-MME-v2: 次世代動画理解ベンチマーク | Flecto

Video-MME-v2は動画理解においてAIと人間専門家の間に41ポイントのギャップがあることを明らかにし、グループベース評価で従来の精度指標では見えなかった一貫性と推論の失敗を露わにします。

記事投稿日: 2026-04-09

HTML で読む → 🤖 Agent 様 → arXiv ↗ PDF ↗

🟡 Intermediate 音声 LLM 拡散モデルマルチモーダル

2025-08-26

VibeVoice テクニカルレポート — 長時間・多話者音声合成

VibeVoice は7.5 HzトークナイザーでEncodec比80×圧縮を実現し、次トークン拡散によって最大4話者・90分の自然な対話を1つのLLMコンテキストウィンドウ内で合成できる画期的なTTSモデルです。

記事投稿日: 2026-04-07

HTML で読む → 🤖 Agent 様 → arXiv ↗ PDF ↗

🔴 Advanced LLM 推論ベンチマークエージェント

InCoder-32B-Thinking: 思考のための産業用コード世界モデル

ECoT合成とIndustrial Code World Modelにより、汎用コードと産業コードの両方で最高精度を達成した新しいコードモデル。

記事投稿日: 2026-04-07

HTML で読む → 🤖 Agent 様 → arXiv ↗ PDF ↗

🔴 Advanced エージェントベンチマークマルチモーダルビジョン

2026-04-03

Agentic-MME: エージェント能力はマルチモーダルインテリジェンスに何をもたらすのか？ | Flecto

人間が93.8%解ける問題を最先端AIはたった56.3%しかクリアできない。このベンチマークはマルチモーダルエージェントの失敗箇所と原因を初めて体系的に解明する。

記事投稿日: 2026-04-07

HTML で読む → 🤖 Agent 様 → arXiv ↗ PDF ↗

🟡 Intermediate Multimodal Spatial Reasoning Viewpoint Token Warping Benchmark

2026-04-03

トークンワーピングがMLLMの近傍視点推論を助ける | Flecto

ViT画像トークンを並べ替えるだけで、MLLMがファインチューニングなしに近傍視点から推論できるようになる。新提案のViewBenchで全ベースラインを上回る。

記事投稿日: 2026-04-07

HTML で読む → 🤖 Agent 様 → arXiv ↗ PDF ↗

🔴 Advanced LLM Training Data Curation Data Selection Domain Mixture LLaMA-Factory

2026-03-27

DataFlex：大規模言語モデルのデータ中心動的学習のための統合フレームワーク

DataFlexは動的データ選択・ドメインミックス最適化・サンプル重み付けを単一のLLaMA-Factory互換フレームワークに統合し、再現性の高いデータ中心LLM学習を実現します。

記事投稿日: 2026-04-07

HTML で読む → 🤖 Agent 様 → arXiv ↗ PDF ↗

🟡 Intermediate Video VLM Streaming Benchmark

2026-04-02

ストリーミング動画理解のためのシンプルなベースライン | Flecto

わずか4フレームのスライディングウィンドウで、全ての公開ストリーミングモデルを半分のGPUメモリで上回るベースラインの発見。

記事投稿日: 2026-04-07

HTML で読む → 🤖 Agent 様 → arXiv ↗ PDF ↗

🔴 Advanced LLM エージェント推論

2026-04-03

Self-Distilled RLVR | Flecto

RLSDはオンポリシー自己蒸留の情報リーク問題を解決し、教師をトークンレベルの更新量評価器として活用することで、5つのマルチモーダル推論ベンチマークでSOTAを達成。

記事投稿日: 2026-04-07

HTML で読む → 🤖 Agent 様 → arXiv ↗ PDF ↗

🟡 Intermediate マルチモーダル Audio Vision

2026-01-06

LTX-2: 高効率な音声・映像統合基盤モデル

テキストプロンプトから映像と音声を同時生成する統合基盤モデル。従来の映像・音声別パイプラインを不要にする。

記事投稿日: 2026-04-06

HTML で読む → 🤖 Agent 様 → arXiv ↗ PDF ↗

🔴 Advanced LLM Reasoning

2026-03-16

Attention Residuals: 固定された累積を学習可能な深さ方向アテンションで置き換える

Transformerのアテンション出力を残差として再利用するシンプルな改良。追加パラメータなしで推論・長文脈性能を向上させる。

記事投稿日: 2026-04-06

HTML で読む → 🤖 Agent 様 → arXiv ↗ PDF ↗

🟡 Intermediate Agent Reasoning

2026-03-25

ClawKeeper: OpenClaw エージェントのための包括的な安全対策

自律型AIエージェントのデータ漏洩・権限昇格・悪意あるツール実行をリアルタイムで防御する3層セキュリティフレームワーク。

記事投稿日: 2026-04-06

HTML で読む → 🤖 Agent 様 → arXiv ↗ PDF ↗

🔴 Advanced Agent LLM

2026-03-26

自然言語エージェントハーネス

本論文は自然言語エージェントハーネス（NLAH）を提案し、エージェントの制御ロジックをコードではなく編集可能なテキストで記述できることを示す。コードから自然言語への移行で55%の性能向上を達成。

記事投稿日: 2026-04-05

HTML で読む → 🤖 Agent 様 → arXiv ↗ PDF ↗

🟡 Intermediate LLM ベンチマーク

LlamaFactory: 100種類以上の言語モデルを効率的に微調整するための統合プラットフォーム

LlamaFactoryは100以上の言語モデルを最小限のコードでファインチューニングする統合フレームワークを提供し、LoRA、QLoRA、RLHFなどをすぐに利用できます。

記事投稿日: 2026-04-05

HTML で読む → 🤖 Agent 様 → arXiv ↗ PDF ↗

🟡 Intermediate エージェントビジョンベンチマーク

2026-01-30

PaperBanana: AI研究者向けの学術イラストの自動化

PaperBananaはVLMエージェントを活用して学術論文のイラストを自動生成する、AI研究ワークフローを変革するフレームワーク。

記事投稿日: 2026-04-05

HTML で読む → 🤖 Agent 様 → arXiv ↗ PDF ↗

🔴 Advanced エージェントマルチモーダル推論

CARLA-Air: CARLA World内でドローンを飛行させる

CARLA-Airはドローン飛行と自動運転を単一シミュレーションに統合し、共同シミュレーションのオーバーヘッドなしに空地協調AI研究を可能にします。

記事投稿日: 2026-04-05

HTML で読む → 🤖 Agent 様 → arXiv ↗ PDF ↗

🔴 Advanced エージェント LLM 推論

2026-03-04

AutoHarness: コードハーネスの自動合成によるLLMエージェントの改善

小さなモデルが大きなモデルを凌駕。違法手を根絶するコードハーネスを自動合成する新しいエージェント設計パラダイム。

記事投稿日: 2026-04-05

HTML で読む → 🤖 Agent 様 → arXiv ↗ PDF ↗

🔴 Advanced LLM harness engineering AutoML agentic AI

2026-03-28

Meta-Harness: End-to-End Optimization of Model Harnesses

ハーネス自動最適化エージェントがTerminalBench-2で1位を獲得。ファイルシステムアクセスによる因果推論でACEを7.7ポイント上回る成果。

記事投稿日: 2026-04-05

HTML で読む → 🤖 Agent 様 → arXiv ↗ PDF ↗

🔴 Advanced LLM Reasoning Superintelligence

2026-02-25

ツール構築が「超知能」への道となる：Koplow, Galanti, Poggio (2026)

AIは自らツールを構築することで超知能を達成できるか？本論文はDiligent Learnerフレームワークによりその可能性を論じる。

記事投稿日: 2026-04-03

HTML で読む → 🤖 Agent 様 → arXiv ↗ PDF ↗

🟡 Intermediate Agent LLM Reasoning

2025-10-06

エージェント型コンテキストエンジニアリング: 自己改善型言語モデルのための進化するコンテキスト

ACEはLLMコンテキストを進化するプレイブックとして扱い、体系的なコンテキスト最適化によりエージェントベンチマークで+10.6%の性能向上を達成。

記事投稿日: 2026-04-03

HTML で読む → 🤖 Agent 様 → arXiv ↗ PDF ↗

🟡 Intermediate Vision Diffusion

2026-03-26

RealRestorer: 大規模な画像編集モデルを用いた、汎用的な実世界画像修復への取り組み

RealRestorerは大規模画像編集モデルを活用し、従来手法では対処できなかった複雑な劣化を処理する汎用的な実世界画像修復を実現。

記事投稿日: 2026-04-03

HTML で読む → 🤖 Agent 様 → arXiv ↗ PDF ↗

🟡 Intermediate Audio Multimodal

2026-03-26

Voxtral TTS：Mistral AIによる、表現力豊かな多言語テキスト読み上げサービス。

Mistral AIのVoxtral TTSは最小限のデータから高度に自然な多言語音声を生成し、表現力豊かなTTSの新基準を確立。

記事投稿日: 2026-04-03

HTML で読む → 🤖 Agent 様 → arXiv ↗ PDF ↗

🔴 Advanced Diffusion LLM

2026-03-25

Calibri: パラメータ効率の良いキャリブレーションによる拡散トランスフォーマーの性能向上

Calibriは軽量なパラメータ効率的キャリブレーションで拡散トランスフォーマーの隠れた能力を引き出し、最小限の計算コストで大幅な品質向上を実現。

記事投稿日: 2026-04-03

HTML で読む → 🤖 Agent 様 → arXiv ↗ PDF ↗

🟡 Intermediate Vision Diffusion

2026-03-26

PixelSmile: 微細な表情編集への取り組み

PixelSmileはピクセルレベルで精密な表情編集を実現し、従来手法の意味的重複問題を克服。

記事投稿日: 2026-04-03

HTML で読む → 🤖 Agent 様 → arXiv ↗ PDF ↗

🔴 Advanced LLM Multimodal Benchmark

2026-03-26

Intern-S1-Pro: トリリオン規模の科学マルチモーダル基盤モデル

Intern-S1-Proは世界初の1兆パラメータ科学マルチモーダルモデルで、50以上の科学ベンチマークで最高性能を達成。

記事投稿日: 2026-04-03

HTML で読む → 🤖 Agent 様 → arXiv ↗ PDF ↗

🟡 Intermediate Agent Benchmark

2026-03-24

CUA-Suite: コンピュータ操作エージェントのための大規模人手アノテーション付きビデオデモンストレーション

CUA-Suiteは55時間の専門家アノテーション付きデスクトップ操作動画を提供する、コンピュータ操作エージェント訓練のための大規模ベンチマーク。

記事投稿日: 2026-04-03

HTML で読む → 🤖 Agent 様 → arXiv ↗ PDF ↗