OccuBench: 実際の業務タスクにおけるAIエージェントの評価.
AIエージェントは実際の専門業務をこなせるか?OccuBenchは言語世界モデルを使い65の専門分野100タスクでエージェントを評価し、専門業務パフォーマンスの致命的なギャップを明らかにします。
記事投稿日: 2026-04-17
AIエージェントは実際の専門業務をこなせるか?OccuBenchは言語世界モデルを使い65の専門分野100タスクでエージェントを評価し、専門業務パフォーマンスの致命的なギャップを明らかにします。
記事投稿日: 2026-04-17
報酬モデルが推論を説明できたら?RationalRewardsは報酬モデルにスコアリング前の明示的な批評生成を学習させ、受動的な評価器を訓練時・テスト時の両方で画像生成を改善する能動的な最適化ツールに変えます。
記事投稿日: 2026-04-17
GameWorldは、ブラウザベースのビデオゲームにおけるマルチモーダルAIエージェントの標準化された評価ベンチマークを導入し、異種アクションインターフェースとヒューリスティック検証の課題に取り組みます。
記事投稿日: 2026-04-17
LLMの推論を強化する鍵は「ちょうど良いヒント」にあるとしたら?KnowRLは問題を原子的な知識ポイントに分解し、Constrained Subset Searchで答えを漏らさず探索を起動する最小ヒントを発見。1.5Bモデルで8つのベンチマーク平均GRPO比+9.63を達成し、同規模SOTAへ。
記事投稿日: 2026-04-17
AiScientistはLLMエージェントによる長期ML研究エンジニアリングを「システム問題」として再定義。軽量なOrchestratorがFile-as-Busで状態を共有し、PaperBench +10.54ポイント、MLE-Bench Lite 81.82 Any Medal%を達成。
記事投稿日: 2026-04-16
GUIエージェントのためのオープンソース・フルスタックフレームワーク。オンラインRL学習、6ベンチマーク×11+モデルの再現評価、実機デプロイを統合。ScreenSpot-Proで+17.1%を達成。
記事投稿日: 2026-04-16
Transformerが無意味なトークンに注意を集中させる「Attention Sink」現象の初の包括的サーベイ。200件以上の論文から活用・解釈・軽減策を体系化。
記事投稿日: 2026-04-15
LLMの繰り返しエラーをクラスタリングし、ペナルティを適用するメモリ拡張報酬設計フレームワーク。数学ベンチマークでpass@1を最大+4.13向上。
記事投稿日: 2026-04-15
LLMは複数のフレームワークで正しい量子コードを生成できるか?QuanBench+はQiskit、PennyLane、Cirqのコード生成をベンチマークし、フィードバック修正でPass@1が59.5%から83.3%に向上することを明らかにした。
記事投稿日: 2026-04-15
EXAONE 4.5 is LG AI Research's first open-weight vision-language model, combining a 1.2B visual encoder with EXAONE 4.0 for document understanding, multilingual reasoning, and 256K token context.
記事投稿日: 2026-04-14
バウンディングボックスで指定した領域だけをAIが精製し、テキスト・ロゴ・顔のローカル詳細を完璧に復元。周囲のピクセルはピクセル単位で保持されます。
記事投稿日: 2026-04-13
製造 AI のボトルネックは視覚的位置特定ではなく「ドメイン知識」にあることを解明。FORGE でファインチューニングした 3B モデルが 78 倍大きなモデルに匹敵。
記事投稿日: 2026-04-13
「任意の物体・プロンプト・画像」に対応するオープン語彙3D検出器 WildDet3D が従来最高性能の10倍を達成。
記事投稿日: 2026-04-13
あるエージェントの失敗が、すべてのエージェントをより賢くしたら?SkillClawは集団的スキル進化の可能性を示す。
記事投稿日: 2026-04-13
SFTは「記憶するだけ」ではなく条件付きで汎化する。最適化・データ品質・モデル能力の3要因が鍵。ただし代償として安全性は低下する。
記事投稿日: 2026-04-13
エージェントスキルレイヤーを初めて体系化したSoK論文。形式的定義から7つの設計パターン、信頼階層モデルまで網羅。ClawHavocによるスキル供給チェーン攻撃がユーザーの36.8%に影響を与えた実例を詳細に分析する。
記事投稿日: 2026-04-13
高頻度テキストは読みやすいだけでなく、LLMをより賢くする。Adam's Lawは、この原理を4つのNLPタスクで活用するTFL・TFD・CTFTを提案する。
記事投稿日: 2026-04-13
RLで学習したLLMエージェントは、エントロピーが高いにもかかわらず繰り返しテンプレートに静かに崩壊する。相互情報量(+0.39)がエントロピー(-0.14)より優れた診断指標であり、SNR-Aware Filteringが4環境で多様な推論を回復させる。
記事投稿日: 2026-04-10
AIが画家のように下書き・検査・修正を繰り返しながら画像を生成できたら?本論文はBAGEL-7BにPlan→Sketch→Inspect→Refineサイクルを学習させ、GenEvalで+5%、WISEで+6%の精度向上を達成。
記事投稿日: 2026-04-10
SkillNetは、AIエージェントのスキルを大規模に作成・評価・接続するためのオープンインフラです。20万超のスキルを統一オントロジーで整理し、ALFWorld・WebShop・ScienceWorldで平均報酬を40%向上させ、実行ステップを30%削減します。
記事投稿日: 2026-04-10
LLMに専用のメモリOSがあったら?MemOSはプレーンテキスト・KVキャッシュ・モデル重みを統一リソースとして管理し、全主要ベンチマークで最高性能を達成した革新的なメモリ管理システムです。
記事投稿日: 2026-04-09
IRシステムの新たな訓練パラダイム:エージェントの軌跡から検索を学ぶことで、人間向けに設計された検索とLLMエージェントによる消費の間のギャップを埋める。
記事投稿日: 2026-04-09
Claw-Evalは軌跡対応の採点、安全性評価、マルチモーダル対応を導入し、自律型LLMエージェントの信頼性あるベンチマークを構築する。
記事投稿日: 2026-04-09
Video-MME-v2は動画理解においてAIと人間専門家の間に41ポイントのギャップがあることを明らかにし、グループベース評価で従来の精度指標では見えなかった一貫性と推論の失敗を露わにします。
記事投稿日: 2026-04-09
VibeVoice は7.5 HzトークナイザーでEncodec比80×圧縮を実現し、次トークン拡散によって最大4話者・90分の自然な対話を1つのLLMコンテキストウィンドウ内で合成できる画期的なTTSモデルです。
記事投稿日: 2026-04-07
ECoT合成とIndustrial Code World Modelにより、汎用コードと産業コードの両方で最高精度を達成した新しいコードモデル。
記事投稿日: 2026-04-07
人間が93.8%解ける問題を最先端AIはたった56.3%しかクリアできない。このベンチマークはマルチモーダルエージェントの失敗箇所と原因を初めて体系的に解明する。
記事投稿日: 2026-04-07
ViT画像トークンを並べ替えるだけで、MLLMがファインチューニングなしに近傍視点から推論できるようになる。新提案のViewBenchで全ベースラインを上回る。
記事投稿日: 2026-04-07
DataFlexは動的データ選択・ドメインミックス最適化・サンプル重み付けを単一のLLaMA-Factory互換フレームワークに統合し、再現性の高いデータ中心LLM学習を実現します。
記事投稿日: 2026-04-07
わずか4フレームのスライディングウィンドウで、全ての公開ストリーミングモデルを半分のGPUメモリで上回るベースラインの発見。
記事投稿日: 2026-04-07
RLSDはオンポリシー自己蒸留の情報リーク問題を解決し、教師をトークンレベルの更新量評価器として活用することで、5つのマルチモーダル推論ベンチマークでSOTAを達成。
記事投稿日: 2026-04-07
テキストプロンプトから映像と音声を同時生成する統合基盤モデル。従来の映像・音声別パイプラインを不要にする。
記事投稿日: 2026-04-06
Transformerのアテンション出力を残差として再利用するシンプルな改良。追加パラメータなしで推論・長文脈性能を向上させる。
記事投稿日: 2026-04-06
自律型AIエージェントのデータ漏洩・権限昇格・悪意あるツール実行をリアルタイムで防御する3層セキュリティフレームワーク。
記事投稿日: 2026-04-06
本論文は自然言語エージェントハーネス(NLAH)を提案し、エージェントの制御ロジックをコードではなく編集可能なテキストで記述できることを示す。コードから自然言語への移行で55%の性能向上を達成。
記事投稿日: 2026-04-05
LlamaFactoryは100以上の言語モデルを最小限のコードでファインチューニングする統合フレームワークを提供し、LoRA、QLoRA、RLHFなどをすぐに利用できます。
記事投稿日: 2026-04-05
PaperBananaはVLMエージェントを活用して学術論文のイラストを自動生成する、AI研究ワークフローを変革するフレームワーク。
記事投稿日: 2026-04-05
CARLA-Airはドローン飛行と自動運転を単一シミュレーションに統合し、共同シミュレーションのオーバーヘッドなしに空地協調AI研究を可能にします。
記事投稿日: 2026-04-05
小さなモデルが大きなモデルを凌駕。違法手を根絶するコードハーネスを自動合成する新しいエージェント設計パラダイム。
記事投稿日: 2026-04-05
ハーネス自動最適化エージェントがTerminalBench-2で1位を獲得。ファイルシステムアクセスによる因果推論でACEを7.7ポイント上回る成果。
記事投稿日: 2026-04-05
AIは自らツールを構築することで超知能を達成できるか?本論文はDiligent Learnerフレームワークによりその可能性を論じる。
記事投稿日: 2026-04-03
ACEはLLMコンテキストを進化するプレイブックとして扱い、体系的なコンテキスト最適化によりエージェントベンチマークで+10.6%の性能向上を達成。
記事投稿日: 2026-04-03
RealRestorerは大規模画像編集モデルを活用し、従来手法では対処できなかった複雑な劣化を処理する汎用的な実世界画像修復を実現。
記事投稿日: 2026-04-03
Mistral AIのVoxtral TTSは最小限のデータから高度に自然な多言語音声を生成し、表現力豊かなTTSの新基準を確立。
記事投稿日: 2026-04-03
Calibriは軽量なパラメータ効率的キャリブレーションで拡散トランスフォーマーの隠れた能力を引き出し、最小限の計算コストで大幅な品質向上を実現。
記事投稿日: 2026-04-03
PixelSmileはピクセルレベルで精密な表情編集を実現し、従来手法の意味的重複問題を克服。
記事投稿日: 2026-04-03
Intern-S1-Proは世界初の1兆パラメータ科学マルチモーダルモデルで、50以上の科学ベンチマークで最高性能を達成。
記事投稿日: 2026-04-03
CUA-Suiteは55時間の専門家アノテーション付きデスクトップ操作動画を提供する、コンピュータ操作エージェント訓練のための大規模ベンチマーク。
記事投稿日: 2026-04-03