Flecto EN

最新 AI 論文

RSS
🟡 Intermediate 画像生成 推論 拡散モデル
2026-04-13

RationalRewards: 推論報酬が視覚生成をトレーニング時・テスト時の両方で向上させる

報酬モデルが推論を説明できたら?RationalRewardsは報酬モデルにスコアリング前の明示的な批評生成を学習させ、受動的な評価器を訓練時・テスト時の両方で画像生成を改善する能動的な最適化ツールに変えます。

記事投稿日: 2026-04-17

🟡 Intermediate エージェント ベンチマーク マルチモーダル
2026-04-08

GameWorld: マルチモーダルゲームエージェントの標準化された評価システム

GameWorldは、ブラウザベースのビデオゲームにおけるマルチモーダルAIエージェントの標準化された評価ベンチマークを導入し、異種アクションインターフェースとヒューリスティック検証の課題に取り組みます。

記事投稿日: 2026-04-17

🔴 Advanced LLM 推論 強化学習 RLVR
2026-04-16

KnowRL: LLMの推論における強化学習のための、必要最小限の知識ガイダンス。

LLMの推論を強化する鍵は「ちょうど良いヒント」にあるとしたら?KnowRLは問題を原子的な知識ポイントに分解し、Constrained Subset Searchで答えを漏らさず探索を起動する最小ヒントを発見。1.5Bモデルで8つのベンチマーク平均GRPO比+9.63を達成し、同規模SOTAへ。

記事投稿日: 2026-04-17

🔴 Advanced エージェント 推論 ベンチマーク
2026-04-15

AiScientist — ML研究のための自律的な長期エンジニアリング | Flecto

AiScientistはLLMエージェントによる長期ML研究エンジニアリングを「システム問題」として再定義。軽量なOrchestratorがFile-as-Busで状態を共有し、PaperBench +10.54ポイント、MLE-Bench Lite 81.82 Any Medal%を達成。

記事投稿日: 2026-04-16

🟡 Intermediate エージェント ベンチマーク 推論
2026-04-13

ClawGUI: GUIエージェントの学習、評価、および展開のための統合フレームワーク。

GUIエージェントのためのオープンソース・フルスタックフレームワーク。オンラインRL学習、6ベンチマーク×11+モデルの再現評価、実機デプロイを統合。ScreenSpot-Proで+17.1%を達成。

記事投稿日: 2026-04-16

🟡 Intermediate LLM ベンチマーク 推論
2026-03-25

QuanBench+: LLM(大規模言語モデル)を用いた量子コード生成のための統合型マルチフレームワークベンチマーク

LLMは複数のフレームワークで正しい量子コードを生成できるか?QuanBench+はQiskit、PennyLane、Cirqのコード生成をベンチマークし、フィードバック修正でPass@1が59.5%から83.3%に向上することを明らかにした。

記事投稿日: 2026-04-15

🟡 Intermediate Vision 拡散モデル マルチモーダル 画像編集
2026-04-08

RefineAnything: 完璧なローカル詳細のためのマルチモーダル領域特定リファインメント | Flecto

バウンディングボックスで指定した領域だけをAIが精製し、テキスト・ロゴ・顔のローカル詳細を完璧に復元。周囲のピクセルはピクセル単位で保持されます。

記事投稿日: 2026-04-13

🔴 Advanced エージェント セキュリティ LLM ベンチマーク
2026-02-24

SoK: エージェントとしてのスキル - LLMエージェントにおけるツール利用を超えて | Flecto

エージェントスキルレイヤーを初めて体系化したSoK論文。形式的定義から7つの設計パターン、信頼階層モデルまで網羅。ClawHavocによるスキル供給チェーン攻撃がユーザーの36.8%に影響を与えた実例を詳細に分析する。

記事投稿日: 2026-04-13

🔴 Advanced エージェント 推論 LLM
2026-04-08

RAGEN-2: エージェント型強化学習における推論の崩壊 | Flecto

RLで学習したLLMエージェントは、エントロピーが高いにもかかわらず繰り返しテンプレートに静かに崩壊する。相互情報量(+0.39)がエントロピー(-0.14)より優れた診断指標であり、SNR-Aware Filteringが4環境で多様な推論を回復させる。

記事投稿日: 2026-04-10

🟡 Intermediate エージェント LLM ベンチマーク
2026-02-26

SkillNet: AIスキルを構築、評価し、連携する | Flecto

SkillNetは、AIエージェントのスキルを大規模に作成・評価・接続するためのオープンインフラです。20万超のスキルを統一オントロジーで整理し、ALFWorld・WebShop・ScienceWorldで平均報酬を40%向上させ、実行ステップを30%削減します。

記事投稿日: 2026-04-10

🔴 Advanced エージェント ベンチマーク マルチモーダル ビジョン
2026-04-03

Agentic-MME: エージェント能力はマルチモーダルインテリジェンスに何をもたらすのか? | Flecto

人間が93.8%解ける問題を最先端AIはたった56.3%しかクリアできない。このベンチマークはマルチモーダルエージェントの失敗箇所と原因を初めて体系的に解明する。

記事投稿日: 2026-04-07

🔴 Advanced LLM Training Data Curation Data Selection Domain Mixture LLaMA-Factory
2026-03-27

DataFlex:大規模言語モデルのデータ中心動的学習のための統合フレームワーク

DataFlexは動的データ選択・ドメインミックス最適化・サンプル重み付けを単一のLLaMA-Factory互換フレームワークに統合し、再現性の高いデータ中心LLM学習を実現します。

記事投稿日: 2026-04-07