危険すぎてAnthropicが封印
「Claude Mythos」爆誕

今井翔太「人類は一線を超えた」 — エイプリルフールを疑う高性能、Metaは新型モデルで逆襲

TBS CROSS DIG with Bloomberg AI QUEST 2026年4月9日収録 47分

YouTubeで見る ↗

この動画の核心

Claude Mythosのベンチマーク性能が示す新時代

Claude Mythos Previewは従来4-5%ずつの改善が常識だったベンチマークで10-20%以上の飛躍を実現。SWE-bench Verified 93.9%GPQA Diamond 94.5%HLE 64.7%(ツール使用時)を達成し、コーディング能力と総合的知性の「両立不可能」とされた壁を突破した。今井翔太は「SWE-benchとHLEのスコアの組み合わせを見てエイプリルフールを疑った」と語る。
Anthropicの公式発表(2026年4月7日)によると、Mythos PreviewはSWE-bench Verifiedで93.9%を記録し、GPT-5.4やGemini 3.1 Proを大幅に上回る。USAMO 2026で97.6%を達成し、Opus 4.6から+55ポイントの飛躍。GraphWalks BFSでは100万トークンコンテキストで80.0%を記録、GPT-5.4の約4倍のスコア。

サイバーセキュリティにおける一線を超えた能力

Mythosは主要OS・ブラウザで数千件のゼロデイ脆弱性を自律的に発見。最も堅牢とされるOpenBSDで27年間放置されていた脆弱性も検出した。Cybench pass@1で満点1.00、CyberGym 0.83で大幅リード。「人間にはコスパが悪すぎて不可能だったことをAIが無制限に実行できるようになった転換点」と今井は指摘する。
The Hacker Newsの報道によると、Claude Mythos Previewはすべての主要OS・Webブラウザで高重大度の脆弱性を発見。Project Glasswingを通じて50社以上のテック企業にMythos Previewの限定アクセスを提供。Anthropicは1億ドルの利用クレジットと400万ドルのオープンソースセキュリティ支援資金を拠出している。

Anthropicの爆発的成長と「Claudenomics」

Anthropicの年間売上ランレートは2025年末の90億ドルから2026年4月に300億ドルへ3倍以上に急成長、OpenAIを初めて逆転。Metaが社内で「Claudenomics」と名付けたランキングで85,000人の社員が月間60兆トークンを消費(推定9億ドル/月)。「トークンマキシング」がエンジニアの生産性指標になる時代の到来。
Bloomberg、The Informationの報道によると、Anthropicの年間売上ランレートは300億ドルを突破しOpenAIを初めて上回った。企業価値は3,800億ドル、2026年10月のIPOも検討中。NVIDIAのJensen Huangは「年収50万ドルのエンジニアが25万ドルのAIトークンを使っていないなら、それは警鐘だ」と発言。

Meta Muse Sparkの登場とオープンソース路線の転換

Meta Superintelligence Labs(MSL)初のモデル「Muse Spark」は、Llama 4に匹敵する性能を桁違いに少ない計算量で実現。しかし従来のオープンソース路線を転換しプロプライエタリモデルとしてリリース。Alexandr Wang(元Scale AI CEO、19歳で起業)が統率し、約9ヶ月で開発。マルチモーダル分野では健闘するも、コーディング分野ではフロンティアモデルとの差が残る。
CNBC、TechCrunchの報道によると、MetaはScale AIの49%持分を143億ドルで取得しAlexandr Wangを初のChief AI Officerとして迎え入れた(2025年6月)。Muse Sparkは2026年4月8日発表、Meta AIアプリ・WhatsApp・Instagram・Messengerに順次展開予定。オープンソースからプロプライエタリへの路線転換が注目を集めている。

AI安全性と公開判断の歴史的意味

Dario Amodeiは2019年のGPT-2(OpenAI時代)でも危険性を理由に公開を制限した人物。今回のMythos非公開は「同じ人間が再び公開を止めた」歴史的パターンの繰り返し。ただしMythosの能力レベルは「GPT-2とは比較にならない」真の脅威。システムカードでは「最も安全だが最も危険なモデル」と矛盾的に表現 — 優秀な登山家の比喩で説明される。
今井翔太は番組内で、GPT-2の論文著者にDario Amodeiの名前があることを指摘。「やつがまたやったのか」という印象を語った。GPT-2は当時「危険すぎる」として公開が制限されたが、最終的に公開されても世界は混乱しなかった。しかしMythosのサイバーセキュリティ能力は「GPT-2とは比較にならない」レベルであり、一般公開見送りの判断は正当化されうると分析。

番組タイムライン

00:00 - 04:29 ↗

新型Claude「エイプリルフールかと思った」

Episode agenda slide

あれを最初見た時に僕がやったことは何だったのかというとですね、アメリカのエイプリルフールが何日まであるのか確かめました

— 今井翔太(AI研究者)0:15
今井翔太がClaude Mythosの発表を見てまずアメリカのエイプリルフールの日付を確認したエピソードから番組が始まる。GPT-2(2019年)でもOpenAIが危険性を理由に公開を制限したが、その論文の著者にDario Amodei(現Anthropic CEO)の名前がある。「やつがまたやったのか」という今井の印象が、Mythos非公開の歴史的パターンを浮き彫りにする。
04:29 - 09:30 ↗

ベンチマークで見るMythosの威力

Benchmark comparison table

普通今まではどれだけオープンAI、クロード、アンソロピックとGoogleがバチバチやりあっても4%5%上がればすごいと言われていたのが10何%上げてきた、20何%上げてきたっていうのがちょっとこんなに一気に上がるものなのかと思いました

— 今井翔太(AI研究者)5:05
SWE-bench Verified 93.9%、SWE-bench Pro 77.8%、GPQA Diamond 94.5%。従来4-5%の改善が常識だった世界で10-20%以上の飛躍。「GPT-4以降で初めてのレベル」と今井は評価。散々待たされたGPT-5を横目にAnthropicからポッと出てきた衝撃は大きい。
09:30 - 13:00 ↗

コーディングと総合知性の「不可能な両立」

Second benchmark table with HLE scores

SWEベンチとこのHLEのスコアの組み合わせを見て僕はエイプリルフールを疑いました。これって両立するのかみたいな

— 今井翔太(AI研究者)9:26
HLE 64.7%(ツール使用時)で大幅ジャンプ。HLE 50%超えが1年前のGrok以来で、そこから10%以上跳ねた。SWE-benchとHLEの両立がエイプリルフールを疑った最大の理由。GPT-5.4はHLEスコアを「ひっそり公開」— あまり上がらなかったことと対照的。
13:00 - 17:00 ↗

ほぼ全ての人間を凌駕するサイバースキル

Cybench cybersecurity scores

本当に一線超えたというレベルだと思います

— 今井翔太(AI研究者)12:28
Cybench pass@1で満点1.00 — もはやベンチマークとして参考にならないレベル。CyberGym 0.83で大幅リード。最も堅牢なOSと言われたOpenBSDで27年前の脆弱性を発見。OS専門のトップ大学教授も「うまじかよ」と驚愕。「実際のソフトウェアを使った評価の方がいい」とシステムカード自身が言及するほどの性能。
17:00 - 23:25 ↗

一般公開見送りとProject Glasswing

Project Glasswing partner companies

これは結構このミトスは一線を、本当に人類史上でも一線を超えた出来事だと僕は思ってます

— 今井翔太(AI研究者)18:32
AWS、Apple、Google、Microsoft、NVIDIA等50社以上にMythos Previewを限定提供。1億ドルの利用クレジット付き。API価格は入力25ドル/M、出力125ドル/M(Opus 4.6の5倍)— パラメータ数5T超えの可能性を示唆。「最も安全だが最も危険なモデル」という矛盾は「優秀な登山家」の比喩で説明される。
23:25 - 27:00 ↗

Anthropicの成長速度は予測を大幅に上回る

Anthropic revenue forecast bar chart

去年の末はまだ90億ドルでした。2月末は190億ドルでした。そこから1ヶ月ちょっとで300億ドルまで

— 中川雅博(ビジネスエディター)23:50
2025年末90億ドル → わずか3ヶ月強で300億ドルへ。The Informationの内部文書に基づく予測をすでに上回った。Claude CodeとQuit GPTムーブメントが急成長の要因。「2日に1回か1日に1回なんかリリースしてる」— 自社でもClaude Codeを駆使した圧倒的生産性。
27:00 - 31:00 ↗

トークンマキシング — AIトークンが新たな通貨に

Meta Claude spending calculation

こんなにプログラミングというものがお金を燃やしながらやるような仕事になるとは数年前まで思っていなかった

— 今井翔太(AI研究者)29:14
Meta社内「Claudenomics」ランキング: 85,000人が競い合い、月間60兆トークン = 約9億ドル(1,400億円)。MythosのAPI価格がOpus 4.6の5倍なら月45億ドルの可能性も。Jensen Huang: 「年収50万ドルのエンジニアが25万ドルのAIトークンを使っていないなら、それは警鐘」。プログラマーの実力 = 資産力の時代へ。
31:00 - 38:18 ↗

TPU大量調達・Amazon連携・「Claude Codeがバカになった」

Anthropic TPU bulk procurement

もうオープンAIギロチンじゃなくてアンソロピックギロチンと僕は言おうとしてるんですけども、スタートアップがやろうとしてたことを全部刈り取っていくっていう

— 今井翔太(AI研究者)25:11
3GW分のGoogle TPUを利用する契約。GPU + TPU + Amazon Trainiumの全方位調達。利用過多で「Claude Codeがバカになった」問題、OpenClawでもClaude利用不可の報道。マルチモーダル性能はGeminiと競り合い。IPOも検討中(Goldman Sachs・JPMorganと協議)。「Anthropicギロチン」— スタートアップだけでなく大企業の首も飛ぶレベル。
38:18 - 42:00 ↗

Meta Superintelligence Labs初のモデル「Muse Spark」

Meta Muse Spark introduction

事実上日本のほぼ最速レベルですね

— 中川雅博(ビジネスエディター)4:11
Alexandr Wang(元Scale AI CEO、19歳で起業)が統率するMSL初のモデル。コードネーム「Avocado」、約9ヶ月で開発。TBD Lab、FAIR、Products and Applied Research、MSL Infraの4部門構成。Llama 4に匹敵する性能を桁違いに少ない計算量で実現するが、従来のオープンソース路線を転換しプロプライエタリモデルとしてリリース。
42:00 - 47:22 ↗

Muse Sparkはフロンティアに追いつけたか

Muse Spark benchmark comparison

Metaがフロンティアモデルレースに追いついてきた

— 今井翔太(AI研究者)44:49
CharXiv Reasoning、MMMU Proなどマルチモーダルでは健闘。しかしSWE-Bench Verified等のコーディング分野ではまだフロンティアモデルとの差がある。「実用レベルだとそんなに高く評価されていない」という冷静な分析。それでも「Metaがフロンティアモデルレースに追いついた」こと自体は大きな進歩。

詳細解説

ベンチマーク史上最大の飛躍 — 「GPT-4以降で初めてのレベル」

Claude Mythos Previewが記録したベンチマークスコアは、AI開発の常識を覆すものだった。SWE-bench Verified 93.9%(Opus 4.6は72.7%)、GPQA Diamond 94.5%、HLE 64.7%(ツール使用時)。今井翔太は「普通今まではどれだけ各社がバチバチやりあっても4%5%上がればすごいと言われていた」と前置きし、「10何%上げてきた、20何%上げてきた」という飛躍に驚きを隠さない。

特に注目すべきは、USAMO 2026の97.6%(Opus 4.6から+55ポイント)と、100万トークンコンテキストでのGraphWalks BFS 80.0%(GPT-5.4の約4倍)。コーディング能力(SWE-bench)と総合的知性(HLE)の両立は「不可能」とされてきたが、Mythosはその壁を突破した。
サイバーセキュリティの衝撃 — 「うまじかよ」と専門家も驚愕

番組が最も時間を割いたのがサイバーセキュリティ能力だ。Cybench pass@1で満点1.00を記録し、もはやベンチマークとして参考にならないレベルに到達。CyberGymでも0.83で他モデルを大幅にリード。

最も衝撃的だったのは、最も堅牢なOSと言われたOpenBSDで27年間放置されていた脆弱性を発見したこと。FreeBSDでも20年以上前の脆弱性を検出。今井は「数十年にわたる人間のレビューや数百万回の自動セキュリティテストを生き延びた脆弱性を発見した」と解説。OS専門のトップ大学教授が「うまじかよ」と驚いたエピソードが、この発見のインパクトを物語る。
Project Glasswing — 50社以上が参画する防御同盟

Anthropicは一般公開を見送る代わりに「Project Glasswing」を発足。AWS、Apple、Cisco、Google、The Linux Foundation、NVIDIA、Broadcom、CrowdStrike、JPMorgan Chase、Microsoft、Palo Alto Networks等のOS・クラウド・セキュリティ企業が参画。1億ドルの利用クレジットと400万ドルのオープンソースセキュリティ支援資金を拠出。

API価格は入力25ドル/M、出力125ドル/MとOpus 4.6の5倍。今井はこの価格設定からパラメータ数が5T(5兆)を超えている可能性を推測する。システムカードの「最も安全だが最も危険なモデル」という表現について、「優秀な登山家は最も危険な山を登れるが、だからといってその山が安全になるわけではない」という比喩で解説。
Anthropicの業績爆伸 — 15ヶ月で売上30倍

2025年1月に10億ドルだった年間売上ランレートが、2025年末に90億ドル、2026年2月に190億ドル、2026年4月に300億ドルへ急成長。OpenAI(240億ドル)を初めて逆転した。

企業価値は3,800億ドル(2026年2月Series G時点)。Fortune 10企業のう8社が顧客。Amazon Bedrock、Google Cloud Vertex AI、Microsoft Azure Foundryの3大クラウドすべてで利用可能な唯一のフロンティアAIモデル。2026年10月のIPOも検討中で、Goldman SachsおよびJPMorgan Chaseと協議中。今井は「2日に1回か1日に1回なんかリリースしている」と、Claude Codeを自社で駆使した圧倒的な開発速度を指摘。
Claudenomics — 60兆トークンの衝撃と「トークンマキシング」時代

Meta社内では「Claudenomics」と呼ばれるトークン消費ランキングが存在。85,000人の社員が月間60兆トークンを消費し、公開価格換算で約9億ドル(1,400億円)/月に相当。「Token Legend」「Session Immortal」等のタイトルを競い合う文化が生まれている。

NVIDIAのJensen Huangも「年収50万ドルのエンジニアが25万ドルのAIトークンを使っていないなら、それは警鐘だ」と発言。今井は「こんなにプログラミングというものがお金を燃やしながらやる仕事になるとは思っていなかった」と述べ、優秀エンジニアの採用条件に「どれくらいトークン出せるんですか」が加わる時代を予言する。
計算資源争奪戦 — TPU 3GW調達とAnthropicギロチン

Anthropicは2025年10月の1GWから直近3GWのGoogle TPU利用契約に拡大。GPU + TPU + Amazon Trainiumの全方位調達戦略を展開し、Amazonとの「タッグ」関係を強化。一方で、利用過多による品質低下が顕在化し、「Claude Codeがバカになった」という声が話題に。OpenClawでもClaude利用不可の報道があった。

今井は「もうOpenAIギロチンじゃなくてAnthropicギロチン」と表現し、スタートアップだけでなく大企業のビジネスも「刈り取っていく」Anthropicの圧倒的な競争力を指摘する。
Meta Muse Spark — フロンティアレースに追いついたか

Meta Superintelligence Labs初のモデル「Muse Spark」は、Alexandr Wang(元Scale AI CEO、19歳で起業)が約9ヶ月で開発。コードネーム「Avocado」。Llama 4に匹敵する性能を桁違いに少ない計算量で実現した。

ベンチマーク上、マルチモーダル分野(CharXiv Reasoning、MMMU Pro等)では既存フロンティアモデルと競争力があるが、コーディング分野(SWE-Bench Verified等)ではまだ差がある。今井は「実用レベルだとそんなに高く評価されていない」と冷静に分析しつつ、「Metaがフロンティアモデルレースに追いついてきた」こと自体は大きな進歩と評価。

最大の注目点はオープンソースからプロプライエタリへの路線転換。MetaはFacebook、Instagram、WhatsApp、Messengerに加え、Ray-Ban Meta AI glassesにもMuse Sparkを順次展開予定。

番組ハイライト

Claude Mythos benchmark table 04:26 ↗
「神話級AI Claude Mythosの実力」 — SWE-bench Verified 93.9%、GPQA Diamond 94.5%を記録したベンチマーク比較表
Cybersecurity benchmark chart 09:37 ↗
「ほぼ全ての人間を凌駕するサイバースキル」 — Cybench pass@1で満点1.00を達成
Project Glasswing partners 17:46 ↗
Project Glasswing参画企業のロゴ一覧 — Apple、Google、Microsoft、NVIDIA等50社以上
Anthropic revenue chart 23:42 ↗
Anthropicの売上成長速度が予測を大幅に上回るバーチャート — 2026年4月に300億ドル到達
Meta token spending calculation 27:24 ↗
Metaが1ヶ月で消費した金額 — 60兆トークン = 約9億ドル(1,400億円)
Muse Spark benchmark table 39:37 ↗
Muse Spark vs フロンティアモデル群のベンチマーク比較表

文字起こし全文

文字起こし全文を表示(47分)
[0:00:00] 今井さん、アンソロピックのクロードがすごいですね あれはですね、ミトスが昨日公開 4月7日に 朝あれを見たんですけども あれを最初見た時に僕がやったことは何だったのかというとですね アメリカのエイプリルフールが何日まであるのか確かにました 意味わかんないですけど エイプリルフールは4月1日だけですけどね なんですけども ミトスのスコアが間近っていうレベルだったので これはきっと遅れてやってきたアンソロピックの エイプリルフールネタに違いないと思って 違いないというかその可能性はあるなと思って アメリカエイプリルフールで調べて調べたんですけども 4月1日までからじゃあこれ本番やなって感じで ことを最初にやりました というわけでアンソロピックが新しいAIモデルの クロードミトスを発表したんですが なんとみんなが使える状態にすると危ないんで 一般公開に見送りますということで これ素直に第一印象 使えないのでデータというかベンチマークとか 後ほど詳しく見ますけれども 出ているものでしか公開されているものしか わからないですけど第一印象っていかがでしたか そういう扱いになっても不思議ではない 不思議ではないんですけれども またかと思いました GPT2というものがあってですね オープンAIの昔の GPT2というと今では当時のGPTは 幼稚園児レベルの会話しかできなかったので ネタにされる存在ですけれども あれが2019年だったかに最初オープンAIから 発表されてどんな騒ぎだったかというと こいつはもうやばいので公開しないぞと 結局公開したんですけれども ということでやったんですね で皆さんぜひGPT2の論文を開いていただきたいんですが 著者のところにダリオ・アモディという名前があります はいダリオ・アモディとは誰か アンソロピックのトップです CEOです なのでやつがまたやったのかみたいな ちょっと印象を持ちました 印象を持ったんですけれども 当時のGPT2は結局公開されて それで世界がめちゃくちゃになったかというと その後継モデルは確かに世界がめちゃくちゃにしたかもしれないですけれども GPT2単体はそんなことなかったので 今では笑われているんですが ミトスは少なくとも公開されている情報を そのまま本当だとすると そういう扱いでも不思議ではないという感じですね もともと安全に対する思想を強めなということを この番組に言っていますけれども ぜひ2月に公開した ダリオ・アモディとかアンソロピックに関する動画も ご覧いただきたいんですけれども その時から安全に対する思想というか 意識というのがすごい強い人なんですよね ダリオ・アモディ その人が再びオープンAIでも公開を止めた アンソロピックでも一般公開を止めて ちょっとまた新たなAIの段階に来ているというような感じですよね 純粋に商業的な運用コストが高いという理由もあると思うんですけれども ちょっと新しい時代に入ったような感じはします はい、わかりました というわけで今井翔太さんと探検するAIクエスト 今回のテーマは 一般公開できない最強AI クロードミトスの威力です はい、というわけで 今日は3つのテーマで見ていきます まずクロードミトスの威力ということで ミトスのベンチマークだって いろんなデータも出てきているんですけれども これについて今井さんと詳しく見ていきます それから2つ目アンソロピックの無双が始まったということで 最近業績的にもかなり勢いづいているということで 今一体何が起きているのか その裏で実はメタがクロードの超ヘビーユーザーなんじゃないかな ということも言われていたりするので その後に見ていきます そのメタなんですけれども 最後、3つ目ですけれども ちょっと最新ニュース メタが新たなAIモデル ニューススパークというものを発表して 実はこの収録今しているのは 4月9日の朝なんですけれども 昨日の深夜というか未明というか 今日の深夜 事実上日本のほぼ最速レベルですね そうですね AIモデルを発表したというのがあって これが昨年スーパーインテリジェンスラボという AIの研究所が発足してから 初のモデル発表になったわけなんですけれども こちらもいろんな情報が出てきているので 最後も詳しく見ていきたいと思います というわけで最初 クロードミトスの威力というわけなんですが 最初分かりやすいところから ちょっといきたいなと思っていて この番組でもいろんなAIモデルのベンチマーク 評価する指標の数字ですよね ここを見てきたわけなんですけれども じゃあその数字からすると このクロードミトスどれぐらいすごいのかということで このSWEベンチ 例えばソフトウェアエンジニア コーディングの能力ですよね この辺りもすごい高い数字です これ2桁上がるんだなと思いました [0:05:00] 普通今まではどれだけオープンエイト クローアンソロピックと Googleはバチバチやりあっても 4%5%上がればすごいと言われていたのが 10何%上げてきた 20何%上げてきたっていうのが ちょっとこんなに一気に上がるものなのかと思いました 多分GPT4以降だと 飛躍的に上がったレベルとしては 多分初めてレベルです これは本当に もともとGPT5に期待されたのが 多分これぐらいです そうですよね 散々もう待たされて待たされて 匂わせて匂わせて みたいな感じですね あっという間にポッと出てきて これだけの数字は もうこれは残念ながら モデル公開されていないので 実際どんなのか確かめようがないですけど まずベンチマーク評価上は 本当にとんでもないのが出てきたといって これは間違いないです なるほど そうですね このSWベンチいろんな種類ありますけど 基本的にはコーディング能力ですよね コーディングで そりゃこんだけ強ければ セキュリティ不安も起きるだろうなと というのはもう もともとこれミトス自体は 今回の正式公開がある前から やや治安が悪い話で リークみたいな話で ミトスなるものを アンストロピック持っていて それが意図しない形で公開されて それがセキュリティ不安を引き起こすという文言が書かれていたので セキュリティ株がガクンと下がるというイベントが もともと1週間2週間前にあったんですけれども 正直僕それを見た段階では ここまでになると思ってなかったです せいぜいオーパス4.6オーパスの 前期でも普通の いつものぐらいの成長かなと思ったんですけど こんなに跳ねると思ってなかったです そうですよね このオーパス4.6をこの番組で取り上げたのが2月なので あの時もお仕事能力が高いですね という話をここでもしてたんですが そこからわずか1ヶ月半ぐらいですよ でも当時の多分オーパス4.6 我々話した時には もうミトスできてたと思うんですよ これGPT4とチャットGPTの時も 似たような話があって これはサムアルトマンの電気を参考にしてほしいんですが 8月2023年の8月にはGPT4でできてたっぽい でもちょっと威力高すぎるので ちょっとバージョン落としたやつにチャットGPTしようと思ったら 思いのこはねて 3月にGPT4出してきたって話なので 意外とそのフロンティアモデル内部できてることはあるんですけども 多分ミトスも最近あったクロードコードの クロードコードのコードが流出事件の中身とか クロードコードめちゃくちゃバイブコーディング書かれてるんですけども 見てると多分ミトスも運用してたんじゃないかと思います なるほど でその他のベンチマークも見ていければと思うんですけど この番組で何度も取り上げている このHLE Humanities Last Exam 人類最後のテスト めちゃくちゃ難しいテストを AIモデルに溶かせるってやつなんですが これでも これ60超えたんだなと思いました 跳ねましたよね これ50超えたのが イーロンマスクの言うことはどこまでに受けるかあれですけども グロックのツールユーザリーが 1年前とかだったかな ぐらいで そこから10何%あれで上げてきたっていうのは 大体その50%から結局最新モード出てきたと みんな50何% 50何%ずっと続いてるのが 突然10何%上がるんだというのと あと純粋スコアすごいんですけども すごいなこれ コーディングと両立してるって話で 最近話したことだと オープンAIは 5.4かな 5.4的にHLEのスコアを隠すとは言わないですけども なんかひっそり公開したんですよ ちょっとやっぱり そこまで上がらなかったみたいな なので 普通アンストロピックのクロードみたいに 彼のエンプラー全部にしてるので 全部にしてるはずなので HLEの総合的なスコアって そんな上がらないんじゃないかと僕思うんですけども なんかめちゃくちゃそれも上がってきたので コーディングにあそこまで性能を上げて さらに総合的な能力も同時に上がるんだっていうのは ちょっとびっくりしました さっきのソフトウェア SWEベンチとこのHLEのスコアの組み合わせを見て 僕はエイプリルフルを疑いました これって両立するのかみたいな 確かに5.4の時に両立できないみたいな感じで 言われてたのが 見事にそれを覆してきたわけですもんね この能力の高さによって恐れられているというのが サイバーセキュリティのところで 今回のアンサービックの発表の中では 最も熟練した人間の専門家を除き ほぼ全ての人間を凌駕するレベル このMITOSは過去数週間で 本当にいろんなソフトウェアにおける 開発者自身すらも知らない未知の脆弱性 [0:10:00] ゼロで脆弱性なんて言われてますけども セキュリティの穴ですよね これ水性発見したと言われてるんですけども このサイバースキルのベンチマーク これ100点になってるんで これほぼ参考にならないんですけど サイベンチっていうやつとか あとサイバージムというベンチマークがあるみたいなんですが これでも大きく伸ばしたと もうクロードのこれMITOSのシステムカードで 能力高すぎるので もうこれベンチマークじゃなくて 実際のソフトウェアを使った評価の方がいいんじゃないか っていうことを言ってるぐらいなので ベンチマークはこのぐらい出るだろうと でも実際に我々開発者とか 使っているソフトウェアとかで もう10何年とか20何年放置されてきた 放置されてきたというより 別に我々開発者のバグを 意図的に放置することはないので 要するに大量の開発者を逃れてきた すごい年寄りバグを見つけちゃったという そうですね ちょっとすごかった なんか最も堅牢なOSと言われてた オープンBSDなソフトウェアで 27年前の税作者を発見したりとか いろんな例が 機関レベル BSDは皆さん使っている なんとかくさ LinuxとかUnixとか あの周辺のソフトウェアですけども かなり機関レベルのOSのソフトウェアなので それの プロジェクト自体が非常にオープンなので ものすごいいろんな人の目が入っているはずなんですよ それでもうそんだけ放置されてきたバグを見つけたっていうのは 相当すごい 人間のもちろんトップ開発者見てきて それ見つけられなかったものを見つけたわけなので そいつはすごいということで もうセキュリティ関係者 多分この話とかもう僕ではなくて セキュリティ関係者本来するべきだと思うんですけれども みんな素直に こいつはやべえぞと言ってました 日本のとあるトップ大学のOS専門の人が ちょっと名前は具体的に出たんですけども 人がいるんですけども その人も上まじかよ こんなこれを組み合わせて こんなことやったらこんなことできるんだみたいな かなり素直に驚いたので こいつは別にAI関連のやつが 誇張していっているとかじゃなくて 本当に一線超えたというレベルだと思います なるほど 先ほどのSWペンチとHLEを両立できる性能だったり このサイバーセキュリティの性能だったり なんでここまでジャンプアップしてきたと思いますか これ正直僕は分からないです もうシステムカードに技術の技の字もないくらい 何も書いてないようなもんなので 分からないんですけども 書いてあることといえば 頑張りました 強化学習もしましたくらいで 本当に全然分からないんですけども 強いてヒントがあるとすると これの多分今日この後話出てくるのかな プロジェクトがある セキュリティ企業とかと組んだプロジェクトあるんですけども プロジェクトグラスウィングですね このプロジェクトページの結構下の方だったかに このプロジェクトに参加している企業に これぐらいの価格で提供しますという 具体的な数字出ているんですよ それがミリオントークンあたり25ドルだったかな そうですね 入力トークンが25ドル 出力が もっとすごかったんですけども 125ドルとかですね これ5倍ぐらいなので 直近のオーパス4.6の5倍ぐらいですよね これだいたいそのAPIとか LLM API料金とかって モデル本体のパラメータ数に 結構比例するんですよ もともとクロードのモデルって非常に大きくて だいたいTぐらい 超です 何超パラメータで 本当にすごくてですね これ公式に 全然公式じゃないですけども 一般的に確認されている 認められたり一番でかいのって GPT4の1.8兆 3年前の1.8兆 それ以来ずっと更新されていないぐらいの 新生なる数字ラインがTなんですよ 超超えたモデルで 実用モデルほぼないんですけども アーストロピック直近のモデルは 多分それいってるだろうと思われてるんですね これ1Tでもすごいです 1T2Tでもそんなものが運用できるのかという レベルなんですけども MITOSはこれもう5Tは超えて 10Tとかっていうツイート流れてますけども あれは多分正確な情報ではないですけども それに近くいっててもおかしくないぐらいだと思います シンプルには出力トークンの価格から判断すると 5T超えるレベルで 単純に技術的な何か秘密があるのか聞かれたら まずこのとにかくスケーリングがすごかったのと [0:15:00] もう完全にソフトウェアの開発者の 事実上標準LLM化してたので 多分それで実運用するのが得たデータが もうこれアーストロピックしか持ってないものなので 一流コーダーのデータというのを めちゃくちゃつぎ込んだというのは あるんじゃないかなと思います これ改めて確認なんですけど そのパラメーター数っていわゆる重みですよね いろんなAIモデルが動く上で大事なところで その何兆単位になると もちろん学習プロセスって相当難しいわけですよね 大量のデータをそれだけ守る 難しいですし そもそもスケーリングさせたとして ここまで来ると実用的な能力が上がるかどうかって 結構怪しいんですよ まずGPTは4.5でそれで失敗しているわけです なのでここまで能力が来てしまうと そんなにめちゃくちゃお金かけたところで それが報われるかどうかってあんまり開発しているのかわからないんですけど ようやったなという感じです これは本当にすごい話で 何兆モデルとかだとスカイツリー1本なんてのは 全然安い話で どんだけ吹っ飛ぶかも僕も怖くてわからないぐらい 計算コストが すごく時間もかかるし それだけの計算資源があれば 本来別のモデルの学習に使えたはずなので 本来すごく勇気がいることなんですよ それをやってきてちゃんと成果を出している っていうのは いやちょっとこれアンスロッピー本当に抜けたなと 前に今井さんが言ってた 祈りの時間って GPUにぶん投げて うまくいきますようにって祈ってるんだ チェックポイント結構作ったりとか スパイクが出たりしたら わっと介入したりしますけど 祈りの時間です それがうまくいったっていうことなんですよね 桁違いの規模で 先ほどちょっと出ましたけど このプロジェクトグラスウィングというのがあって 要は今回一般公開をしないということで 限られた企業にだけ公開し 使ってもらうということで このサイバーセキュリティのスキルが高いということは 防御にも使えるけどもちろん攻撃でものすごい力を発揮してしまう それだけのリスクがあるということで サイバー防衛が必要な重要インフラを持つような企業 約50ぐらいの企業とか組織に限定して今回提供すると それがこのプロジェクトだということなんですけども 主な三角企業はこちらで 結構インフラ的なOSだったりクラウドだったり そうですね これはプラットフォームとかそういうレベルではなくて 本当にOSレベル Windowsとかクラウドサービス LinuxとかAppleとか 本当にサイトとかが動いている OSレベルの企業とかですね あとセキュリティですね あと金融も入ってますけども そうですね もちろんこんだけめちゃくちゃ性の高いと 金融システムをどうにかするということができてしまうので その上での選択でしょう これは この枠組みはどうでしょう 前田さんどういうふうに受け止めました 必要だと思います というより この話はここでしいのか分からないですけども これは結構このミトスは一線を 本当に人類史上でも一線を超えた出来事だと僕は思ってます これもセキュリティだけの話ではないんですけども 我々の住んでいる世の中って結構不完全 セキュリティ 別にセキュリティだけじゃないんですけど 皆さん使っているソフトウェアも はっきり言ってバグを全部消すことはできないんですよ バグ全部で消すことはできないんですけども それが皆さん 世の中に配慮されて 皆さん使って世の中に回っているわけです はっきり言ってこの辺のバグは 本当に腕がいい人を見つけようと思ったら 見つけられますし 多分悪用もできます なんですが そんなことをいろんなソフトウェアに対して 毎回やるコストは高すぎる まず人間一人の時間限られているので わざわざそんな いっぱい使えているソフトをハッキングしてやろうかな というのをいろんなところに仕掛けるのは まず人的リソースの都合上から これは無理だったわけ コスパ悪すぎる 現実的にはできるかもしれないけど それをやる人的知的リソースがないので 社会がうまく回っていたわけです というものが 制度面で 法律とかもそうですし 何なら人間は皆さん不完全なので 個人の人間にしても 本気でいろんなものを探すと 何かアラー見つかります がそんなことを みんなにやる人いないので 放置されていたわけです 許されたと というのが 今回セキュリティ化始まったわけですけども 自律上無制限に そういうことを [0:20:00] 可能なものが 世に解き放たれてしまうと そういうものを 全部荒さがしまくって もうめちゃくちゃハックして 丸くることができるようになってしまうので ちょっとですね これは結構怖い社会が待っているぞ というのは見えてきた ので こういう閉じた形で 一旦セキュリティとか OSとか 本当に機関的な 重要なところから始めよう ということだと思います ちょっと前に 国防総省と争いがありましたけども そんなどこの話じゃないよと もっとディスクが高いよ みたいな話になってきてますよね このセキュリティの話以外 というと 今回システムカードという 詳細な資料を見ているとですね このクラウドミトスについては 最も安全だが 最もリスクが高いモデルだと 表現しているんですね システムカードの中では 優秀な登山家の例に 例えているんですけども そもそも 冷静に考えると 最も安全だけど 最も危険で 矛盾している話なので どういう答えの話なんですけども 普通の初心者の登山家だったら 言うて初心者なので そんなにすごいところに 連れて行かないので それで終わっちゃうんですけども 優秀すぎる登山家は 優秀で安全かもしれないが 連れて行けるところが あまりにも結構 深部というか 結構すごいところに 連れて行ってしまうので 山のキワキワなところまで 連れて行っちゃうと 結果として 何か起こった場合に やばくなるのが そっちの方だと いう話をしているわけです なるほど だから使いようによっては っていう話ですよね それだけ このアライメント 前も出てきましたけども 人間の価値との 整合性を取るみたいな AIと人間の これに関しても 過去最高の指標が 出てるっていうところ 出てるんですけども それは多分 事実だと思うんですけども ただ これ本当に ユーザーがその気になれば 性能高いって いくらでも すごいことを できてしまう この後の話 あるかもしれないですけども 実際 ミトスのテストだと サンドボックス っていう 我々サンドボックス っていうのは ソフトウェアとか めちゃくちゃ動かしても 問題ない 閉じた環境 ことなんですけども そこで このミトスを 運用して 脱出できるかどうか 脆弱性をついて 脱出できるかどうか ってやってた時に 普通に こいつは脱出してしまって 開発者が サンドウィッチを 食べてる時に メールを送ってきた っていうのと ついでに その脆弱性を どっかに公開 しようとしていた してしまったのかな っていうのとか 他にも いろんなもの さっきも ベンチマークの なかったですけど ベンディングベンチっていう 自販機経営タスクが あるんですけども それとかでも なんか 半ば脅迫じみなことを して儲けようとする 供給絞って 儲けようとか なんかもう 頭が良すぎて 何でもやるみたいな やつになってしまっているので そういう意味では 性能高すぎることの 安全性っていうのは まあ 普通は そんな完璧に 両立しないもんだよ という話だと思います なんかもはや アライメントって 何みたいな話になってきますよね そこまでになると まあそうですね これは僕も ずっと昔から ここで話した気がするんですけども 知能の高さと 安全性は 絶対両立しないということを ずっと言っているので なるほど でもそれは一番 そこの景色を見てしまった アンソロピックは 今一番それを分かっている ということですよね そうですね はい 分かりました というわけで 次のパートいければと思うんですけども アンソロピックの無双が始まった ということで そのモデルの開発でも 勢いが止まらないんですが ビジネス面でも 勢いが止まらないということで そのアンソロピックの ARR年間換算収益というのが つい最近 300億ログ 約4.5兆円突破したと 公表されていてですね これ去年の末は まだ90億ログでした 2月末は 190億ログでした そこから1ヶ月ちょっとで 300億ログまで まあでも 最近の騒ぎ見ていると そのぐらいは そうですよね 単純計算すると もう 3、4ヶ月後には 1000億ログ つまり15兆円ぐらい いっちゃうんじゃないかと このグラフは アメリカのメディアの 財布文書に出ていたんですけども もともと去年の時点での予想が このオレンジの線なんですけども まあその2026年末の予想も すでに上回ってしまったということなんですよね うん これやっぱりあれですかね クイットGPTとか いろいろありましたけども はい あとはクロードコードみんなが使うみたいな はい それぐらい勢いがあるという まあこれはアンソロピックが お金をちゃんと払ってくれるところを見つけて お金を払ってくれる人に喜ぶ機能を とにかく次々と もう投下してきたって大きいと思います ちなみに今日の収録の前にも アンソロピック 新しいエージェント マネジメントツール出してたんですけど はっきり言っても 最近2日に1回か1日に1回なんかリリースしてるんですよ [0:25:00] 一番自分たちでもクロードコードを使いこなして もう圧倒的生産性を今発揮しているところですよね はい でまあそろそろオープンエイギロチンじゃなくて アンソロピックギロチンと僕は言おうとしてるんですけども スタートアップがやろうとしてたことを 全部借り取っていくっていう もともとオープンエイがやってたこと オープンエイが何か発表するたびに スタートアップが吹っ飛ぶという かつてビッグテックがそうでしたよね ビッグテックがやったことがスタートアップ吹き飛んじゃうみたいな それがもう最近完全にアンソロピックの 伝統芸能みたいになってしまって なんならスタートアップだけじゃなくて 大企業の首まで飛んじゃいそうな ぐらいですね サースイスデッドの話もそうですけども とにかく 我々はこれを求めていたんだ っていうものをしっかり出して もう なんかAGIがなんだとか チャット チャットとかのなんかもう違いが分からない進化とかじゃなくて 本当にみんな喜んでくれるもの これは業務に使えるぞっていうものを ちゃんと出してきたのが非常に大きいと思います 単にだからモデルこんなすごいの作りましただけじゃなくて それをきちっとプロダクトに落とし込んで 仕事だとか生活に 主に仕事ですよね 仕事で役に立つものに変えてきているということなわけですよね 最近アメリカシリコンバレーですね 主に話題な言葉に トークンマクシングという言葉があってですね 同じくさっきのメディアのザインフォーメーションによれば メタの社内でものすごい トークンです AIのトークンをどれだけ使ったか つまりざっくり言うと AIツールをどれだけ使っているかを 競うランキングみたいなのが社内であって それが名前がクロードノミクスみたいな名前なんですよね クロードからもじっているわけなんですけども この幹部の人もですね トップエンジニアは自分の給料と同等の金額を AIトークンに費やして生産性を10倍に上げていると やるしかないよねみたいな話をしているわけなんですが それぐらいだから お前はAIネイティブなのかっていうのを 社内で問われているわけですよ このランキングによれば メタの社内で過去30日で 60兆トークンを使われたという話で これオーパス4.6の価格で計算すると 30日間で9億 だいたいざっくりですよ本当に 9億ドル分使っている1400億円ですね ものすごい額になっていて これ年間にしたら100億ドルぐらいですよね つまりこれ全部クロードとは分からないですけど さっき言ったアルソロピックの年間収益の結構な割合が メタが占めているんじゃないかみたいな話が今言われているわけですよ すごいことが起きていますよね そうですしこれだとインフラレイヤーも ウハウハウハだなと言えばカワジャムが喜んでいるだろうな GTCでもカワジャムは多分そういう社会になるだろうということを そもそも言っていた これからの社会はどれだけ企業がトークンを出したかが重要 我々はトークン工場 トークンを吐き出すデータセンターを生み出すんだ みたいなことを言っていたので まさにそういうことを本当になろうとしていると 日本でも似たような話を聞きます ネイティブAI何でもAI 実はもうAIでこういうことができるんだということを気づいてもらうために まず使いましょうという取り組みをしているのを聞いているので さすがにメタほど極端ではないにしろ 多分こういうのが増えていくんじゃないかと僕は思います そうですね 僕も結構スタートアップの人と話すこともあるんですけど 最近本当にエンジニアだろうが非エンジニアだろうが 営業だろうがバックオフィスだろうが みんながみんなクロードコードを使って その費用を会社が負担してくれるとか そういう話をよく聞くので カワジャムも言っているんですよこうやって 年収50万ドルのエンジニアが年間25万ドル相当の AIトークを使っていないなら それは売れるべき事態だと 自分の年収の半分ぐらいは使えと これカワジャム言うとすごいポジショントーク聞こえますけど 正しいと思います というかですね これもそんなに健全な話しか分からないですけども こんなにプログラミングというものが お金を燃やしながらやるような仕事になるとは 数年前まで思っていなかった 数年前と言ったら5年前から 2020年に思っていなかった ちょっとコパイロット出たあたりから 僕は超感じたんですけども こんなに高くつくと思っていなかったです クロード高いんですよ そうですよね しかもさっきのミトスがすごい金額に 5倍になっているので さっき見せた このメタが費やした金額は オーパス4.6で計算しているので もしこの5倍だったら 1ヶ月で45億ロールみたいな話になっちゃって すごい記録になっちゃう これプログラマーの実力が 資産力になっちゃうんじゃないかなって これ僕だけじゃなくて いろんな人言ってるんですけれども 業務 会社負担する場合ともかく 個人が出ているコンテストとかになると [0:30:00] プログラミング 純粋な競技プログラミングじゃなくて 何らかの形でプログラミングが 威力を発揮するようなものだと どれくらい精製薬にお金を払えるかっていう話 個人能力というよりは 精製薬払えるお金の差がつくような世界になってきているので それはちょっと健全なのかなと思う時はあります そうですよね 優秀なエンジニアを雇うには 例えば雇いたい人がいて あなたの会社はどれくらいトークン出せるんですか みたいな話になってくるってことですかね なると思いますよ 本当にこういう 単に開発する企業だけじゃなくて みんながみんなお金勝負になってきちゃうっていう そうですね 感じになってきてますよね これだけ使われてたら足りなくなるのが計算資源です アンソロピックが直近で 3ギガワット分のGoogleのTPU テンサープロセッシングインと Googleが開発して AI半導体チップですけども これを利用する契約と 製造元のブロードを結んだと 去年の10月に 1ギガワットの容量のTPUを利用する契約っていうのを アンソロピックがGoogleと結んだばかりだったんですけども GPUだけじゃなくて このTPUも使うし あるいはAmazonのトレーニアムという 半導体チップですけども ここを大量に使ったデータセンターを 今一緒にAmazonとアンソロピックでやっているという話なんですけども ものすごいですよね これは結構長い話でやや繰り返しになるんですけども 計算資源マジで足りてないんですよ MITOSが利用できないっていうのは もちろんセキュリティ懸念もあると思うんですが 単純に提供できる計算資源足りないっていうのも大きいと思います 最近の話だと これの視聴者層は結構クロードコードを使っているか分からないんですが クロードコードはバカになったというのを 直近2週間くらいみんな言っているんですよ なぜかというと これ僕が中身を見たわけじゃないので ちょっと確証を持てないですけども 内部設定で もともと結構推論がハイになっていたのが 中間レベルまで裏設定されたっていうのがあったらしいんですよね 推論のレベルというか 推論レベルが裏で実は下げられていたっていうのは クロードコード流出事件かな ときに出てたっぽいですね それが僕は確かめていないですけども 少なくとも性能が悪くなったら事実なんですよ これはもう何回も繰り返されてきた現象ですけど とにかく計算能力が足りなくて 最初のスタート時点だけ話題性を出すために ユーザーを囲い込むために フルブースト計算資源をフルブーストかけるけども その中でカツカツになってきたので 下げていくっていうのになっているんだと思います とにかく今の生成やいって サービス提供時にも計算資源必要で 研究用にも必要なので これのトレードオフっていうだけでも相当大変 本来オープンAとかアンソロピックって研究機関なので サービス提供にそんなGPU使うなんてのは 普通あまり想定されていなかったはずなんですね なのでとにかく計算資源を どこか選んでいるとかではなくて かき集めているのは近いと思います NVIDIAじゃなくてTPU選んでいるのではなくて もうNVIDIAのGPUだけじゃ足りないので お願いながらかき集めさせてっていうフェーズに 入っているんだと思いますこれは もう使えるとこ全部使えますという 状態になっているわけですよね 計算資源不足と関連するのかなって思ったのが 最近話題のオープンクローですけれども これでオープンクロー自体はモデルじゃないので いろんなAIモデルと組み合わせで AIエージェントとして使うわけですが これクロードを使っている人が多かったわけですよね ただ最近今まではクロードのサブスク 月額課金の中での枠で オープンクローで使うクロードを 使えてたんですけれども これから重量課金になってしまったという話で ここも多分受給の逼迫っていうのを すごい表してますよね これ自体はもう はっきり言って皆さん使っている サブスクの定額プランって 多分みんな大体赤字なんですよ そんなヘビーユーザーどれだけいるか 分からないですけども ヘビーユーザーでなくても赤字になるぐらい 結構太っ腹なことをしてくれている状況なので それをこんなもう そこら中世界中広まったオープンクローで 定額範囲内でやりたい放題されたら たまらんっていうやつなので 一部でアンソロピックオープンクローを 締め出したのか オープンクローをできるようにしたと 言われてますけど 本当にそういう話ではなくて 単純にごめんちょっとこれは オーバンブルマイしすぎたので これやめてなって話だと思います 切実な問題なわけですよね そんな困難なアンソロピックですけど これからどうなってくるんですかね [0:35:00] まず現状のアンソロピックは 僕の予想を上回るぐらいにすごくなっています そうですよね ミトスは明らかに僕の予想を上回りました あの強さに これから2,3ヶ月で オープンAIとGoogleが追いつくのかどうか って話だと思います オープンAIスパットっていうモデルが どうも内部にあるらしくて それが4月だか5月だかに公開された話ですけども それを見て それが全然追いついてないようだったら 完全にアンソロピック独創状態になるんじゃないかと 思います でGoogleも多分5月のGoogle IOで ジェミニ3.5なのか 4はちょっと早い気がするんですけども 出してくる気がするんですけども その辺の直近1,2ヶ月のものを見て 他のところがもう追いついてないようだったら 少なくともモデル性能上は独創すると思います でまずこれ対オープンAIに関して言うと オープンAIかなり致命的だと思います 単純に今年IPOをオープンAIとアンソロピック 控えていると言われていてスペースXもAIじゃないですけど XAがくっついたので ほぼAI企業みたいなものです はっきり言って市場が供給できるお金 投資量 投資量 お金の量はもうさすがに上限ラインがあるはずなので ほぼそのマネーの取り合いになる気がするんですね でもうこんだけアンソロピックモデルレイヤーで強いと もうマネーがこっちに集中して オープンAIが少なくとも投資を想定されていたほどの額で 公開とはならない気がします のでかつオープンAIとアンソロピックは どちらもAI以前のエコシステムを持たない同士で 単純に性能殴り合っている企業同士なので 単に性能上がった方を勝つという状況を見ると アンソロピック側が秘伝のタレを持っていて 性能を維持するのであれば これオープンAIは危ないと思います 一方対Googleどうかというと これさっき出てきたベンチマークでも ちょっと見えたんですけども まずマルチモーダル性能は意外とまだ ジェミニとほぼ競ってるぐらい ジェミニが非常に強いんですよ でGoogleは多分それを意識していて マルチモーダル性能既存のGoogleの エコシステムと組み合わせた マルチモーダル性能を意図的に上げているんだと思います でGoogleはもう法人向けのアプリケーションというより もともと持ってた2C向けのエコシステムとか組み合わせて マルチモーダルとか組み合わせて使えるので これは多分住み分けという形になっていく なんか法人とかのガリガリバックオフィスとかジムとかやるのは アンソロピッククロードで で一般ユーザー消費 一般消費者レベルだとエコシステム組み合わせて マルチモーダル組み合わせてGoogleのジェミニという流れになっていくので ここはバチバチになるというよりは もう住み分けましょうという形で かなりアンソロピックは 安定して収益上げられるポジションになってきたんじゃないかとは思います なるほど わかりました というわけでここまでアンソロピックのクロードミトスなど いろんな動向を見てきたんですが 最後にですね 最新ニュースです メタがミューズスパークで逆襲ということで このメタが昨年ですよね AI研究所スーパーインテリジェンスラボを発足させて このマーク・ザッカーバーグCEOの下にですね このアレキサンダー1チーフAIオフィサーが スケールAIというスタートアップの企業家で それをメタが買収したわけですけれども この研究所発足後初のモデルが出てきました この研究所はですね 入口のところまで僕は行ってきました メタの社内に僕は最近入ったんですけれども メタはちなみにここだけ別セキュリティなんですよ もう一回なんかPCなといけない Pというか入れない 限られた人しか入れない 普通ちゃんとしたゲストとして行ったんですけれども スーパーインテリジェンスラボ入り口に来たら ここだけはちょっと別セキュリティなので ダメです ザッカーバーグも近くいるよと言われました なるほど 壁の一つか二つ向こうにはいたかもしれないということですね なのでそれぐらい特別扱いされているところです 今回発表したのが ミューズスパークというモデルなんですけれども いろんなベンチマークでも出ているんですが これちょっと第一印象 今井さんに伺える 高いです 高いんですが 見せ方がもうちょっと何かやり方があっただろうと思います 見せ方 これは別に見せ方については 僕はあまりやらないか 他のラボとかは人のことは言えないんですけれども これ青じゃないですか そうですね これはアレクサンダー1のツイートから 持ってきたやつだと思うんですけれども [0:40:00] これ公式の 公式ですか 公式とアレクサンダー1のツイートが これになった気がするんですけれども これ青で太文字強調することもあるんですけれども 何か色がついていると これが一番スコア高いのかなという 認知ハックになるんですよ もちろん言い訳としては これは単なる我々のモデルを見やすくしているだけだ という言い方があるんですけれども 冷静に見ると普通にこれ 別のやつには負けているということで ツイッターとかだと これを正しく修正してやったぞという形で ちゃんと相対 一番スコア高いやつだけ色ついているものが 出たりするんですけれども ちょっと認知ハックというかですね スコアがよく見えるような 見せ方をしているなというのを ちょっと嫌い思いました ただ性能も高いといえば高い スコアとベンチマーク上は高い そうですよね 割とここでオーパス4.6 クロードオーパス4.6とか ジャネイの3.1プロ GPT5.4 グロックと比較されていますけれども すごい差があるかというとそうでもないし 何なら上回っている 他のものを上回っているようなものも全然出てきていると 一応界隈の感想と僕の所感を述べると まずこれ結構使い方限られていて 今までのラマみたいにオープンではないです オープンではなくて メタAIかな メタのエコシステム内で使われることを 想定しているモデルらしいので まず僕は現状使っていないんですけれども 界隈で使った人曰く 少なくとも実用上そんなすごいかというと そうでもないっぽい ウェブサイトの制作とかでも結構間違えているし 出力的にも最近フロンティアモデル及ばないという形なので まず現時点でまだ出てきてから12時間も経っていないのかな 発表会はまだ12時間経っていないですね 日本時間の日付が変わった後だったので 実用レベルだとそんな評価されていないです その上で僕の所感を述べると このモデルはこのモデルだけ評価すべきではないと思います まずベンチマークスコアで フロンティアモデルに追いつくレベルぐらい メタが仕上げてきたという事実が非常に重要で 別にこれの後にも後継モデルが出るはずです 出るはずでちゃんとメタが スタートラインにまず立てることを示した スタートラインに立ってしまうと メタはやはりあそこは 圧倒的なGoogleレベルのプラットフォームなので 独自データメタ経済圏から得られる独自データを持っているはずなので 入り口に立った上でその独自データで学習したら 一般的なコーディングとかは分からないですけども 少なくとも何十億人のユーザー抱える メタのエコシステムインスタとかもそうですし メタバースは本当に諦めたのか分からないですけども Facebookとか あと広告でそれ上に乗っかっている広告とかで 相当な威力を発揮する可能性はあると思います なのでこれミューズスパークは これ自体がものすごい性能を発揮していると評価をするよりも メタがちゃんとフロンティアモデル学習の入り口に立って そこからメタの本当の強みを発揮していけるところまで 本当に立ったんだという見方をすべきかと思います なるほど これベンチマークで見ているとどうですかね これ確かHLEもどこか出てたけど 出てます下のところ Humanities Last Examは これ50はめちゃくちゃ高いです なのでまずベンチマーク性能は高いですが Alexander 1がやっているというのがちょっとややポイントで 彼はもともとスケールAIというところのトップで データとかビッグテックとかがモデルを作るときの データを整備している企業なんですけれども それもあって多分ちゃんとこういうやり方で学習すると ベンチマークでいいスコアが出るというのを 彼は結構知っていたと思うんですよ テスト対策が上手みたいな なので今界隈ではさっきの実用性 実際ウェブ書かせてみたらあんまり性能なかった話と絡めて これベンチマークハックに特化したモデルじゃないかと いうことが言われているので ベンチマークだけだとちょっと判定できないかなと それを言ったらさっきMITOSもなんですけれども MITOSはもともとオーパスとかはちゃんと 一般の人はみんな使って評価されてきたモデルなので ベンチマークは最後後押しって感じですけれども このミューズスパークは残念ながら出てきたばっかりで ベンチマーク以外ちょっと評価しようがないので ややベンチマークハックに特化したモデルかなと 言われて無理はないとは思います 思いますが メタがいよいよフロンティアモデルレースに 追いついてきたんじゃないかと繰り返しになりますけど そういう見方すべきかと思います SWEベンチとかターミナルベンチとか [0:45:00] コーディングのところはやっぱり全然高くないな 高いですよこれは10分 高いというのは高いですけども 他が高すぎるのか 他がちょっとやばすぎるだけで これスコアは十分高いんですけども 何かちょっと最近の ドラゴンボール並みインフレが起こっているのが悪いというか なので ちゃんとスコアが出ているモデルだと思います なるほど そういうことですね GDPバルとかも出ていますが そうですね それなりにやっぱりスコアというのは出てきているわけですよね とはいえこのラボが発足したのが去年の7月ぐらいだったと思います スケールアイアウトを買収したのがそれぐらいだったので そこから9ヶ月ぐらいですか AIの世界の9ヶ月って相当 早いというのか遅いというのかという感じですけど その辺ってどうなんですかね いやでもこれは普通に相当いい感じで 仕上げてきたんじゃないですかね だって GPT4が出てきて 初代ジェミニンが出てきた時に もう9ヶ月経ってたわけですよ 3月14がGPT4で 12月6日かなが ジェミニンだったので そうですね 当時のジェミニン これも9ヶ月だったわけですけども まあボコボコだったわけです 最初の評価は 全然GPT4追いついてないぞって言われて その後追いついたのが 1年後とかぐらいだったはずなので 下手すら2年弱かかってたことを踏まえると 9ヶ月で普通にフロンティアモデルに追いつくレベルまで仕上げてきたのは ちゃんと人材集めたんだなという印象です なるほど 出たり入ったりが激しいなっていうのはありましたけども やることはちゃんとやってたということですよね はい わかりました というわけでここまで 一般公開できない最強AI クロードミトスの威力というテーマで 今井翔太さんとエアクエストをお送りしてまいりました 本日もご視聴ありがとうございます ぜひチャンネル登録と高評価 クロスティックの公式Xのフォローもお願いいたします それではまた次回 エアクエストでお会いしましょう 皆さんありがとうございました ありがとうございました チャンネル登録をお願いいたします またね またね またね