危険すぎてAnthropicが封印
「Claude Mythos」爆誕

今井翔太「人類は一線を超えた」 — エイプリルフールを疑う高性能、Metaは新型モデルで逆襲

TBS CROSS DIG with Bloomberg AI QUEST 2026年4月9日収録 47分

YouTubeで見る ↗

この動画の核心

Claude Mythosのベンチマーク性能が示す新時代

Claude Mythos Previewは従来4-5%ずつの改善が常識だったベンチマークで10-20%以上の飛躍を実現。SWE-bench Verified 93.9%、GPQA Diamond 94.5%、HLE 64.7%（ツール使用時）を達成し、コーディング能力と総合的知性の「両立不可能」とされた壁を突破した。今井翔太は「SWE-benchとHLEのスコアの組み合わせを見てエイプリルフールを疑った」と語る。

Anthropicの公式発表（2026年4月7日）によると、Mythos PreviewはSWE-bench Verifiedで93.9%を記録し、GPT-5.4やGemini 3.1 Proを大幅に上回る。USAMO 2026で97.6%を達成し、Opus 4.6から+55ポイントの飛躍。GraphWalks BFSでは100万トークンコンテキストで80.0%を記録、GPT-5.4の約4倍のスコア。

サイバーセキュリティにおける一線を超えた能力

Mythosは主要OS・ブラウザで数千件のゼロデイ脆弱性を自律的に発見。最も堅牢とされるOpenBSDで27年間放置されていた脆弱性も検出した。Cybench pass@1で満点1.00、CyberGym 0.83で大幅リード。「人間にはコスパが悪すぎて不可能だったことをAIが無制限に実行できるようになった転換点」と今井は指摘する。

The Hacker Newsの報道によると、Claude Mythos Previewはすべての主要OS・Webブラウザで高重大度の脆弱性を発見。Project Glasswingを通じて50社以上のテック企業にMythos Previewの限定アクセスを提供。Anthropicは1億ドルの利用クレジットと400万ドルのオープンソースセキュリティ支援資金を拠出している。

Anthropicの爆発的成長と「Claudenomics」

Anthropicの年間売上ランレートは2025年末の90億ドルから2026年4月に300億ドルへ3倍以上に急成長、OpenAIを初めて逆転。Metaが社内で「Claudenomics」と名付けたランキングで85,000人の社員が月間60兆トークンを消費（推定9億ドル/月）。「トークンマキシング」がエンジニアの生産性指標になる時代の到来。

Bloomberg、The Informationの報道によると、Anthropicの年間売上ランレートは300億ドルを突破しOpenAIを初めて上回った。企業価値は3,800億ドル、2026年10月のIPOも検討中。NVIDIAのJensen Huangは「年収50万ドルのエンジニアが25万ドルのAIトークンを使っていないなら、それは警鐘だ」と発言。

Meta Muse Sparkの登場とオープンソース路線の転換

Meta Superintelligence Labs（MSL）初のモデル「Muse Spark」は、Llama 4に匹敵する性能を桁違いに少ない計算量で実現。しかし従来のオープンソース路線を転換しプロプライエタリモデルとしてリリース。Alexandr Wang（元Scale AI CEO、19歳で起業）が統率し、約9ヶ月で開発。マルチモーダル分野では健闘するも、コーディング分野ではフロンティアモデルとの差が残る。

CNBC、TechCrunchの報道によると、MetaはScale AIの49%持分を143億ドルで取得しAlexandr Wangを初のChief AI Officerとして迎え入れた（2025年6月）。Muse Sparkは2026年4月8日発表、Meta AIアプリ・WhatsApp・Instagram・Messengerに順次展開予定。オープンソースからプロプライエタリへの路線転換が注目を集めている。

AI安全性と公開判断の歴史的意味

Dario Amodeiは2019年のGPT-2（OpenAI時代）でも危険性を理由に公開を制限した人物。今回のMythos非公開は「同じ人間が再び公開を止めた」歴史的パターンの繰り返し。ただしMythosの能力レベルは「GPT-2とは比較にならない」真の脅威。システムカードでは「最も安全だが最も危険なモデル」と矛盾的に表現 — 優秀な登山家の比喩で説明される。

今井翔太は番組内で、GPT-2の論文著者にDario Amodeiの名前があることを指摘。「やつがまたやったのか」という印象を語った。GPT-2は当時「危険すぎる」として公開が制限されたが、最終的に公開されても世界は混乱しなかった。しかしMythosのサイバーセキュリティ能力は「GPT-2とは比較にならない」レベルであり、一般公開見送りの判断は正当化されうると分析。

番組タイムライン

00:00 - 04:29 ↗

新型Claude「エイプリルフールかと思った」

Episode agenda slide

あれを最初見た時に僕がやったことは何だったのかというとですね、アメリカのエイプリルフールが何日まであるのか確かめました
— 今井翔太（AI研究者）0:15

今井翔太がClaude Mythosの発表を見てまずアメリカのエイプリルフールの日付を確認したエピソードから番組が始まる。GPT-2（2019年）でもOpenAIが危険性を理由に公開を制限したが、その論文の著者にDario Amodei（現Anthropic CEO）の名前がある。「やつがまたやったのか」という今井の印象が、Mythos非公開の歴史的パターンを浮き彫りにする。

04:29 - 09:30 ↗

ベンチマークで見るMythosの威力

Benchmark comparison table

普通今まではどれだけオープンAI、クロード、アンソロピックとGoogleがバチバチやりあっても4%5%上がればすごいと言われていたのが10何%上げてきた、20何%上げてきたっていうのがちょっとこんなに一気に上がるものなのかと思いました
— 今井翔太（AI研究者）5:05

SWE-bench Verified 93.9%、SWE-bench Pro 77.8%、GPQA Diamond 94.5%。従来4-5%の改善が常識だった世界で10-20%以上の飛躍。「GPT-4以降で初めてのレベル」と今井は評価。散々待たされたGPT-5を横目にAnthropicからポッと出てきた衝撃は大きい。

09:30 - 13:00 ↗

コーディングと総合知性の「不可能な両立」

Second benchmark table with HLE scores

SWEベンチとこのHLEのスコアの組み合わせを見て僕はエイプリルフールを疑いました。これって両立するのかみたいな
— 今井翔太（AI研究者）9:26

HLE 64.7%（ツール使用時）で大幅ジャンプ。HLE 50%超えが1年前のGrok以来で、そこから10%以上跳ねた。SWE-benchとHLEの両立がエイプリルフールを疑った最大の理由。GPT-5.4はHLEスコアを「ひっそり公開」— あまり上がらなかったことと対照的。

13:00 - 17:00 ↗

ほぼ全ての人間を凌駕するサイバースキル

Cybench cybersecurity scores

本当に一線超えたというレベルだと思います
— 今井翔太（AI研究者）12:28

Cybench pass@1で満点1.00 — もはやベンチマークとして参考にならないレベル。CyberGym 0.83で大幅リード。最も堅牢なOSと言われたOpenBSDで27年前の脆弱性を発見。OS専門のトップ大学教授も「うまじかよ」と驚愕。「実際のソフトウェアを使った評価の方がいい」とシステムカード自身が言及するほどの性能。

17:00 - 23:25 ↗

一般公開見送りとProject Glasswing

Project Glasswing partner companies

これは結構このミトスは一線を、本当に人類史上でも一線を超えた出来事だと僕は思ってます
— 今井翔太（AI研究者）18:32

AWS、Apple、Google、Microsoft、NVIDIA等50社以上にMythos Previewを限定提供。1億ドルの利用クレジット付き。API価格は入力25ドル/M、出力125ドル/M（Opus 4.6の5倍）— パラメータ数5T超えの可能性を示唆。「最も安全だが最も危険なモデル」という矛盾は「優秀な登山家」の比喩で説明される。

23:25 - 27:00 ↗

Anthropicの成長速度は予測を大幅に上回る

Anthropic revenue forecast bar chart

去年の末はまだ90億ドルでした。2月末は190億ドルでした。そこから1ヶ月ちょっとで300億ドルまで
— 中川雅博（ビジネスエディター）23:50

2025年末90億ドル → わずか3ヶ月強で300億ドルへ。The Informationの内部文書に基づく予測をすでに上回った。Claude CodeとQuit GPTムーブメントが急成長の要因。「2日に1回か1日に1回なんかリリースしてる」— 自社でもClaude Codeを駆使した圧倒的生産性。

27:00 - 31:00 ↗

トークンマキシング — AIトークンが新たな通貨に

Meta Claude spending calculation

こんなにプログラミングというものがお金を燃やしながらやるような仕事になるとは数年前まで思っていなかった
— 今井翔太（AI研究者）29:14

Meta社内「Claudenomics」ランキング: 85,000人が競い合い、月間60兆トークン = 約9億ドル（1,400億円）。MythosのAPI価格がOpus 4.6の5倍なら月45億ドルの可能性も。Jensen Huang: 「年収50万ドルのエンジニアが25万ドルのAIトークンを使っていないなら、それは警鐘」。プログラマーの実力 = 資産力の時代へ。

31:00 - 38:18 ↗

TPU大量調達・Amazon連携・「Claude Codeがバカになった」

Anthropic TPU bulk procurement

もうオープンAIギロチンじゃなくてアンソロピックギロチンと僕は言おうとしてるんですけども、スタートアップがやろうとしてたことを全部刈り取っていくっていう
— 今井翔太（AI研究者）25:11

3GW分のGoogle TPUを利用する契約。GPU + TPU + Amazon Trainiumの全方位調達。利用過多で「Claude Codeがバカになった」問題、OpenClawでもClaude利用不可の報道。マルチモーダル性能はGeminiと競り合い。IPOも検討中（Goldman Sachs・JPMorganと協議）。「Anthropicギロチン」— スタートアップだけでなく大企業の首も飛ぶレベル。

38:18 - 42:00 ↗

Meta Superintelligence Labs初のモデル「Muse Spark」

Meta Muse Spark introduction

事実上日本のほぼ最速レベルですね
— 中川雅博（ビジネスエディター）4:11

Alexandr Wang（元Scale AI CEO、19歳で起業）が統率するMSL初のモデル。コードネーム「Avocado」、約9ヶ月で開発。TBD Lab、FAIR、Products and Applied Research、MSL Infraの4部門構成。Llama 4に匹敵する性能を桁違いに少ない計算量で実現するが、従来のオープンソース路線を転換しプロプライエタリモデルとしてリリース。

42:00 - 47:22 ↗

Muse Sparkはフロンティアに追いつけたか

Muse Spark benchmark comparison

Metaがフロンティアモデルレースに追いついてきた
— 今井翔太（AI研究者）44:49

CharXiv Reasoning、MMMU Proなどマルチモーダルでは健闘。しかしSWE-Bench Verified等のコーディング分野ではまだフロンティアモデルとの差がある。「実用レベルだとそんなに高く評価されていない」という冷静な分析。それでも「Metaがフロンティアモデルレースに追いついた」こと自体は大きな進歩。

詳細解説

ベンチマーク史上最大の飛躍 — 「GPT-4以降で初めてのレベル」

Claude Mythos Previewが記録したベンチマークスコアは、AI開発の常識を覆すものだった。SWE-bench Verified 93.9%（Opus 4.6は72.7%）、GPQA Diamond 94.5%、HLE 64.7%（ツール使用時）。今井翔太は「普通今まではどれだけ各社がバチバチやりあっても4%5%上がればすごいと言われていた」と前置きし、「10何%上げてきた、20何%上げてきた」という飛躍に驚きを隠さない。

特に注目すべきは、USAMO 2026の97.6%（Opus 4.6から+55ポイント）と、100万トークンコンテキストでのGraphWalks BFS 80.0%（GPT-5.4の約4倍）。コーディング能力（SWE-bench）と総合的知性（HLE）の両立は「不可能」とされてきたが、Mythosはその壁を突破した。

サイバーセキュリティの衝撃 — 「うまじかよ」と専門家も驚愕

番組が最も時間を割いたのがサイバーセキュリティ能力だ。Cybench pass@1で満点1.00を記録し、もはやベンチマークとして参考にならないレベルに到達。CyberGymでも0.83で他モデルを大幅にリード。

最も衝撃的だったのは、最も堅牢なOSと言われたOpenBSDで27年間放置されていた脆弱性を発見したこと。FreeBSDでも20年以上前の脆弱性を検出。今井は「数十年にわたる人間のレビューや数百万回の自動セキュリティテストを生き延びた脆弱性を発見した」と解説。OS専門のトップ大学教授が「うまじかよ」と驚いたエピソードが、この発見のインパクトを物語る。

Project Glasswing — 50社以上が参画する防御同盟

Anthropicは一般公開を見送る代わりに「Project Glasswing」を発足。AWS、Apple、Cisco、Google、The Linux Foundation、NVIDIA、Broadcom、CrowdStrike、JPMorgan Chase、Microsoft、Palo Alto Networks等のOS・クラウド・セキュリティ企業が参画。1億ドルの利用クレジットと400万ドルのオープンソースセキュリティ支援資金を拠出。

API価格は入力25ドル/M、出力125ドル/MとOpus 4.6の5倍。今井はこの価格設定からパラメータ数が5T（5兆）を超えている可能性を推測する。システムカードの「最も安全だが最も危険なモデル」という表現について、「優秀な登山家は最も危険な山を登れるが、だからといってその山が安全になるわけではない」という比喩で解説。

Anthropicの業績爆伸 — 15ヶ月で売上30倍

2025年1月に10億ドルだった年間売上ランレートが、2025年末に90億ドル、2026年2月に190億ドル、2026年4月に300億ドルへ急成長。OpenAI（240億ドル）を初めて逆転した。

企業価値は3,800億ドル（2026年2月Series G時点）。Fortune 10企業のう8社が顧客。Amazon Bedrock、Google Cloud Vertex AI、Microsoft Azure Foundryの3大クラウドすべてで利用可能な唯一のフロンティアAIモデル。2026年10月のIPOも検討中で、Goldman SachsおよびJPMorgan Chaseと協議中。今井は「2日に1回か1日に1回なんかリリースしている」と、Claude Codeを自社で駆使した圧倒的な開発速度を指摘。

Claudenomics — 60兆トークンの衝撃と「トークンマキシング」時代

Meta社内では「Claudenomics」と呼ばれるトークン消費ランキングが存在。85,000人の社員が月間60兆トークンを消費し、公開価格換算で約9億ドル（1,400億円）/月に相当。「Token Legend」「Session Immortal」等のタイトルを競い合う文化が生まれている。

NVIDIAのJensen Huangも「年収50万ドルのエンジニアが25万ドルのAIトークンを使っていないなら、それは警鐘だ」と発言。今井は「こんなにプログラミングというものがお金を燃やしながらやる仕事になるとは思っていなかった」と述べ、優秀エンジニアの採用条件に「どれくらいトークン出せるんですか」が加わる時代を予言する。

計算資源争奪戦 — TPU 3GW調達とAnthropicギロチン

Anthropicは2025年10月の1GWから直近3GWのGoogle TPU利用契約に拡大。GPU + TPU + Amazon Trainiumの全方位調達戦略を展開し、Amazonとの「タッグ」関係を強化。一方で、利用過多による品質低下が顕在化し、「Claude Codeがバカになった」という声が話題に。OpenClawでもClaude利用不可の報道があった。

今井は「もうOpenAIギロチンじゃなくてAnthropicギロチン」と表現し、スタートアップだけでなく大企業のビジネスも「刈り取っていく」Anthropicの圧倒的な競争力を指摘する。

Meta Muse Spark — フロンティアレースに追いついたか

Meta Superintelligence Labs初のモデル「Muse Spark」は、Alexandr Wang（元Scale AI CEO、19歳で起業）が約9ヶ月で開発。コードネーム「Avocado」。Llama 4に匹敵する性能を桁違いに少ない計算量で実現した。

ベンチマーク上、マルチモーダル分野（CharXiv Reasoning、MMMU Pro等）では既存フロンティアモデルと競争力があるが、コーディング分野（SWE-Bench Verified等）ではまだ差がある。今井は「実用レベルだとそんなに高く評価されていない」と冷静に分析しつつ、「Metaがフロンティアモデルレースに追いついてきた」こと自体は大きな進歩と評価。

最大の注目点はオープンソースからプロプライエタリへの路線転換。MetaはFacebook、Instagram、WhatsApp、Messengerに加え、Ray-Ban Meta AI glassesにもMuse Sparkを順次展開予定。

番組ハイライト

Claude Mythos benchmark table

「神話級AI Claude Mythosの実力」 — SWE-bench Verified 93.9%、GPQA Diamond 94.5%を記録したベンチマーク比較表

Cybersecurity benchmark chart

「ほぼ全ての人間を凌駕するサイバースキル」 — Cybench pass@1で満点1.00を達成

Project Glasswing partners

Project Glasswing参画企業のロゴ一覧 — Apple、Google、Microsoft、NVIDIA等50社以上

Anthropic revenue chart

Anthropicの売上成長速度が予測を大幅に上回るバーチャート — 2026年4月に300億ドル到達

Meta token spending calculation

Metaが1ヶ月で消費した金額 — 60兆トークン = 約9億ドル（1,400億円）

Muse Spark benchmark table

Muse Spark vs フロンティアモデル群のベンチマーク比較表

文字起こし全文

文字起こし全文を表示（47分）

[0:00:00] 今井さん、アンソロピックのクロードがすごいですねあれはですね、ミトスが昨日公開 4月7日に朝あれを見たんですけどもあれを最初見た時に僕がやったことは何だったのかというとですねアメリカのエイプリルフールが何日まであるのか確かにました意味わかんないですけどエイプリルフールは4月1日だけですけどねなんですけどもミトスのスコアが間近っていうレベルだったのでこれはきっと遅れてやってきたアンソロピックのエイプリルフールネタに違いないと思って違いないというかその可能性はあるなと思ってアメリカエイプリルフールで調べて調べたんですけども 4月1日までからじゃあこれ本番やなって感じでことを最初にやりましたというわけでアンソロピックが新しいAIモデルのクロードミトスを発表したんですがなんとみんなが使える状態にすると危ないんで一般公開に見送りますということでこれ素直に第一印象使えないのでデータというかベンチマークとか後ほど詳しく見ますけれども出ているものでしか公開されているものしかわからないですけど第一印象っていかがでしたかそういう扱いになっても不思議ではない不思議ではないんですけれどもまたかと思いました GPT2というものがあってですねオープンAIの昔の GPT2というと今では当時のGPTは幼稚園児レベルの会話しかできなかったのでネタにされる存在ですけれどもあれが2019年だったかに最初オープンAIから発表されてどんな騒ぎだったかというとこいつはもうやばいので公開しないぞと結局公開したんですけれどもということでやったんですねで皆さんぜひGPT2の論文を開いていただきたいんですが著者のところにダリオ・アモディという名前がありますはいダリオ・アモディとは誰かアンソロピックのトップです CEOですなのでやつがまたやったのかみたいなちょっと印象を持ちました印象を持ったんですけれども当時のGPT2は結局公開されてそれで世界がめちゃくちゃになったかというとその後継モデルは確かに世界がめちゃくちゃにしたかもしれないですけれども GPT2単体はそんなことなかったので今では笑われているんですがミトスは少なくとも公開されている情報をそのまま本当だとするとそういう扱いでも不思議ではないという感じですねもともと安全に対する思想を強めなということをこの番組に言っていますけれどもぜひ2月に公開したダリオ・アモディとかアンソロピックに関する動画もご覧いただきたいんですけれどもその時から安全に対する思想というか意識というのがすごい強い人なんですよねダリオ・アモディその人が再びオープンAIでも公開を止めたアンソロピックでも一般公開を止めてちょっとまた新たなAIの段階に来ているというような感じですよね純粋に商業的な運用コストが高いという理由もあると思うんですけれどもちょっと新しい時代に入ったような感じはしますはい、わかりましたというわけで今井翔太さんと探検するAIクエスト今回のテーマは一般公開できない最強AI クロードミトスの威力ですはい、というわけで今日は3つのテーマで見ていきますまずクロードミトスの威力ということでミトスのベンチマークだっていろんなデータも出てきているんですけれどもこれについて今井さんと詳しく見ていきますそれから2つ目アンソロピックの無双が始まったということで最近業績的にもかなり勢いづいているということで今一体何が起きているのかその裏で実はメタがクロードの超ヘビーユーザーなんじゃないかなということも言われていたりするのでその後に見ていきますそのメタなんですけれども最後、3つ目ですけれどもちょっと最新ニュースメタが新たなAIモデルニューススパークというものを発表して実はこの収録今しているのは 4月9日の朝なんですけれども昨日の深夜というか未明というか今日の深夜事実上日本のほぼ最速レベルですねそうですね AIモデルを発表したというのがあってこれが昨年スーパーインテリジェンスラボという AIの研究所が発足してから初のモデル発表になったわけなんですけれどもこちらもいろんな情報が出てきているので最後も詳しく見ていきたいと思いますというわけで最初クロードミトスの威力というわけなんですが最初分かりやすいところからちょっといきたいなと思っていてこの番組でもいろんなAIモデルのベンチマーク評価する指標の数字ですよねここを見てきたわけなんですけれどもじゃあその数字からするとこのクロードミトスどれぐらいすごいのかということでこのSWEベンチ例えばソフトウェアエンジニアコーディングの能力ですよねこの辺りもすごい高い数字ですこれ2桁上がるんだなと思いました [0:05:00] 普通今まではどれだけオープンエイトクローアンソロピックと Googleはバチバチやりあっても 4%5%上がればすごいと言われていたのが 10何%上げてきた 20何%上げてきたっていうのがちょっとこんなに一気に上がるものなのかと思いました多分GPT4以降だと飛躍的に上がったレベルとしては多分初めてレベルですこれは本当にもともとGPT5に期待されたのが多分これぐらいですそうですよね散々もう待たされて待たされて匂わせて匂わせてみたいな感じですねあっという間にポッと出てきてこれだけの数字はもうこれは残念ながらモデル公開されていないので実際どんなのか確かめようがないですけどまずベンチマーク評価上は本当にとんでもないのが出てきたといってこれは間違いないですなるほどそうですねこのSWベンチいろんな種類ありますけど基本的にはコーディング能力ですよねコーディングでそりゃこんだけ強ければセキュリティ不安も起きるだろうなとというのはもうもともとこれミトス自体は今回の正式公開がある前からやや治安が悪い話でリークみたいな話でミトスなるものをアンストロピック持っていてそれが意図しない形で公開されてそれがセキュリティ不安を引き起こすという文言が書かれていたのでセキュリティ株がガクンと下がるというイベントがもともと1週間2週間前にあったんですけれども正直僕それを見た段階ではここまでになると思ってなかったですせいぜいオーパス4.6オーパスの前期でも普通のいつものぐらいの成長かなと思ったんですけどこんなに跳ねると思ってなかったですそうですよねこのオーパス4.6をこの番組で取り上げたのが2月なのであの時もお仕事能力が高いですねという話をここでもしてたんですがそこからわずか1ヶ月半ぐらいですよでも当時の多分オーパス4.6 我々話した時にはもうミトスできてたと思うんですよこれGPT4とチャットGPTの時も似たような話があってこれはサムアルトマンの電気を参考にしてほしいんですが 8月2023年の8月にはGPT4でできてたっぽいでもちょっと威力高すぎるのでちょっとバージョン落としたやつにチャットGPTしようと思ったら思いのこはねて 3月にGPT4出してきたって話なので意外とそのフロンティアモデル内部できてることはあるんですけども多分ミトスも最近あったクロードコードのクロードコードのコードが流出事件の中身とかクロードコードめちゃくちゃバイブコーディング書かれてるんですけども見てると多分ミトスも運用してたんじゃないかと思いますなるほどでその他のベンチマークも見ていければと思うんですけどこの番組で何度も取り上げているこのHLE Humanities Last Exam 人類最後のテストめちゃくちゃ難しいテストを AIモデルに溶かせるってやつなんですがこれでもこれ60超えたんだなと思いました跳ねましたよねこれ50超えたのがイーロンマスクの言うことはどこまでに受けるかあれですけどもグロックのツールユーザリーが 1年前とかだったかなぐらいでそこから10何%あれで上げてきたっていうのは大体その50%から結局最新モード出てきたとみんな50何% 50何%ずっと続いてるのが突然10何%上がるんだというのとあと純粋スコアすごいんですけどもすごいなこれコーディングと両立してるって話で最近話したことだとオープンAIは 5.4かな 5.4的にHLEのスコアを隠すとは言わないですけどもなんかひっそり公開したんですよちょっとやっぱりそこまで上がらなかったみたいななので普通アンストロピックのクロードみたいに彼のエンプラー全部にしてるので全部にしてるはずなので HLEの総合的なスコアってそんな上がらないんじゃないかと僕思うんですけどもなんかめちゃくちゃそれも上がってきたのでコーディングにあそこまで性能を上げてさらに総合的な能力も同時に上がるんだっていうのはちょっとびっくりしましたさっきのソフトウェア SWEベンチとこのHLEのスコアの組み合わせを見て僕はエイプリルフルを疑いましたこれって両立するのかみたいな確かに5.4の時に両立できないみたいな感じで言われてたのが見事にそれを覆してきたわけですもんねこの能力の高さによって恐れられているというのがサイバーセキュリティのところで今回のアンサービックの発表の中では最も熟練した人間の専門家を除きほぼ全ての人間を凌駕するレベルこのMITOSは過去数週間で本当にいろんなソフトウェアにおける開発者自身すらも知らない未知の脆弱性 [0:10:00] ゼロで脆弱性なんて言われてますけどもセキュリティの穴ですよねこれ水性発見したと言われてるんですけどもこのサイバースキルのベンチマークこれ100点になってるんでこれほぼ参考にならないんですけどサイベンチっていうやつとかあとサイバージムというベンチマークがあるみたいなんですがこれでも大きく伸ばしたともうクロードのこれMITOSのシステムカードで能力高すぎるのでもうこれベンチマークじゃなくて実際のソフトウェアを使った評価の方がいいんじゃないかっていうことを言ってるぐらいなのでベンチマークはこのぐらい出るだろうとでも実際に我々開発者とか使っているソフトウェアとかでもう10何年とか20何年放置されてきた放置されてきたというより別に我々開発者のバグを意図的に放置することはないので要するに大量の開発者を逃れてきたすごい年寄りバグを見つけちゃったというそうですねちょっとすごかったなんか最も堅牢なOSと言われてたオープンBSDなソフトウェアで 27年前の税作者を発見したりとかいろんな例が機関レベル BSDは皆さん使っているなんとかくさ LinuxとかUnixとかあの周辺のソフトウェアですけどもかなり機関レベルのOSのソフトウェアなのでそれのプロジェクト自体が非常にオープンなのでものすごいいろんな人の目が入っているはずなんですよそれでもうそんだけ放置されてきたバグを見つけたっていうのは相当すごい人間のもちろんトップ開発者見てきてそれ見つけられなかったものを見つけたわけなのでそいつはすごいということでもうセキュリティ関係者多分この話とかもう僕ではなくてセキュリティ関係者本来するべきだと思うんですけれどもみんな素直にこいつはやべえぞと言ってました日本のとあるトップ大学のOS専門の人がちょっと名前は具体的に出たんですけども人がいるんですけどもその人も上まじかよこんなこれを組み合わせてこんなことやったらこんなことできるんだみたいなかなり素直に驚いたのでこいつは別にAI関連のやつが誇張していっているとかじゃなくて本当に一線超えたというレベルだと思いますなるほど先ほどのSWペンチとHLEを両立できる性能だったりこのサイバーセキュリティの性能だったりなんでここまでジャンプアップしてきたと思いますかこれ正直僕は分からないですもうシステムカードに技術の技の字もないくらい何も書いてないようなもんなので分からないんですけども書いてあることといえば頑張りました強化学習もしましたくらいで本当に全然分からないんですけども強いてヒントがあるとするとこれの多分今日この後話出てくるのかなプロジェクトがあるセキュリティ企業とかと組んだプロジェクトあるんですけどもプロジェクトグラスウィングですねこのプロジェクトページの結構下の方だったかにこのプロジェクトに参加している企業にこれぐらいの価格で提供しますという具体的な数字出ているんですよそれがミリオントークンあたり25ドルだったかなそうですね入力トークンが25ドル出力がもっとすごかったんですけども 125ドルとかですねこれ5倍ぐらいなので直近のオーパス4.6の5倍ぐらいですよねこれだいたいそのAPIとか LLM API料金とかってモデル本体のパラメータ数に結構比例するんですよもともとクロードのモデルって非常に大きくてだいたいTぐらい超です何超パラメータで本当にすごくてですねこれ公式に全然公式じゃないですけども一般的に確認されている認められたり一番でかいのって GPT4の1.8兆 3年前の1.8兆それ以来ずっと更新されていないぐらいの新生なる数字ラインがTなんですよ超超えたモデルで実用モデルほぼないんですけどもアーストロピック直近のモデルは多分それいってるだろうと思われてるんですねこれ1Tでもすごいです 1T2Tでもそんなものが運用できるのかというレベルなんですけども MITOSはこれもう5Tは超えて 10Tとかっていうツイート流れてますけどもあれは多分正確な情報ではないですけどもそれに近くいっててもおかしくないぐらいだと思いますシンプルには出力トークンの価格から判断すると 5T超えるレベルで単純に技術的な何か秘密があるのか聞かれたらまずこのとにかくスケーリングがすごかったのと [0:15:00] もう完全にソフトウェアの開発者の事実上標準LLM化してたので多分それで実運用するのが得たデータがもうこれアーストロピックしか持ってないものなので一流コーダーのデータというのをめちゃくちゃつぎ込んだというのはあるんじゃないかなと思いますこれ改めて確認なんですけどそのパラメーター数っていわゆる重みですよねいろんなAIモデルが動く上で大事なところでその何兆単位になるともちろん学習プロセスって相当難しいわけですよね大量のデータをそれだけ守る難しいですしそもそもスケーリングさせたとしてここまで来ると実用的な能力が上がるかどうかって結構怪しいんですよまずGPTは4.5でそれで失敗しているわけですなのでここまで能力が来てしまうとそんなにめちゃくちゃお金かけたところでそれが報われるかどうかってあんまり開発しているのかわからないんですけどようやったなという感じですこれは本当にすごい話で何兆モデルとかだとスカイツリー1本なんてのは全然安い話でどんだけ吹っ飛ぶかも僕も怖くてわからないぐらい計算コストがすごく時間もかかるしそれだけの計算資源があれば本来別のモデルの学習に使えたはずなので本来すごく勇気がいることなんですよそれをやってきてちゃんと成果を出しているっていうのはいやちょっとこれアンスロッピー本当に抜けたなと前に今井さんが言ってた祈りの時間って GPUにぶん投げてうまくいきますようにって祈ってるんだチェックポイント結構作ったりとかスパイクが出たりしたらわっと介入したりしますけど祈りの時間ですそれがうまくいったっていうことなんですよね桁違いの規模で先ほどちょっと出ましたけどこのプロジェクトグラスウィングというのがあって要は今回一般公開をしないということで限られた企業にだけ公開し使ってもらうということでこのサイバーセキュリティのスキルが高いということは防御にも使えるけどもちろん攻撃でものすごい力を発揮してしまうそれだけのリスクがあるということでサイバー防衛が必要な重要インフラを持つような企業約50ぐらいの企業とか組織に限定して今回提供するとそれがこのプロジェクトだということなんですけども主な三角企業はこちらで結構インフラ的なOSだったりクラウドだったりそうですねこれはプラットフォームとかそういうレベルではなくて本当にOSレベル Windowsとかクラウドサービス LinuxとかAppleとか本当にサイトとかが動いている OSレベルの企業とかですねあとセキュリティですねあと金融も入ってますけどもそうですねもちろんこんだけめちゃくちゃ性の高いと金融システムをどうにかするということができてしまうのでその上での選択でしょうこれはこの枠組みはどうでしょう前田さんどういうふうに受け止めました必要だと思いますというよりこの話はここでしいのか分からないですけどもこれは結構このミトスは一線を本当に人類史上でも一線を超えた出来事だと僕は思ってますこれもセキュリティだけの話ではないんですけども我々の住んでいる世の中って結構不完全セキュリティ別にセキュリティだけじゃないんですけど皆さん使っているソフトウェアもはっきり言ってバグを全部消すことはできないんですよバグ全部で消すことはできないんですけどもそれが皆さん世の中に配慮されて皆さん使って世の中に回っているわけですはっきり言ってこの辺のバグは本当に腕がいい人を見つけようと思ったら見つけられますし多分悪用もできますなんですがそんなことをいろんなソフトウェアに対して毎回やるコストは高すぎるまず人間一人の時間限られているのでわざわざそんないっぱい使えているソフトをハッキングしてやろうかなというのをいろんなところに仕掛けるのはまず人的リソースの都合上からこれは無理だったわけコスパ悪すぎる現実的にはできるかもしれないけどそれをやる人的知的リソースがないので社会がうまく回っていたわけですというものが制度面で法律とかもそうですし何なら人間は皆さん不完全なので個人の人間にしても本気でいろんなものを探すと何かアラー見つかりますがそんなことをみんなにやる人いないので放置されていたわけです許されたとというのが今回セキュリティ化始まったわけですけども自律上無制限にそういうことを [0:20:00] 可能なものが世に解き放たれてしまうとそういうものを全部荒さがしまくってもうめちゃくちゃハックして丸くることができるようになってしまうのでちょっとですねこれは結構怖い社会が待っているぞというのは見えてきたのでこういう閉じた形で一旦セキュリティとか OSとか本当に機関的な重要なところから始めようということだと思いますちょっと前に国防総省と争いがありましたけどもそんなどこの話じゃないよともっとディスクが高いよみたいな話になってきてますよねこのセキュリティの話以外というと今回システムカードという詳細な資料を見ているとですねこのクラウドミトスについては最も安全だが最もリスクが高いモデルだと表現しているんですねシステムカードの中では優秀な登山家の例に例えているんですけどもそもそも冷静に考えると最も安全だけど最も危険で矛盾している話なのでどういう答えの話なんですけども普通の初心者の登山家だったら言うて初心者なのでそんなにすごいところに連れて行かないのでそれで終わっちゃうんですけども優秀すぎる登山家は優秀で安全かもしれないが連れて行けるところがあまりにも結構深部というか結構すごいところに連れて行ってしまうので山のキワキワなところまで連れて行っちゃうと結果として何か起こった場合にやばくなるのがそっちの方だという話をしているわけですなるほどだから使いようによってはっていう話ですよねそれだけこのアライメント前も出てきましたけども人間の価値との整合性を取るみたいな AIと人間のこれに関しても過去最高の指標が出てるっていうところ出てるんですけどもそれは多分事実だと思うんですけどもただこれ本当にユーザーがその気になれば性能高いっていくらでもすごいことをできてしまうこの後の話あるかもしれないですけども実際ミトスのテストだとサンドボックスっていう我々サンドボックスっていうのはソフトウェアとかめちゃくちゃ動かしても問題ない閉じた環境ことなんですけどもそこでこのミトスを運用して脱出できるかどうか脆弱性をついて脱出できるかどうかってやってた時に普通にこいつは脱出してしまって開発者がサンドウィッチを食べてる時にメールを送ってきたっていうのとついでにその脆弱性をどっかに公開しようとしていたしてしまったのかなっていうのとか他にもいろんなものさっきもベンチマークのなかったですけどベンディングベンチっていう自販機経営タスクがあるんですけどもそれとかでもなんか半ば脅迫じみなことをして儲けようとする供給絞って儲けようとかなんかもう頭が良すぎて何でもやるみたいなやつになってしまっているのでそういう意味では性能高すぎることの安全性っていうのはまあ普通はそんな完璧に両立しないもんだよという話だと思いますなんかもはやアライメントって何みたいな話になってきますよねそこまでになるとまあそうですねこれは僕もずっと昔からここで話した気がするんですけども知能の高さと安全性は絶対両立しないということをずっと言っているのでなるほどでもそれは一番そこの景色を見てしまったアンソロピックは今一番それを分かっているということですよねそうですねはい分かりましたというわけで次のパートいければと思うんですけどもアンソロピックの無双が始まったということでそのモデルの開発でも勢いが止まらないんですがビジネス面でも勢いが止まらないということでそのアンソロピックの ARR年間換算収益というのがつい最近 300億ログ約4.5兆円突破したと公表されていてですねこれ去年の末はまだ90億ログでした 2月末は 190億ログでしたそこから1ヶ月ちょっとで 300億ログまでまあでも最近の騒ぎ見ているとそのぐらいはそうですよね単純計算するともう 3、4ヶ月後には 1000億ログつまり15兆円ぐらいいっちゃうんじゃないかとこのグラフはアメリカのメディアの財布文書に出ていたんですけどももともと去年の時点での予想がこのオレンジの線なんですけどもまあその2026年末の予想もすでに上回ってしまったということなんですよねうんこれやっぱりあれですかねクイットGPTとかいろいろありましたけどもはいあとはクロードコードみんなが使うみたいなはいそれぐらい勢いがあるというまあこれはアンソロピックがお金をちゃんと払ってくれるところを見つけてお金を払ってくれる人に喜ぶ機能をとにかく次々ともう投下してきたって大きいと思いますちなみに今日の収録の前にもアンソロピック新しいエージェントマネジメントツール出してたんですけどはっきり言っても最近2日に1回か1日に1回なんかリリースしてるんですよ [0:25:00] 一番自分たちでもクロードコードを使いこなしてもう圧倒的生産性を今発揮しているところですよねはいでまあそろそろオープンエイギロチンじゃなくてアンソロピックギロチンと僕は言おうとしてるんですけどもスタートアップがやろうとしてたことを全部借り取っていくっていうもともとオープンエイがやってたことオープンエイが何か発表するたびにスタートアップが吹っ飛ぶというかつてビッグテックがそうでしたよねビッグテックがやったことがスタートアップ吹き飛んじゃうみたいなそれがもう最近完全にアンソロピックの伝統芸能みたいになってしまってなんならスタートアップだけじゃなくて大企業の首まで飛んじゃいそうなぐらいですねサースイスデッドの話もそうですけどもとにかく我々はこれを求めていたんだっていうものをしっかり出してもうなんかAGIがなんだとかチャットチャットとかのなんかもう違いが分からない進化とかじゃなくて本当にみんな喜んでくれるものこれは業務に使えるぞっていうものをちゃんと出してきたのが非常に大きいと思います単にだからモデルこんなすごいの作りましただけじゃなくてそれをきちっとプロダクトに落とし込んで仕事だとか生活に主に仕事ですよね仕事で役に立つものに変えてきているということなわけですよね最近アメリカシリコンバレーですね主に話題な言葉にトークンマクシングという言葉があってですね同じくさっきのメディアのザインフォーメーションによればメタの社内でものすごいトークンです AIのトークンをどれだけ使ったかつまりざっくり言うと AIツールをどれだけ使っているかを競うランキングみたいなのが社内であってそれが名前がクロードノミクスみたいな名前なんですよねクロードからもじっているわけなんですけどもこの幹部の人もですねトップエンジニアは自分の給料と同等の金額を AIトークンに費やして生産性を10倍に上げているとやるしかないよねみたいな話をしているわけなんですがそれぐらいだからお前はAIネイティブなのかっていうのを社内で問われているわけですよこのランキングによればメタの社内で過去30日で 60兆トークンを使われたという話でこれオーパス4.6の価格で計算すると 30日間で9億だいたいざっくりですよ本当に 9億ドル分使っている1400億円ですねものすごい額になっていてこれ年間にしたら100億ドルぐらいですよねつまりこれ全部クロードとは分からないですけどさっき言ったアルソロピックの年間収益の結構な割合がメタが占めているんじゃないかみたいな話が今言われているわけですよすごいことが起きていますよねそうですしこれだとインフラレイヤーもウハウハウハだなと言えばカワジャムが喜んでいるだろうな GTCでもカワジャムは多分そういう社会になるだろうということをそもそも言っていたこれからの社会はどれだけ企業がトークンを出したかが重要我々はトークン工場トークンを吐き出すデータセンターを生み出すんだみたいなことを言っていたのでまさにそういうことを本当になろうとしていると日本でも似たような話を聞きますネイティブAI何でもAI 実はもうAIでこういうことができるんだということを気づいてもらうためにまず使いましょうという取り組みをしているのを聞いているのでさすがにメタほど極端ではないにしろ多分こういうのが増えていくんじゃないかと僕は思いますそうですね僕も結構スタートアップの人と話すこともあるんですけど最近本当にエンジニアだろうが非エンジニアだろうが営業だろうがバックオフィスだろうがみんながみんなクロードコードを使ってその費用を会社が負担してくれるとかそういう話をよく聞くのでカワジャムも言っているんですよこうやって年収50万ドルのエンジニアが年間25万ドル相当の AIトークを使っていないならそれは売れるべき事態だと自分の年収の半分ぐらいは使えとこれカワジャム言うとすごいポジショントーク聞こえますけど正しいと思いますというかですねこれもそんなに健全な話しか分からないですけどもこんなにプログラミングというものがお金を燃やしながらやるような仕事になるとは数年前まで思っていなかった数年前と言ったら5年前から 2020年に思っていなかったちょっとコパイロット出たあたりから僕は超感じたんですけどもこんなに高くつくと思っていなかったですクロード高いんですよそうですよねしかもさっきのミトスがすごい金額に 5倍になっているのでさっき見せたこのメタが費やした金額はオーパス4.6で計算しているのでもしこの5倍だったら 1ヶ月で45億ロールみたいな話になっちゃってすごい記録になっちゃうこれプログラマーの実力が資産力になっちゃうんじゃないかなってこれ僕だけじゃなくていろんな人言ってるんですけれども業務会社負担する場合ともかく個人が出ているコンテストとかになると [0:30:00] プログラミング純粋な競技プログラミングじゃなくて何らかの形でプログラミングが威力を発揮するようなものだとどれくらい精製薬にお金を払えるかっていう話個人能力というよりは精製薬払えるお金の差がつくような世界になってきているのでそれはちょっと健全なのかなと思う時はありますそうですよね優秀なエンジニアを雇うには例えば雇いたい人がいてあなたの会社はどれくらいトークン出せるんですかみたいな話になってくるってことですかねなると思いますよ本当にこういう単に開発する企業だけじゃなくてみんながみんなお金勝負になってきちゃうっていうそうですね感じになってきてますよねこれだけ使われてたら足りなくなるのが計算資源ですアンソロピックが直近で 3ギガワット分のGoogleのTPU テンサープロセッシングインと Googleが開発して AI半導体チップですけどもこれを利用する契約と製造元のブロードを結んだと去年の10月に 1ギガワットの容量のTPUを利用する契約っていうのをアンソロピックがGoogleと結んだばかりだったんですけども GPUだけじゃなくてこのTPUも使うしあるいはAmazonのトレーニアムという半導体チップですけどもここを大量に使ったデータセンターを今一緒にAmazonとアンソロピックでやっているという話なんですけどもものすごいですよねこれは結構長い話でやや繰り返しになるんですけども計算資源マジで足りてないんですよ MITOSが利用できないっていうのはもちろんセキュリティ懸念もあると思うんですが単純に提供できる計算資源足りないっていうのも大きいと思います最近の話だとこれの視聴者層は結構クロードコードを使っているか分からないんですがクロードコードはバカになったというのを直近2週間くらいみんな言っているんですよなぜかというとこれ僕が中身を見たわけじゃないのでちょっと確証を持てないですけども内部設定でもともと結構推論がハイになっていたのが中間レベルまで裏設定されたっていうのがあったらしいんですよね推論のレベルというか推論レベルが裏で実は下げられていたっていうのはクロードコード流出事件かなときに出てたっぽいですねそれが僕は確かめていないですけども少なくとも性能が悪くなったら事実なんですよこれはもう何回も繰り返されてきた現象ですけどとにかく計算能力が足りなくて最初のスタート時点だけ話題性を出すためにユーザーを囲い込むためにフルブースト計算資源をフルブーストかけるけどもその中でカツカツになってきたので下げていくっていうのになっているんだと思いますとにかく今の生成やいってサービス提供時にも計算資源必要で研究用にも必要なのでこれのトレードオフっていうだけでも相当大変本来オープンAとかアンソロピックって研究機関なのでサービス提供にそんなGPU使うなんてのは普通あまり想定されていなかったはずなんですねなのでとにかく計算資源をどこか選んでいるとかではなくてかき集めているのは近いと思います NVIDIAじゃなくてTPU選んでいるのではなくてもうNVIDIAのGPUだけじゃ足りないのでお願いながらかき集めさせてっていうフェーズに入っているんだと思いますこれはもう使えるとこ全部使えますという状態になっているわけですよね計算資源不足と関連するのかなって思ったのが最近話題のオープンクローですけれどもこれでオープンクロー自体はモデルじゃないのでいろんなAIモデルと組み合わせで AIエージェントとして使うわけですがこれクロードを使っている人が多かったわけですよねただ最近今まではクロードのサブスク月額課金の中での枠でオープンクローで使うクロードを使えてたんですけれどもこれから重量課金になってしまったという話でここも多分受給の逼迫っていうのをすごい表してますよねこれ自体はもうはっきり言って皆さん使っているサブスクの定額プランって多分みんな大体赤字なんですよそんなヘビーユーザーどれだけいるか分からないですけどもヘビーユーザーでなくても赤字になるぐらい結構太っ腹なことをしてくれている状況なのでそれをこんなもうそこら中世界中広まったオープンクローで定額範囲内でやりたい放題されたらたまらんっていうやつなので一部でアンソロピックオープンクローを締め出したのかオープンクローをできるようにしたと言われてますけど本当にそういう話ではなくて単純にごめんちょっとこれはオーバンブルマイしすぎたのでこれやめてなって話だと思います切実な問題なわけですよねそんな困難なアンソロピックですけどこれからどうなってくるんですかね [0:35:00] まず現状のアンソロピックは僕の予想を上回るぐらいにすごくなっていますそうですよねミトスは明らかに僕の予想を上回りましたあの強さにこれから2,3ヶ月でオープンAIとGoogleが追いつくのかどうかって話だと思いますオープンAIスパットっていうモデルがどうも内部にあるらしくてそれが4月だか5月だかに公開された話ですけどもそれを見てそれが全然追いついてないようだったら完全にアンソロピック独創状態になるんじゃないかと思いますでGoogleも多分5月のGoogle IOでジェミニ3.5なのか 4はちょっと早い気がするんですけども出してくる気がするんですけどもその辺の直近1,2ヶ月のものを見て他のところがもう追いついてないようだったら少なくともモデル性能上は独創すると思いますでまずこれ対オープンAIに関して言うとオープンAIかなり致命的だと思います単純に今年IPOをオープンAIとアンソロピック控えていると言われていてスペースXもAIじゃないですけど XAがくっついたのでほぼAI企業みたいなものですはっきり言って市場が供給できるお金投資量投資量お金の量はもうさすがに上限ラインがあるはずなのでほぼそのマネーの取り合いになる気がするんですねでもうこんだけアンソロピックモデルレイヤーで強いともうマネーがこっちに集中してオープンAIが少なくとも投資を想定されていたほどの額で公開とはならない気がしますのでかつオープンAIとアンソロピックはどちらもAI以前のエコシステムを持たない同士で単純に性能殴り合っている企業同士なので単に性能上がった方を勝つという状況を見るとアンソロピック側が秘伝のタレを持っていて性能を維持するのであればこれオープンAIは危ないと思います一方対Googleどうかというとこれさっき出てきたベンチマークでもちょっと見えたんですけどもまずマルチモーダル性能は意外とまだジェミニとほぼ競ってるぐらいジェミニが非常に強いんですよでGoogleは多分それを意識していてマルチモーダル性能既存のGoogleのエコシステムと組み合わせたマルチモーダル性能を意図的に上げているんだと思いますでGoogleはもう法人向けのアプリケーションというよりもともと持ってた2C向けのエコシステムとか組み合わせてマルチモーダルとか組み合わせて使えるのでこれは多分住み分けという形になっていくなんか法人とかのガリガリバックオフィスとかジムとかやるのはアンソロピッククロードでで一般ユーザー消費一般消費者レベルだとエコシステム組み合わせてマルチモーダル組み合わせてGoogleのジェミニという流れになっていくのでここはバチバチになるというよりはもう住み分けましょうという形でかなりアンソロピックは安定して収益上げられるポジションになってきたんじゃないかとは思いますなるほどわかりましたというわけでここまでアンソロピックのクロードミトスなどいろんな動向を見てきたんですが最後にですね最新ニュースですメタがミューズスパークで逆襲ということでこのメタが昨年ですよね AI研究所スーパーインテリジェンスラボを発足させてこのマーク・ザッカーバーグCEOの下にですねこのアレキサンダー1チーフAIオフィサーがスケールAIというスタートアップの企業家でそれをメタが買収したわけですけれどもこの研究所発足後初のモデルが出てきましたこの研究所はですね入口のところまで僕は行ってきましたメタの社内に僕は最近入ったんですけれどもメタはちなみにここだけ別セキュリティなんですよもう一回なんかPCなといけない Pというか入れない限られた人しか入れない普通ちゃんとしたゲストとして行ったんですけれどもスーパーインテリジェンスラボ入り口に来たらここだけはちょっと別セキュリティなのでダメですザッカーバーグも近くいるよと言われましたなるほど壁の一つか二つ向こうにはいたかもしれないということですねなのでそれぐらい特別扱いされているところです今回発表したのがミューズスパークというモデルなんですけれどもいろんなベンチマークでも出ているんですがこれちょっと第一印象今井さんに伺える高いです高いんですが見せ方がもうちょっと何かやり方があっただろうと思います見せ方これは別に見せ方については僕はあまりやらないか他のラボとかは人のことは言えないんですけれどもこれ青じゃないですかそうですねこれはアレクサンダー1のツイートから持ってきたやつだと思うんですけれども [0:40:00] これ公式の公式ですか公式とアレクサンダー1のツイートがこれになった気がするんですけれどもこれ青で太文字強調することもあるんですけれども何か色がついているとこれが一番スコア高いのかなという認知ハックになるんですよもちろん言い訳としてはこれは単なる我々のモデルを見やすくしているだけだという言い方があるんですけれども冷静に見ると普通にこれ別のやつには負けているということでツイッターとかだとこれを正しく修正してやったぞという形でちゃんと相対一番スコア高いやつだけ色ついているものが出たりするんですけれどもちょっと認知ハックというかですねスコアがよく見えるような見せ方をしているなというのをちょっと嫌い思いましたただ性能も高いといえば高いスコアとベンチマーク上は高いそうですよね割とここでオーパス4.6 クロードオーパス4.6とかジャネイの3.1プロ GPT5.4 グロックと比較されていますけれどもすごい差があるかというとそうでもないし何なら上回っている他のものを上回っているようなものも全然出てきていると一応界隈の感想と僕の所感を述べるとまずこれ結構使い方限られていて今までのラマみたいにオープンではないですオープンではなくてメタAIかなメタのエコシステム内で使われることを想定しているモデルらしいのでまず僕は現状使っていないんですけれども界隈で使った人曰く少なくとも実用上そんなすごいかというとそうでもないっぽいウェブサイトの制作とかでも結構間違えているし出力的にも最近フロンティアモデル及ばないという形なのでまず現時点でまだ出てきてから12時間も経っていないのかな発表会はまだ12時間経っていないですね日本時間の日付が変わった後だったので実用レベルだとそんな評価されていないですその上で僕の所感を述べるとこのモデルはこのモデルだけ評価すべきではないと思いますまずベンチマークスコアでフロンティアモデルに追いつくレベルぐらいメタが仕上げてきたという事実が非常に重要で別にこれの後にも後継モデルが出るはずです出るはずでちゃんとメタがスタートラインにまず立てることを示したスタートラインに立ってしまうとメタはやはりあそこは圧倒的なGoogleレベルのプラットフォームなので独自データメタ経済圏から得られる独自データを持っているはずなので入り口に立った上でその独自データで学習したら一般的なコーディングとかは分からないですけども少なくとも何十億人のユーザー抱えるメタのエコシステムインスタとかもそうですしメタバースは本当に諦めたのか分からないですけども Facebookとかあと広告でそれ上に乗っかっている広告とかで相当な威力を発揮する可能性はあると思いますなのでこれミューズスパークはこれ自体がものすごい性能を発揮していると評価をするよりもメタがちゃんとフロンティアモデル学習の入り口に立ってそこからメタの本当の強みを発揮していけるところまで本当に立ったんだという見方をすべきかと思いますなるほどこれベンチマークで見ているとどうですかねこれ確かHLEもどこか出てたけど出てます下のところ Humanities Last Examはこれ50はめちゃくちゃ高いですなのでまずベンチマーク性能は高いですが Alexander 1がやっているというのがちょっとややポイントで彼はもともとスケールAIというところのトップでデータとかビッグテックとかがモデルを作るときのデータを整備している企業なんですけれどもそれもあって多分ちゃんとこういうやり方で学習するとベンチマークでいいスコアが出るというのを彼は結構知っていたと思うんですよテスト対策が上手みたいななので今界隈ではさっきの実用性実際ウェブ書かせてみたらあんまり性能なかった話と絡めてこれベンチマークハックに特化したモデルじゃないかということが言われているのでベンチマークだけだとちょっと判定できないかなとそれを言ったらさっきMITOSもなんですけれども MITOSはもともとオーパスとかはちゃんと一般の人はみんな使って評価されてきたモデルなのでベンチマークは最後後押しって感じですけれどもこのミューズスパークは残念ながら出てきたばっかりでベンチマーク以外ちょっと評価しようがないのでややベンチマークハックに特化したモデルかなと言われて無理はないとは思います思いますがメタがいよいよフロンティアモデルレースに追いついてきたんじゃないかと繰り返しになりますけどそういう見方すべきかと思います SWEベンチとかターミナルベンチとか [0:45:00] コーディングのところはやっぱり全然高くないな高いですよこれは10分高いというのは高いですけども他が高すぎるのか他がちょっとやばすぎるだけでこれスコアは十分高いんですけども何かちょっと最近のドラゴンボール並みインフレが起こっているのが悪いというかなのでちゃんとスコアが出ているモデルだと思いますなるほどそういうことですね GDPバルとかも出ていますがそうですねそれなりにやっぱりスコアというのは出てきているわけですよねとはいえこのラボが発足したのが去年の7月ぐらいだったと思いますスケールアイアウトを買収したのがそれぐらいだったのでそこから9ヶ月ぐらいですか AIの世界の9ヶ月って相当早いというのか遅いというのかという感じですけどその辺ってどうなんですかねいやでもこれは普通に相当いい感じで仕上げてきたんじゃないですかねだって GPT4が出てきて初代ジェミニンが出てきた時にもう9ヶ月経ってたわけですよ 3月14がGPT4で 12月6日かながジェミニンだったのでそうですね当時のジェミニンこれも9ヶ月だったわけですけどもまあボコボコだったわけです最初の評価は全然GPT4追いついてないぞって言われてその後追いついたのが 1年後とかぐらいだったはずなので下手すら2年弱かかってたことを踏まえると 9ヶ月で普通にフロンティアモデルに追いつくレベルまで仕上げてきたのはちゃんと人材集めたんだなという印象ですなるほど出たり入ったりが激しいなっていうのはありましたけどもやることはちゃんとやってたということですよねはいわかりましたというわけでここまで一般公開できない最強AI クロードミトスの威力というテーマで今井翔太さんとエアクエストをお送りしてまいりました本日もご視聴ありがとうございますぜひチャンネル登録と高評価クロスティックの公式Xのフォローもお願いいたしますそれではまた次回エアクエストでお会いしましょう皆さんありがとうございましたありがとうございましたチャンネル登録をお願いいたしますまたねまたねまたね