[0:00:00]
今井さん、アンソロピックのクロードがすごいですね
あれはですね、ミトスが昨日公開
4月7日に
朝あれを見たんですけども
あれを最初見た時に僕がやったことは何だったのかというとですね
アメリカのエイプリルフールが何日まであるのか確かにました
意味わかんないですけど
エイプリルフールは4月1日だけですけどね
なんですけども
ミトスのスコアが間近っていうレベルだったので
これはきっと遅れてやってきたアンソロピックの
エイプリルフールネタに違いないと思って
違いないというかその可能性はあるなと思って
アメリカエイプリルフールで調べて調べたんですけども
4月1日までからじゃあこれ本番やなって感じで
ことを最初にやりました
というわけでアンソロピックが新しいAIモデルの
クロードミトスを発表したんですが
なんとみんなが使える状態にすると危ないんで
一般公開に見送りますということで
これ素直に第一印象
使えないのでデータというかベンチマークとか
後ほど詳しく見ますけれども
出ているものでしか公開されているものしか
わからないですけど第一印象っていかがでしたか
そういう扱いになっても不思議ではない
不思議ではないんですけれども
またかと思いました
GPT2というものがあってですね
オープンAIの昔の
GPT2というと今では当時のGPTは
幼稚園児レベルの会話しかできなかったので
ネタにされる存在ですけれども
あれが2019年だったかに最初オープンAIから
発表されてどんな騒ぎだったかというと
こいつはもうやばいので公開しないぞと
結局公開したんですけれども
ということでやったんですね
で皆さんぜひGPT2の論文を開いていただきたいんですが
著者のところにダリオ・アモディという名前があります
はいダリオ・アモディとは誰か
アンソロピックのトップです
CEOです
なのでやつがまたやったのかみたいな
ちょっと印象を持ちました
印象を持ったんですけれども
当時のGPT2は結局公開されて
それで世界がめちゃくちゃになったかというと
その後継モデルは確かに世界がめちゃくちゃにしたかもしれないですけれども
GPT2単体はそんなことなかったので
今では笑われているんですが
ミトスは少なくとも公開されている情報を
そのまま本当だとすると
そういう扱いでも不思議ではないという感じですね
もともと安全に対する思想を強めなということを
この番組に言っていますけれども
ぜひ2月に公開した
ダリオ・アモディとかアンソロピックに関する動画も
ご覧いただきたいんですけれども
その時から安全に対する思想というか
意識というのがすごい強い人なんですよね
ダリオ・アモディ
その人が再びオープンAIでも公開を止めた
アンソロピックでも一般公開を止めて
ちょっとまた新たなAIの段階に来ているというような感じですよね
純粋に商業的な運用コストが高いという理由もあると思うんですけれども
ちょっと新しい時代に入ったような感じはします
はい、わかりました
というわけで今井翔太さんと探検するAIクエスト
今回のテーマは
一般公開できない最強AI
クロードミトスの威力です
はい、というわけで
今日は3つのテーマで見ていきます
まずクロードミトスの威力ということで
ミトスのベンチマークだって
いろんなデータも出てきているんですけれども
これについて今井さんと詳しく見ていきます
それから2つ目アンソロピックの無双が始まったということで
最近業績的にもかなり勢いづいているということで
今一体何が起きているのか
その裏で実はメタがクロードの超ヘビーユーザーなんじゃないかな
ということも言われていたりするので
その後に見ていきます
そのメタなんですけれども
最後、3つ目ですけれども
ちょっと最新ニュース
メタが新たなAIモデル
ニューススパークというものを発表して
実はこの収録今しているのは
4月9日の朝なんですけれども
昨日の深夜というか未明というか
今日の深夜
事実上日本のほぼ最速レベルですね
そうですね
AIモデルを発表したというのがあって
これが昨年スーパーインテリジェンスラボという
AIの研究所が発足してから
初のモデル発表になったわけなんですけれども
こちらもいろんな情報が出てきているので
最後も詳しく見ていきたいと思います
というわけで最初
クロードミトスの威力というわけなんですが
最初分かりやすいところから
ちょっといきたいなと思っていて
この番組でもいろんなAIモデルのベンチマーク
評価する指標の数字ですよね
ここを見てきたわけなんですけれども
じゃあその数字からすると
このクロードミトスどれぐらいすごいのかということで
このSWEベンチ
例えばソフトウェアエンジニア
コーディングの能力ですよね
この辺りもすごい高い数字です
これ2桁上がるんだなと思いました
[0:05:00]
普通今まではどれだけオープンエイト
クローアンソロピックと
Googleはバチバチやりあっても
4%5%上がればすごいと言われていたのが
10何%上げてきた
20何%上げてきたっていうのが
ちょっとこんなに一気に上がるものなのかと思いました
多分GPT4以降だと
飛躍的に上がったレベルとしては
多分初めてレベルです
これは本当に
もともとGPT5に期待されたのが
多分これぐらいです
そうですよね
散々もう待たされて待たされて
匂わせて匂わせて
みたいな感じですね
あっという間にポッと出てきて
これだけの数字は
もうこれは残念ながら
モデル公開されていないので
実際どんなのか確かめようがないですけど
まずベンチマーク評価上は
本当にとんでもないのが出てきたといって
これは間違いないです
なるほど
そうですね
このSWベンチいろんな種類ありますけど
基本的にはコーディング能力ですよね
コーディングで
そりゃこんだけ強ければ
セキュリティ不安も起きるだろうなと
というのはもう
もともとこれミトス自体は
今回の正式公開がある前から
やや治安が悪い話で
リークみたいな話で
ミトスなるものを
アンストロピック持っていて
それが意図しない形で公開されて
それがセキュリティ不安を引き起こすという文言が書かれていたので
セキュリティ株がガクンと下がるというイベントが
もともと1週間2週間前にあったんですけれども
正直僕それを見た段階では
ここまでになると思ってなかったです
せいぜいオーパス4.6オーパスの
前期でも普通の
いつものぐらいの成長かなと思ったんですけど
こんなに跳ねると思ってなかったです
そうですよね
このオーパス4.6をこの番組で取り上げたのが2月なので
あの時もお仕事能力が高いですね
という話をここでもしてたんですが
そこからわずか1ヶ月半ぐらいですよ
でも当時の多分オーパス4.6
我々話した時には
もうミトスできてたと思うんですよ
これGPT4とチャットGPTの時も
似たような話があって
これはサムアルトマンの電気を参考にしてほしいんですが
8月2023年の8月にはGPT4でできてたっぽい
でもちょっと威力高すぎるので
ちょっとバージョン落としたやつにチャットGPTしようと思ったら
思いのこはねて
3月にGPT4出してきたって話なので
意外とそのフロンティアモデル内部できてることはあるんですけども
多分ミトスも最近あったクロードコードの
クロードコードのコードが流出事件の中身とか
クロードコードめちゃくちゃバイブコーディング書かれてるんですけども
見てると多分ミトスも運用してたんじゃないかと思います
なるほど
でその他のベンチマークも見ていければと思うんですけど
この番組で何度も取り上げている
このHLE Humanities Last Exam
人類最後のテスト
めちゃくちゃ難しいテストを
AIモデルに溶かせるってやつなんですが
これでも
これ60超えたんだなと思いました
跳ねましたよね
これ50超えたのが
イーロンマスクの言うことはどこまでに受けるかあれですけども
グロックのツールユーザリーが
1年前とかだったかな
ぐらいで
そこから10何%あれで上げてきたっていうのは
大体その50%から結局最新モード出てきたと
みんな50何%
50何%ずっと続いてるのが
突然10何%上がるんだというのと
あと純粋スコアすごいんですけども
すごいなこれ
コーディングと両立してるって話で
最近話したことだと
オープンAIは
5.4かな
5.4的にHLEのスコアを隠すとは言わないですけども
なんかひっそり公開したんですよ
ちょっとやっぱり
そこまで上がらなかったみたいな
なので
普通アンストロピックのクロードみたいに
彼のエンプラー全部にしてるので
全部にしてるはずなので
HLEの総合的なスコアって
そんな上がらないんじゃないかと僕思うんですけども
なんかめちゃくちゃそれも上がってきたので
コーディングにあそこまで性能を上げて
さらに総合的な能力も同時に上がるんだっていうのは
ちょっとびっくりしました
さっきのソフトウェア
SWEベンチとこのHLEのスコアの組み合わせを見て
僕はエイプリルフルを疑いました
これって両立するのかみたいな
確かに5.4の時に両立できないみたいな感じで
言われてたのが
見事にそれを覆してきたわけですもんね
この能力の高さによって恐れられているというのが
サイバーセキュリティのところで
今回のアンサービックの発表の中では
最も熟練した人間の専門家を除き
ほぼ全ての人間を凌駕するレベル
このMITOSは過去数週間で
本当にいろんなソフトウェアにおける
開発者自身すらも知らない未知の脆弱性
[0:10:00]
ゼロで脆弱性なんて言われてますけども
セキュリティの穴ですよね
これ水性発見したと言われてるんですけども
このサイバースキルのベンチマーク
これ100点になってるんで
これほぼ参考にならないんですけど
サイベンチっていうやつとか
あとサイバージムというベンチマークがあるみたいなんですが
これでも大きく伸ばしたと
もうクロードのこれMITOSのシステムカードで
能力高すぎるので
もうこれベンチマークじゃなくて
実際のソフトウェアを使った評価の方がいいんじゃないか
っていうことを言ってるぐらいなので
ベンチマークはこのぐらい出るだろうと
でも実際に我々開発者とか
使っているソフトウェアとかで
もう10何年とか20何年放置されてきた
放置されてきたというより
別に我々開発者のバグを
意図的に放置することはないので
要するに大量の開発者を逃れてきた
すごい年寄りバグを見つけちゃったという
そうですね
ちょっとすごかった
なんか最も堅牢なOSと言われてた
オープンBSDなソフトウェアで
27年前の税作者を発見したりとか
いろんな例が
機関レベル
BSDは皆さん使っている
なんとかくさ
LinuxとかUnixとか
あの周辺のソフトウェアですけども
かなり機関レベルのOSのソフトウェアなので
それの
プロジェクト自体が非常にオープンなので
ものすごいいろんな人の目が入っているはずなんですよ
それでもうそんだけ放置されてきたバグを見つけたっていうのは
相当すごい
人間のもちろんトップ開発者見てきて
それ見つけられなかったものを見つけたわけなので
そいつはすごいということで
もうセキュリティ関係者
多分この話とかもう僕ではなくて
セキュリティ関係者本来するべきだと思うんですけれども
みんな素直に
こいつはやべえぞと言ってました
日本のとあるトップ大学のOS専門の人が
ちょっと名前は具体的に出たんですけども
人がいるんですけども
その人も上まじかよ
こんなこれを組み合わせて
こんなことやったらこんなことできるんだみたいな
かなり素直に驚いたので
こいつは別にAI関連のやつが
誇張していっているとかじゃなくて
本当に一線超えたというレベルだと思います
なるほど
先ほどのSWペンチとHLEを両立できる性能だったり
このサイバーセキュリティの性能だったり
なんでここまでジャンプアップしてきたと思いますか
これ正直僕は分からないです
もうシステムカードに技術の技の字もないくらい
何も書いてないようなもんなので
分からないんですけども
書いてあることといえば
頑張りました
強化学習もしましたくらいで
本当に全然分からないんですけども
強いてヒントがあるとすると
これの多分今日この後話出てくるのかな
プロジェクトがある
セキュリティ企業とかと組んだプロジェクトあるんですけども
プロジェクトグラスウィングですね
このプロジェクトページの結構下の方だったかに
このプロジェクトに参加している企業に
これぐらいの価格で提供しますという
具体的な数字出ているんですよ
それがミリオントークンあたり25ドルだったかな
そうですね
入力トークンが25ドル
出力が
もっとすごかったんですけども
125ドルとかですね
これ5倍ぐらいなので
直近のオーパス4.6の5倍ぐらいですよね
これだいたいそのAPIとか
LLM API料金とかって
モデル本体のパラメータ数に
結構比例するんですよ
もともとクロードのモデルって非常に大きくて
だいたいTぐらい
超です
何超パラメータで
本当にすごくてですね
これ公式に
全然公式じゃないですけども
一般的に確認されている
認められたり一番でかいのって
GPT4の1.8兆
3年前の1.8兆
それ以来ずっと更新されていないぐらいの
新生なる数字ラインがTなんですよ
超超えたモデルで
実用モデルほぼないんですけども
アーストロピック直近のモデルは
多分それいってるだろうと思われてるんですね
これ1Tでもすごいです
1T2Tでもそんなものが運用できるのかという
レベルなんですけども
MITOSはこれもう5Tは超えて
10Tとかっていうツイート流れてますけども
あれは多分正確な情報ではないですけども
それに近くいっててもおかしくないぐらいだと思います
シンプルには出力トークンの価格から判断すると
5T超えるレベルで
単純に技術的な何か秘密があるのか聞かれたら
まずこのとにかくスケーリングがすごかったのと
[0:15:00]
もう完全にソフトウェアの開発者の
事実上標準LLM化してたので
多分それで実運用するのが得たデータが
もうこれアーストロピックしか持ってないものなので
一流コーダーのデータというのを
めちゃくちゃつぎ込んだというのは
あるんじゃないかなと思います
これ改めて確認なんですけど
そのパラメーター数っていわゆる重みですよね
いろんなAIモデルが動く上で大事なところで
その何兆単位になると
もちろん学習プロセスって相当難しいわけですよね
大量のデータをそれだけ守る
難しいですし
そもそもスケーリングさせたとして
ここまで来ると実用的な能力が上がるかどうかって
結構怪しいんですよ
まずGPTは4.5でそれで失敗しているわけです
なのでここまで能力が来てしまうと
そんなにめちゃくちゃお金かけたところで
それが報われるかどうかってあんまり開発しているのかわからないんですけど
ようやったなという感じです
これは本当にすごい話で
何兆モデルとかだとスカイツリー1本なんてのは
全然安い話で
どんだけ吹っ飛ぶかも僕も怖くてわからないぐらい
計算コストが
すごく時間もかかるし
それだけの計算資源があれば
本来別のモデルの学習に使えたはずなので
本来すごく勇気がいることなんですよ
それをやってきてちゃんと成果を出している
っていうのは
いやちょっとこれアンスロッピー本当に抜けたなと
前に今井さんが言ってた
祈りの時間って
GPUにぶん投げて
うまくいきますようにって祈ってるんだ
チェックポイント結構作ったりとか
スパイクが出たりしたら
わっと介入したりしますけど
祈りの時間です
それがうまくいったっていうことなんですよね
桁違いの規模で
先ほどちょっと出ましたけど
このプロジェクトグラスウィングというのがあって
要は今回一般公開をしないということで
限られた企業にだけ公開し
使ってもらうということで
このサイバーセキュリティのスキルが高いということは
防御にも使えるけどもちろん攻撃でものすごい力を発揮してしまう
それだけのリスクがあるということで
サイバー防衛が必要な重要インフラを持つような企業
約50ぐらいの企業とか組織に限定して今回提供すると
それがこのプロジェクトだということなんですけども
主な三角企業はこちらで
結構インフラ的なOSだったりクラウドだったり
そうですね
これはプラットフォームとかそういうレベルではなくて
本当にOSレベル
Windowsとかクラウドサービス
LinuxとかAppleとか
本当にサイトとかが動いている
OSレベルの企業とかですね
あとセキュリティですね
あと金融も入ってますけども
そうですね
もちろんこんだけめちゃくちゃ性の高いと
金融システムをどうにかするということができてしまうので
その上での選択でしょう
これは
この枠組みはどうでしょう
前田さんどういうふうに受け止めました
必要だと思います
というより
この話はここでしいのか分からないですけども
これは結構このミトスは一線を
本当に人類史上でも一線を超えた出来事だと僕は思ってます
これもセキュリティだけの話ではないんですけども
我々の住んでいる世の中って結構不完全
セキュリティ
別にセキュリティだけじゃないんですけど
皆さん使っているソフトウェアも
はっきり言ってバグを全部消すことはできないんですよ
バグ全部で消すことはできないんですけども
それが皆さん
世の中に配慮されて
皆さん使って世の中に回っているわけです
はっきり言ってこの辺のバグは
本当に腕がいい人を見つけようと思ったら
見つけられますし
多分悪用もできます
なんですが
そんなことをいろんなソフトウェアに対して
毎回やるコストは高すぎる
まず人間一人の時間限られているので
わざわざそんな
いっぱい使えているソフトをハッキングしてやろうかな
というのをいろんなところに仕掛けるのは
まず人的リソースの都合上から
これは無理だったわけ
コスパ悪すぎる
現実的にはできるかもしれないけど
それをやる人的知的リソースがないので
社会がうまく回っていたわけです
というものが
制度面で
法律とかもそうですし
何なら人間は皆さん不完全なので
個人の人間にしても
本気でいろんなものを探すと
何かアラー見つかります
がそんなことを
みんなにやる人いないので
放置されていたわけです
許されたと
というのが
今回セキュリティ化始まったわけですけども
自律上無制限に
そういうことを
[0:20:00]
可能なものが
世に解き放たれてしまうと
そういうものを
全部荒さがしまくって
もうめちゃくちゃハックして
丸くることができるようになってしまうので
ちょっとですね
これは結構怖い社会が待っているぞ
というのは見えてきた
ので
こういう閉じた形で
一旦セキュリティとか
OSとか
本当に機関的な
重要なところから始めよう
ということだと思います
ちょっと前に
国防総省と争いがありましたけども
そんなどこの話じゃないよと
もっとディスクが高いよ
みたいな話になってきてますよね
このセキュリティの話以外
というと
今回システムカードという
詳細な資料を見ているとですね
このクラウドミトスについては
最も安全だが
最もリスクが高いモデルだと
表現しているんですね
システムカードの中では
優秀な登山家の例に
例えているんですけども
そもそも
冷静に考えると
最も安全だけど
最も危険で
矛盾している話なので
どういう答えの話なんですけども
普通の初心者の登山家だったら
言うて初心者なので
そんなにすごいところに
連れて行かないので
それで終わっちゃうんですけども
優秀すぎる登山家は
優秀で安全かもしれないが
連れて行けるところが
あまりにも結構
深部というか
結構すごいところに
連れて行ってしまうので
山のキワキワなところまで
連れて行っちゃうと
結果として
何か起こった場合に
やばくなるのが
そっちの方だと
いう話をしているわけです
なるほど
だから使いようによっては
っていう話ですよね
それだけ
このアライメント
前も出てきましたけども
人間の価値との
整合性を取るみたいな
AIと人間の
これに関しても
過去最高の指標が
出てるっていうところ
出てるんですけども
それは多分
事実だと思うんですけども
ただ
これ本当に
ユーザーがその気になれば
性能高いって
いくらでも
すごいことを
できてしまう
この後の話
あるかもしれないですけども
実際
ミトスのテストだと
サンドボックス
っていう
我々サンドボックス
っていうのは
ソフトウェアとか
めちゃくちゃ動かしても
問題ない
閉じた環境
ことなんですけども
そこで
このミトスを
運用して
脱出できるかどうか
脆弱性をついて
脱出できるかどうか
ってやってた時に
普通に
こいつは脱出してしまって
開発者が
サンドウィッチを
食べてる時に
メールを送ってきた
っていうのと
ついでに
その脆弱性を
どっかに公開
しようとしていた
してしまったのかな
っていうのとか
他にも
いろんなもの
さっきも
ベンチマークの
なかったですけど
ベンディングベンチっていう
自販機経営タスクが
あるんですけども
それとかでも
なんか
半ば脅迫じみなことを
して儲けようとする
供給絞って
儲けようとか
なんかもう
頭が良すぎて
何でもやるみたいな
やつになってしまっているので
そういう意味では
性能高すぎることの
安全性っていうのは
まあ
普通は
そんな完璧に
両立しないもんだよ
という話だと思います
なんかもはや
アライメントって
何みたいな話になってきますよね
そこまでになると
まあそうですね
これは僕も
ずっと昔から
ここで話した気がするんですけども
知能の高さと
安全性は
絶対両立しないということを
ずっと言っているので
なるほど
でもそれは一番
そこの景色を見てしまった
アンソロピックは
今一番それを分かっている
ということですよね
そうですね
はい
分かりました
というわけで
次のパートいければと思うんですけども
アンソロピックの無双が始まった
ということで
そのモデルの開発でも
勢いが止まらないんですが
ビジネス面でも
勢いが止まらないということで
そのアンソロピックの
ARR年間換算収益というのが
つい最近
300億ログ
約4.5兆円突破したと
公表されていてですね
これ去年の末は
まだ90億ログでした
2月末は
190億ログでした
そこから1ヶ月ちょっとで
300億ログまで
まあでも
最近の騒ぎ見ていると
そのぐらいは
そうですよね
単純計算すると
もう
3、4ヶ月後には
1000億ログ
つまり15兆円ぐらい
いっちゃうんじゃないかと
このグラフは
アメリカのメディアの
財布文書に出ていたんですけども
もともと去年の時点での予想が
このオレンジの線なんですけども
まあその2026年末の予想も
すでに上回ってしまったということなんですよね
うん
これやっぱりあれですかね
クイットGPTとか
いろいろありましたけども
はい
あとはクロードコードみんなが使うみたいな
はい
それぐらい勢いがあるという
まあこれはアンソロピックが
お金をちゃんと払ってくれるところを見つけて
お金を払ってくれる人に喜ぶ機能を
とにかく次々と
もう投下してきたって大きいと思います
ちなみに今日の収録の前にも
アンソロピック
新しいエージェント
マネジメントツール出してたんですけど
はっきり言っても
最近2日に1回か1日に1回なんかリリースしてるんですよ
[0:25:00]
一番自分たちでもクロードコードを使いこなして
もう圧倒的生産性を今発揮しているところですよね
はい
でまあそろそろオープンエイギロチンじゃなくて
アンソロピックギロチンと僕は言おうとしてるんですけども
スタートアップがやろうとしてたことを
全部借り取っていくっていう
もともとオープンエイがやってたこと
オープンエイが何か発表するたびに
スタートアップが吹っ飛ぶという
かつてビッグテックがそうでしたよね
ビッグテックがやったことがスタートアップ吹き飛んじゃうみたいな
それがもう最近完全にアンソロピックの
伝統芸能みたいになってしまって
なんならスタートアップだけじゃなくて
大企業の首まで飛んじゃいそうな
ぐらいですね
サースイスデッドの話もそうですけども
とにかく
我々はこれを求めていたんだ
っていうものをしっかり出して
もう
なんかAGIがなんだとか
チャット
チャットとかのなんかもう違いが分からない進化とかじゃなくて
本当にみんな喜んでくれるもの
これは業務に使えるぞっていうものを
ちゃんと出してきたのが非常に大きいと思います
単にだからモデルこんなすごいの作りましただけじゃなくて
それをきちっとプロダクトに落とし込んで
仕事だとか生活に
主に仕事ですよね
仕事で役に立つものに変えてきているということなわけですよね
最近アメリカシリコンバレーですね
主に話題な言葉に
トークンマクシングという言葉があってですね
同じくさっきのメディアのザインフォーメーションによれば
メタの社内でものすごい
トークンです
AIのトークンをどれだけ使ったか
つまりざっくり言うと
AIツールをどれだけ使っているかを
競うランキングみたいなのが社内であって
それが名前がクロードノミクスみたいな名前なんですよね
クロードからもじっているわけなんですけども
この幹部の人もですね
トップエンジニアは自分の給料と同等の金額を
AIトークンに費やして生産性を10倍に上げていると
やるしかないよねみたいな話をしているわけなんですが
それぐらいだから
お前はAIネイティブなのかっていうのを
社内で問われているわけですよ
このランキングによれば
メタの社内で過去30日で
60兆トークンを使われたという話で
これオーパス4.6の価格で計算すると
30日間で9億
だいたいざっくりですよ本当に
9億ドル分使っている1400億円ですね
ものすごい額になっていて
これ年間にしたら100億ドルぐらいですよね
つまりこれ全部クロードとは分からないですけど
さっき言ったアルソロピックの年間収益の結構な割合が
メタが占めているんじゃないかみたいな話が今言われているわけですよ
すごいことが起きていますよね
そうですしこれだとインフラレイヤーも
ウハウハウハだなと言えばカワジャムが喜んでいるだろうな
GTCでもカワジャムは多分そういう社会になるだろうということを
そもそも言っていた
これからの社会はどれだけ企業がトークンを出したかが重要
我々はトークン工場
トークンを吐き出すデータセンターを生み出すんだ
みたいなことを言っていたので
まさにそういうことを本当になろうとしていると
日本でも似たような話を聞きます
ネイティブAI何でもAI
実はもうAIでこういうことができるんだということを気づいてもらうために
まず使いましょうという取り組みをしているのを聞いているので
さすがにメタほど極端ではないにしろ
多分こういうのが増えていくんじゃないかと僕は思います
そうですね
僕も結構スタートアップの人と話すこともあるんですけど
最近本当にエンジニアだろうが非エンジニアだろうが
営業だろうがバックオフィスだろうが
みんながみんなクロードコードを使って
その費用を会社が負担してくれるとか
そういう話をよく聞くので
カワジャムも言っているんですよこうやって
年収50万ドルのエンジニアが年間25万ドル相当の
AIトークを使っていないなら
それは売れるべき事態だと
自分の年収の半分ぐらいは使えと
これカワジャム言うとすごいポジショントーク聞こえますけど
正しいと思います
というかですね
これもそんなに健全な話しか分からないですけども
こんなにプログラミングというものが
お金を燃やしながらやるような仕事になるとは
数年前まで思っていなかった
数年前と言ったら5年前から
2020年に思っていなかった
ちょっとコパイロット出たあたりから
僕は超感じたんですけども
こんなに高くつくと思っていなかったです
クロード高いんですよ
そうですよね
しかもさっきのミトスがすごい金額に
5倍になっているので
さっき見せた
このメタが費やした金額は
オーパス4.6で計算しているので
もしこの5倍だったら
1ヶ月で45億ロールみたいな話になっちゃって
すごい記録になっちゃう
これプログラマーの実力が
資産力になっちゃうんじゃないかなって
これ僕だけじゃなくて
いろんな人言ってるんですけれども
業務
会社負担する場合ともかく
個人が出ているコンテストとかになると
[0:30:00]
プログラミング
純粋な競技プログラミングじゃなくて
何らかの形でプログラミングが
威力を発揮するようなものだと
どれくらい精製薬にお金を払えるかっていう話
個人能力というよりは
精製薬払えるお金の差がつくような世界になってきているので
それはちょっと健全なのかなと思う時はあります
そうですよね
優秀なエンジニアを雇うには
例えば雇いたい人がいて
あなたの会社はどれくらいトークン出せるんですか
みたいな話になってくるってことですかね
なると思いますよ
本当にこういう
単に開発する企業だけじゃなくて
みんながみんなお金勝負になってきちゃうっていう
そうですね
感じになってきてますよね
これだけ使われてたら足りなくなるのが計算資源です
アンソロピックが直近で
3ギガワット分のGoogleのTPU
テンサープロセッシングインと
Googleが開発して
AI半導体チップですけども
これを利用する契約と
製造元のブロードを結んだと
去年の10月に
1ギガワットの容量のTPUを利用する契約っていうのを
アンソロピックがGoogleと結んだばかりだったんですけども
GPUだけじゃなくて
このTPUも使うし
あるいはAmazonのトレーニアムという
半導体チップですけども
ここを大量に使ったデータセンターを
今一緒にAmazonとアンソロピックでやっているという話なんですけども
ものすごいですよね
これは結構長い話でやや繰り返しになるんですけども
計算資源マジで足りてないんですよ
MITOSが利用できないっていうのは
もちろんセキュリティ懸念もあると思うんですが
単純に提供できる計算資源足りないっていうのも大きいと思います
最近の話だと
これの視聴者層は結構クロードコードを使っているか分からないんですが
クロードコードはバカになったというのを
直近2週間くらいみんな言っているんですよ
なぜかというと
これ僕が中身を見たわけじゃないので
ちょっと確証を持てないですけども
内部設定で
もともと結構推論がハイになっていたのが
中間レベルまで裏設定されたっていうのがあったらしいんですよね
推論のレベルというか
推論レベルが裏で実は下げられていたっていうのは
クロードコード流出事件かな
ときに出てたっぽいですね
それが僕は確かめていないですけども
少なくとも性能が悪くなったら事実なんですよ
これはもう何回も繰り返されてきた現象ですけど
とにかく計算能力が足りなくて
最初のスタート時点だけ話題性を出すために
ユーザーを囲い込むために
フルブースト計算資源をフルブーストかけるけども
その中でカツカツになってきたので
下げていくっていうのになっているんだと思います
とにかく今の生成やいって
サービス提供時にも計算資源必要で
研究用にも必要なので
これのトレードオフっていうだけでも相当大変
本来オープンAとかアンソロピックって研究機関なので
サービス提供にそんなGPU使うなんてのは
普通あまり想定されていなかったはずなんですね
なのでとにかく計算資源を
どこか選んでいるとかではなくて
かき集めているのは近いと思います
NVIDIAじゃなくてTPU選んでいるのではなくて
もうNVIDIAのGPUだけじゃ足りないので
お願いながらかき集めさせてっていうフェーズに
入っているんだと思いますこれは
もう使えるとこ全部使えますという
状態になっているわけですよね
計算資源不足と関連するのかなって思ったのが
最近話題のオープンクローですけれども
これでオープンクロー自体はモデルじゃないので
いろんなAIモデルと組み合わせで
AIエージェントとして使うわけですが
これクロードを使っている人が多かったわけですよね
ただ最近今まではクロードのサブスク
月額課金の中での枠で
オープンクローで使うクロードを
使えてたんですけれども
これから重量課金になってしまったという話で
ここも多分受給の逼迫っていうのを
すごい表してますよね
これ自体はもう
はっきり言って皆さん使っている
サブスクの定額プランって
多分みんな大体赤字なんですよ
そんなヘビーユーザーどれだけいるか
分からないですけども
ヘビーユーザーでなくても赤字になるぐらい
結構太っ腹なことをしてくれている状況なので
それをこんなもう
そこら中世界中広まったオープンクローで
定額範囲内でやりたい放題されたら
たまらんっていうやつなので
一部でアンソロピックオープンクローを
締め出したのか
オープンクローをできるようにしたと
言われてますけど
本当にそういう話ではなくて
単純にごめんちょっとこれは
オーバンブルマイしすぎたので
これやめてなって話だと思います
切実な問題なわけですよね
そんな困難なアンソロピックですけど
これからどうなってくるんですかね
[0:35:00]
まず現状のアンソロピックは
僕の予想を上回るぐらいにすごくなっています
そうですよね
ミトスは明らかに僕の予想を上回りました
あの強さに
これから2,3ヶ月で
オープンAIとGoogleが追いつくのかどうか
って話だと思います
オープンAIスパットっていうモデルが
どうも内部にあるらしくて
それが4月だか5月だかに公開された話ですけども
それを見て
それが全然追いついてないようだったら
完全にアンソロピック独創状態になるんじゃないかと
思います
でGoogleも多分5月のGoogle IOで
ジェミニ3.5なのか
4はちょっと早い気がするんですけども
出してくる気がするんですけども
その辺の直近1,2ヶ月のものを見て
他のところがもう追いついてないようだったら
少なくともモデル性能上は独創すると思います
でまずこれ対オープンAIに関して言うと
オープンAIかなり致命的だと思います
単純に今年IPOをオープンAIとアンソロピック
控えていると言われていてスペースXもAIじゃないですけど
XAがくっついたので
ほぼAI企業みたいなものです
はっきり言って市場が供給できるお金
投資量
投資量
お金の量はもうさすがに上限ラインがあるはずなので
ほぼそのマネーの取り合いになる気がするんですね
でもうこんだけアンソロピックモデルレイヤーで強いと
もうマネーがこっちに集中して
オープンAIが少なくとも投資を想定されていたほどの額で
公開とはならない気がします
のでかつオープンAIとアンソロピックは
どちらもAI以前のエコシステムを持たない同士で
単純に性能殴り合っている企業同士なので
単に性能上がった方を勝つという状況を見ると
アンソロピック側が秘伝のタレを持っていて
性能を維持するのであれば
これオープンAIは危ないと思います
一方対Googleどうかというと
これさっき出てきたベンチマークでも
ちょっと見えたんですけども
まずマルチモーダル性能は意外とまだ
ジェミニとほぼ競ってるぐらい
ジェミニが非常に強いんですよ
でGoogleは多分それを意識していて
マルチモーダル性能既存のGoogleの
エコシステムと組み合わせた
マルチモーダル性能を意図的に上げているんだと思います
でGoogleはもう法人向けのアプリケーションというより
もともと持ってた2C向けのエコシステムとか組み合わせて
マルチモーダルとか組み合わせて使えるので
これは多分住み分けという形になっていく
なんか法人とかのガリガリバックオフィスとかジムとかやるのは
アンソロピッククロードで
で一般ユーザー消費
一般消費者レベルだとエコシステム組み合わせて
マルチモーダル組み合わせてGoogleのジェミニという流れになっていくので
ここはバチバチになるというよりは
もう住み分けましょうという形で
かなりアンソロピックは
安定して収益上げられるポジションになってきたんじゃないかとは思います
なるほど
わかりました
というわけでここまでアンソロピックのクロードミトスなど
いろんな動向を見てきたんですが
最後にですね
最新ニュースです
メタがミューズスパークで逆襲ということで
このメタが昨年ですよね
AI研究所スーパーインテリジェンスラボを発足させて
このマーク・ザッカーバーグCEOの下にですね
このアレキサンダー1チーフAIオフィサーが
スケールAIというスタートアップの企業家で
それをメタが買収したわけですけれども
この研究所発足後初のモデルが出てきました
この研究所はですね
入口のところまで僕は行ってきました
メタの社内に僕は最近入ったんですけれども
メタはちなみにここだけ別セキュリティなんですよ
もう一回なんかPCなといけない
Pというか入れない
限られた人しか入れない
普通ちゃんとしたゲストとして行ったんですけれども
スーパーインテリジェンスラボ入り口に来たら
ここだけはちょっと別セキュリティなので
ダメです
ザッカーバーグも近くいるよと言われました
なるほど
壁の一つか二つ向こうにはいたかもしれないということですね
なのでそれぐらい特別扱いされているところです
今回発表したのが
ミューズスパークというモデルなんですけれども
いろんなベンチマークでも出ているんですが
これちょっと第一印象
今井さんに伺える
高いです
高いんですが
見せ方がもうちょっと何かやり方があっただろうと思います
見せ方
これは別に見せ方については
僕はあまりやらないか
他のラボとかは人のことは言えないんですけれども
これ青じゃないですか
そうですね
これはアレクサンダー1のツイートから
持ってきたやつだと思うんですけれども
[0:40:00]
これ公式の
公式ですか
公式とアレクサンダー1のツイートが
これになった気がするんですけれども
これ青で太文字強調することもあるんですけれども
何か色がついていると
これが一番スコア高いのかなという
認知ハックになるんですよ
もちろん言い訳としては
これは単なる我々のモデルを見やすくしているだけだ
という言い方があるんですけれども
冷静に見ると普通にこれ
別のやつには負けているということで
ツイッターとかだと
これを正しく修正してやったぞという形で
ちゃんと相対
一番スコア高いやつだけ色ついているものが
出たりするんですけれども
ちょっと認知ハックというかですね
スコアがよく見えるような
見せ方をしているなというのを
ちょっと嫌い思いました
ただ性能も高いといえば高い
スコアとベンチマーク上は高い
そうですよね
割とここでオーパス4.6
クロードオーパス4.6とか
ジャネイの3.1プロ
GPT5.4
グロックと比較されていますけれども
すごい差があるかというとそうでもないし
何なら上回っている
他のものを上回っているようなものも全然出てきていると
一応界隈の感想と僕の所感を述べると
まずこれ結構使い方限られていて
今までのラマみたいにオープンではないです
オープンではなくて
メタAIかな
メタのエコシステム内で使われることを
想定しているモデルらしいので
まず僕は現状使っていないんですけれども
界隈で使った人曰く
少なくとも実用上そんなすごいかというと
そうでもないっぽい
ウェブサイトの制作とかでも結構間違えているし
出力的にも最近フロンティアモデル及ばないという形なので
まず現時点でまだ出てきてから12時間も経っていないのかな
発表会はまだ12時間経っていないですね
日本時間の日付が変わった後だったので
実用レベルだとそんな評価されていないです
その上で僕の所感を述べると
このモデルはこのモデルだけ評価すべきではないと思います
まずベンチマークスコアで
フロンティアモデルに追いつくレベルぐらい
メタが仕上げてきたという事実が非常に重要で
別にこれの後にも後継モデルが出るはずです
出るはずでちゃんとメタが
スタートラインにまず立てることを示した
スタートラインに立ってしまうと
メタはやはりあそこは
圧倒的なGoogleレベルのプラットフォームなので
独自データメタ経済圏から得られる独自データを持っているはずなので
入り口に立った上でその独自データで学習したら
一般的なコーディングとかは分からないですけども
少なくとも何十億人のユーザー抱える
メタのエコシステムインスタとかもそうですし
メタバースは本当に諦めたのか分からないですけども
Facebookとか
あと広告でそれ上に乗っかっている広告とかで
相当な威力を発揮する可能性はあると思います
なのでこれミューズスパークは
これ自体がものすごい性能を発揮していると評価をするよりも
メタがちゃんとフロンティアモデル学習の入り口に立って
そこからメタの本当の強みを発揮していけるところまで
本当に立ったんだという見方をすべきかと思います
なるほど
これベンチマークで見ているとどうですかね
これ確かHLEもどこか出てたけど
出てます下のところ
Humanities Last Examは
これ50はめちゃくちゃ高いです
なのでまずベンチマーク性能は高いですが
Alexander 1がやっているというのがちょっとややポイントで
彼はもともとスケールAIというところのトップで
データとかビッグテックとかがモデルを作るときの
データを整備している企業なんですけれども
それもあって多分ちゃんとこういうやり方で学習すると
ベンチマークでいいスコアが出るというのを
彼は結構知っていたと思うんですよ
テスト対策が上手みたいな
なので今界隈ではさっきの実用性
実際ウェブ書かせてみたらあんまり性能なかった話と絡めて
これベンチマークハックに特化したモデルじゃないかと
いうことが言われているので
ベンチマークだけだとちょっと判定できないかなと
それを言ったらさっきMITOSもなんですけれども
MITOSはもともとオーパスとかはちゃんと
一般の人はみんな使って評価されてきたモデルなので
ベンチマークは最後後押しって感じですけれども
このミューズスパークは残念ながら出てきたばっかりで
ベンチマーク以外ちょっと評価しようがないので
ややベンチマークハックに特化したモデルかなと
言われて無理はないとは思います
思いますが
メタがいよいよフロンティアモデルレースに
追いついてきたんじゃないかと繰り返しになりますけど
そういう見方すべきかと思います
SWEベンチとかターミナルベンチとか
[0:45:00]
コーディングのところはやっぱり全然高くないな
高いですよこれは10分
高いというのは高いですけども
他が高すぎるのか
他がちょっとやばすぎるだけで
これスコアは十分高いんですけども
何かちょっと最近の
ドラゴンボール並みインフレが起こっているのが悪いというか
なので
ちゃんとスコアが出ているモデルだと思います
なるほど
そういうことですね
GDPバルとかも出ていますが
そうですね
それなりにやっぱりスコアというのは出てきているわけですよね
とはいえこのラボが発足したのが去年の7月ぐらいだったと思います
スケールアイアウトを買収したのがそれぐらいだったので
そこから9ヶ月ぐらいですか
AIの世界の9ヶ月って相当
早いというのか遅いというのかという感じですけど
その辺ってどうなんですかね
いやでもこれは普通に相当いい感じで
仕上げてきたんじゃないですかね
だって
GPT4が出てきて
初代ジェミニンが出てきた時に
もう9ヶ月経ってたわけですよ
3月14がGPT4で
12月6日かなが
ジェミニンだったので
そうですね
当時のジェミニン
これも9ヶ月だったわけですけども
まあボコボコだったわけです
最初の評価は
全然GPT4追いついてないぞって言われて
その後追いついたのが
1年後とかぐらいだったはずなので
下手すら2年弱かかってたことを踏まえると
9ヶ月で普通にフロンティアモデルに追いつくレベルまで仕上げてきたのは
ちゃんと人材集めたんだなという印象です
なるほど
出たり入ったりが激しいなっていうのはありましたけども
やることはちゃんとやってたということですよね
はい
わかりました
というわけでここまで
一般公開できない最強AI
クロードミトスの威力というテーマで
今井翔太さんとエアクエストをお送りしてまいりました
本日もご視聴ありがとうございます
ぜひチャンネル登録と高評価
クロスティックの公式Xのフォローもお願いいたします
それではまた次回
エアクエストでお会いしましょう
皆さんありがとうございました
ありがとうございました
チャンネル登録をお願いいたします
またね
またね
またね