00:00
こんにちは、AI駆動開発部の日常へようこそ。 このポッドキャストは、日々AI駆動開発を行う企業家の山本とエンジニアの阿部が AI駆動開発のリアルを緩く語り合う番組です。
はい、じゃあ本日もよろしくお願いします。 よろしくお願いします。はい、じゃあ今日はですね、
Claude Fable 5の概要と性能向上
Claudeから出ましたね。ミトスって言われてるけど、本当にミトスなんかはわかんないけど、けどフェイブル。ファイブル。フェイブル?一応フェイブルって公式名らしいけど、まあどっちでもいいや。
フェイブル、実際ちょっとどんな感じかっていう、ファーストインプレッション。お互いにね、軽く多分使ってみてるのかなと思っているので、ちょっとそのあたりのシェアができたと思っております。
はい、まずその前に阿部ちゃんがフェイブルについて、なんかざっくり調べてくれたんで、まあまあその辺の情報をちょっと共有するところから始めたらいいと思います。
はい。ミトスだっけ?もともとフェイブルの前身となるミトスっていうモデルが、まあ4月かな3月ぐらいにアンソロピックが、
なんかそのモデルの向上の過程で出た、かなり前身的な高機能のモデルとして出てきていたんですけど、これ自体はかなり安全面に考慮していて、一般公開はできないみたいな話で、まあそれから2ヶ月ぐらい僕らはそういうモデルは使えなかったんですけど、
そういった部分をかなり安全面に配慮した形で公開できる状態にして公開したのがこのフェイブル、実際にはフェイブル5っていう名前のモデルらしいですね。
基本的なスペックとしては100万トークン、コンテキストだったり、まあそういうのはあんまりオーパス4.8と変わらないのかなっていうところなんですけども、やっぱり大きく変わるっていうのがやっぱりミトスをベースにしていて、基本的なベンチマークがかなり飛躍的に向上している。
すごいね。
もうとんでもない、階段ができたみたいな上がり方をしている。
1マーク比較で言うとね、10ポイントずつぐらい上がっていって、謎の上がり方やね。
例えばスイーベンチプロとかだと、オーパス4.8だと69.2だったのが80.3ぐらいまで上がっていて、10ポイント以上の向上だったり、他にも業務的なタスク、GDPVARAAとかっていうのも、これまで4.8だと1769だったのが1932ポイントっていうことで、
他のモデルと比較してもかなり一気に差をつけたみたいなモデルになってますよね。
個人的にはこのGDPVARAAが上がっているのはね、結構いいなって。
まあそうですよね。GDPVARAAっていうのは幅広い業務、いろんな一般的な業務を広くこなせるかどうかっていうところのベンチマーク指標なので、
これができるってことは普段デスクワーク、コーディング以外のデスクワークとかでもかなり効くモデルだっていうようなものになるのかなって思うんですね。
てな感じですね。
Claude 4.8からの進化とバグ調査
なるほど。なんかね、実はね、クロードのオパスの4.8も収録したんですけど、もうフェーブル5出たし出さないでいっかって言って。
だけど4.8に出たときにやっぱ思ったのが、ちゃんと俯瞰して考えれる。
もちろんAIの特性として集中しすぎちゃう。視野が狭いというか、この片方の局所界、局所の最適界に寄っちゃうみたいなのもあるんだけど、
自分で指摘をしたら、前の自分の構想も含めて、指摘にしかも言語をしすぎず、ちゃんとフラットにあなたの言うことは半分は合ってるんだけど、
半分ここの部分はちょっと違うと思うんですよねみたいな、ちゃんとフラットなやり取りができるみたいになったのが4.8なのかなって言って。
そう言ってましたね。
で、それを実行で内製できるようになったのがフェーブル5なのかなみたいなことにちょっと触ってては思ったな。
ちょっとここから実際に触ってみてたところ、コーデックスCLIを使ってGPT5.5のエクストラハイで、ちょっと4つの課題が、バグがあったんで、それの調査をさせて、
さらにフェーブル5でもやらせたみたいなのだったけど、コーデックスの方はですね、ちょっと問題にたどり着かず、そもそも問題ではありませんみたいな。
結構複雑な問題、それこそ音の音素レベルでちょっと微妙に違うみたいなとかっていう、そういう話とか、結構多分難しいだろうなって。
確かにね、音のその微妙な違い、今やってる音の開発っていうのがまあ、ポッドキャストを自動化するとかそういう文脈の中で、音の微妙な差ってAIはそれを問題としてそもそも認知してるんですか?
一応ね、なんかその数値的に取れるんよ。
取れるようになったんですか?
数値的に取れるんだけど、それを見ても、いやなんかこれは問題じゃない、なんか元々の音源の問題であるみたいな回答を出してたりとかして、
この違うのは元々の音源の問題だから、プログラム上は問題ありませんみたいなことだっていう、
まあそういう結構複雑な問いを、しかも4つ並行で一気に伝えるみたいなやり方をしたよね。
その複雑なのに、その複雑な問題を4つ分ボンって投げて、この問題が、この問題とこの問題とこの問題があるみたいな出し方をして、
コデックスは行かなかったんだけど、フェーブルは今まさにほぼまとえてそうだなっていう分析結果を出してきて、
で、今まさに回収してくれてるんですけど、
まあまあ多分おそらく、僕の予想でもこの辺かなみたいなところと合ってたんで、
おそらくこのまま回収しきるんじゃないかなみたいなのを思ってるっていう。
だから、やっぱ100万トークンで、あとそのフラットに思い込みをせずに判断ができる。
いわゆる頭のいい人の考え方ができる。
何かにこう、何かノイズに揺さぶられることもなく、何かにこう思い込まずに、ちゃんとフラットに判断ができて、かつ詳細に見れるみたいな。
なんかそういう、ここだけ言うと最強みたいな感じなんだけど、
っていうのがちょっと、僕の今受けっていう。だからまあ、要するにめちゃくちゃいいよねっていう。
超簡単に言うとめちゃくちゃいいよねっていう感じ。
Claude Fable 5の限定提供とAPI利用
まあ一応ね、あ、そうだあと、概要説明として22日まで、クロードのサブスクリプションプランで使える。
で、それ以降はAPIでしか使えないらしいので、今がチャンスですね。
今はクロードのアカウントを何個登録してもいいから、今使い切るみたいなぐらいの気持ちでいます。
システムリアーキテクトとClaude Fable 5の実行力
なるほど。
僕もね、使ってて、まあさっき話してたように、全体を見て、あとしかも詳細もしっかりやるみたいなところで言うと、
まあ今まで僕が感じてたのが、オーパス4.8の時って、やっぱり対局感みたいなのは結構オーパスのいいところでありつつ、
実装を実際にしようとすると細かいところで店をポロポロ出るみたいな。
僕の場合はオーパスに大きく計画立たせつつも、実行レベルではGPT5.5に任せるみたいなことを最近のやり方ではやってたんですけど、
このフェーブルが出たっていうところで、ちょうど直面していた問題、僕が抱えてた問題として、
今作っているシステムを公開するにあたって、結構ドラスティックにアーキテクチャー自体、ファイルの構成とかをリアーキテクトしないといけないなという部分がどうしてもあったので、
これを、DeepSeek V4 ProとGPT5.5をオープンコード上でやらせたんですよ。
そしたら、なんか全体的には大きくやってくれたんですけど、構成自体は変更してくれたんですけど、
かなり、もともとしていた規約とかを無視したような実装をしていたりして、細かいところでも破綻してしまっているなというところがあったんですよ。
これをGPT5.5にしっかり直してもらおう、コーデックスCLIで堅実に直してもらおうかなと思ったんですけど、
GPT5.5の難しいところって、広く俯瞰してみて、全体的な整合性を保った上で、大きなゴールに向かうというのはやっぱり難しくて、
どうしても細かいところにはまってしまって、そこだけを直して終わりみたいになりそうだから、これはかなり修正長調板になりそうなんですよ。
そういう風に課題を感じてたんですけど、ちょうど昨日の、今日か、今日の3時ぐらいにGPT5.5が出たっていうので、
その課題、抱えている課題、今までこういうことやってきたんだけど、そもそもこういう破綻が見えてるんで、全体的に良くしてくれませんかっていうのを、
ちょっと寝る直前だったんですけど、もう諦めて寝ようかなと思ってたんで、ダメ元で一旦雑に投げてやってもらおうと思って投げてみたんですよ。
そしたら、なんかテーブル自体が僕の伝えたい意図をある程度踏み取ってくれた上で、
そこに対してどういう解決方法がいいのかっていうのを自力で考えた上で、最後まで完走してくれたんですよ。
朝起きて見てみたら、もう完全に終わってますみたいな。で、もう300ファイルぐらい変更してるんだけど、
普通に実行したら動いたみたいなところがあって、なんか単純な自分の頭の良さだけじゃなくて、
なんかその対局感としてどうかっていうもともとの素質がさらに向上したっていうところと、
細かいレベルでの実行をしっかりやってくれるっていうところが、なんか両輪ついたのかなみたいな気がしていて、
結構仕事を最後まで持っていく端力というか、そういうのが飛躍的に向上したような感じがして、まあいいなと思いましたね。
体感速度の逆説とレビューサイクルの効率化
なんか阿部ちゃんはちょっと早いなーみたいな話してたじゃん。
実行が早いな。
個人的には遅いなっていうことがあって、で、まあそれはなんか体感の話なんで、実際どうかっていうあれはあるんだけど、
少なくとも僕は遅いと感じてるけど、トータルでは早いなって感じてて、
それはなぜなら阿部ちゃんの言ってるその細かいところまでしっかり実装してくれることで、
実装し終わった後で必ずAIレビューを走らせるんですけど、レビューから帰ってくるステキがものすごく少ない。
おお、そうなの?
しっかり実装してるから。
なんで、結果的にこのレビューサイクルが少なくなるから、まあそれは早くなるよねっていう、なんかそういう感覚はあるかもしれないね。
トータルでのトークン効率的な意味でも向上しているような感覚だよね、たぶん。
トークン消費量とダイナミックワークフローの注意点
まあ、とはいえ高いけど。
高いんですね。まあ、オープス4.8のプランと比較してもサブスクリプションで今使えるんですけど、それでもオープス4.8の2倍なので、まあソネットと比較したらもう4倍とか、そういう消費量になるんで。
ちょっとね、フェーブルでダイナミックワークフローは使わないほうがいいですね。
30分で5時間のリミットが来るんで。
なるほどね。
まあまあ、ダイナミックワークフローをさらに並行でしてるっていう前提があるけど、まじで瞬間に枯渇するんで、そうですね、あんまりおすすめしません、ダイナミックワークフロー。
そうだね。
ループエンジニアリングとClaude Fable 5の可能性
まあ、かなりすごいね。いや、これまじですごいと思う。
なんか一個また、新しいフェーズに入ったんじゃないかぐらいの、まあなんか、最近だと、ここ数日急にこうループエンジニアリングみたいな。
まあなんか、プロンプトエンジニアリング、コンテキストエンジニアリング、サーネスエンジニアリングみたいなのが、これまで結構主流の話題になってきたと思うんですけど、なんか急にループエンジニアリングが話題になってて、
まあでもそれって本当に、なんか適応できる場所と、まあなんか、とはいえ人間が介入しないといけない場所もあるよなみたいな感覚がありつつも、なんかミトスぐらいやってくれる能力。
なんか、ある程度の意図を伝えたら、感想してくれる能力を持ってたら、ちょっとループエンジニアリング的に、なんか人間のこういうことをしてほしいという希望だけを持ってして、
なんか、やってくれそうな気もちょっと見えてきたのかなみたいなのは感じたりしますよね。まあだから、なんかループエンジニアリングの適応範囲っていうのがグッと広がったようなこともありますよね。
まあちょっとね、ループエンジニアリング、個人的にはそんなにみんな使いどころあるのかなっていう、なんかその、あるんですけど。
ちょっとその、それの話はまた後にしましょう。
思うところはあるよね。
思うところが、正直なんでそんなみんな盛り上がって、なんか別にそれって。
割といつままでもやってきたことじゃないのみたいなところも若干あったりするし。
Claude Fable 5の利用推奨と追加情報
まあそう、なんか。まあまあまあそこはね、また話しましょうというところなんですけど、かなりね、フェーブルいい感じなんで、ぜひまだ使ってない人は。
あと。
今言っちゃったからね。
あとGPTがずっと頭のキレというか、いう意味ではずっとピカイチだったところから、グッと4.8で死後的人間になってフェーブルになって、
GPT並みの頭のキレもできてきたと。
まあそうすると、よりね、使う幅っていうのが増えてくるかなと思うので、ぜひちょっとね、まだの人は使ってみてほしいなと思います。
はい、まあちょっと僕たちもね、クロードのクレジットが欲しいので、筐体リンクみたいなのあるのかな、クロード。
買っておきますんで、なんかそれでちょっと使ってみてください。まだクロードあれだったら、使ったことないよっていう人がいたらって感じですかね。
はい。
もう6月22日までがチャンスなので。
チャンスですね。
これを機にいろんなタスクを一気に走らせたいなっていうような気持ちではあります。
あともう一個ね、クロード今入るといいっていうのが、あのコア区の使用量が今7月5日まで、容量2倍になってるんですよね。
あ、そうなの。
そうそうそうそう。なので、まあそういった意味でもいいのかなっていうふうに思ってますね。
ちなみにちょっとまだクロードそんな変わったことないみたいな人向けに言うと、クロードコードとクロードチャットは同じ枠、両枠を消費していくんですけれども、
ソネットが若干別枠であって、ソネットを主体として使う軽い作業だったら。
頭を使う作業はフェーブルとかそういうのを使うみたいな感じになると。
あとはデザインですね。クロードデザインは全く別枠になるので、なのでおすすめです。
クロードデザインをうまく使いながらやるのが結構おすすめかなというふうに思っております。
はい、そんな感じで今日はサクッとですが、フェーブルの所感というか、共有できたかなと思いますので、以上にできればと思います。
エピソードのまとめとリスナーへの呼びかけ
はい、じゃあありがとうございました。
ありがとうございました。
本日もAI駆動開発部の日常をお聞きいただきありがとうございました。いかがでしたでしょうか。
話した通りなんですけれども、フェーブル結構すごいモデルで、しかも22日までしか使えないってことなので、
ぜひサブスク入っている人はですね、ちょっと見てみてもらえると嬉しいなと思います。
このポッドキャスト気に入ってくれた方は、いいねやフォロー、高評価ぜひお願いいたします。
それではまた次回もお楽しみください。バイバイ。