00:03
こんにちは、AI駆動開発部の日常へようこそ。 このポッドキャストは、日々AI駆動開発を行う
事業家の山本とエンジニアの阿部が、 AI駆動開発のリアルをゆるーく語り合う番組です。
はい、じゃあよろしくお願いします。 よろしくお願いします。
はい、ではちょっと今日はですね、 オープンコードをちょっと使い始めて、
その中でかなり優秀なモデルを発見したということで、 なかなか良い情報なのかなと思って、
シェアもできればなと思っております。 よろしくお願いします。
早速何が良かったのかみたいなところなんですけれども、 DeepSeek-V4Proですね。
あとDeepSeek-V4Flashも結構良かったなっていうような印象を受けていて、 ちょっと世の中の評判をX上でチラホラ見るのが、
結構研究者機質で硬いよねみたいな。 これ阿部ちゃんもさっき話してたと言ってたのと、
あとはコーディング品質ちょっと悪くない? みたいな意見もチラホラ出てるんですけれども、
そんな感じの評判ではあるんですけれども、 実際に動かしてみるとかなり良かったなっていうところと、
あと実際エラーにならないとかそういう意味で含めて、 安定性、変なハルシュネーションがそこまで多くない。
たまにあるけどそこまで多くない。 安定性とか含めてかなり初めてなんじゃないかな。
JLM5も良かったけど結局20万トークンコンテキストで しんどいよねっていう話だったじゃん。
DeepSeek V4 Pro Flashともに100万トークンコンテキストを取り扱えて、
さらに安定稼働できるっていう、 JLM5以上がおそらく本当の意味で実運用向けになるのかなと思っていて、
俺の中のベンチが何度か話題に登場している、 記事の叩き台を生成してくれるみたいなエージェントワークフローを組んでて、
それを完走できるかどうかって結構大事だなと思っていて、 相当複雑なワークフローを組んでるんですよね。
すごい多角的な情報を取ってきて、 それを取り扱うにはそれなりのコンテキストをきっちりと取り扱うっていうところとか、
ちゃんと指示追従性があるとか、 その辺が結構重要になってきて、
それを今までミニマックスM2.7とかは完走するんだけど、 実際は中国語が入り混じっていたりとか、
そもそもモデルとしてストラクチャーアウトプットに 準拠してないとか搭載してないみたいなのがあったりとか、
03:06
そういうのもあったりとかしてたけど、 とはいえ結構中国混じりの変な文章を生成するなみたいなのがあったりとか、
結構長いワークフローになるから、 それをDeepSeqのV4 Flashでも耐えたんですよ。
ちゃんと完走してるっていう。 俺の中での指示追従性とか、ちゃんと業務をこなしてくれるのを1個の指標として、
あれを完走できるかっていうのが結構あって、 それをGLM5以上のものしか結構無理そうだなみたいな印象を受けてたんだけど、
GLM5の10分の1ぐらいのコストなのかな、DeepSeq V4 Flashって。
なのに、完走できたっていうところが結構すごいなみたいなのを受けてて、
ちょっと軽くそんな感じでかなり注目してたし、 実際に使ってみたらかなり良かったねっていうところの話。
Flashもそうだけど、Proもさらに良くてみたいな感じで。
簡単なDeepSeqのV4 Proの説明をすると、 1.6兆パラメータ規模のMOEモデルで、
1回の処理ではそのうち490億パラメータが活性化するっていう。
さらに49Bのモデルですね。 また100万トークンのトークンコンテキストをサポートしてると。
一応公式情報とか世の中的に言われてるみたいなところで言うと、 長い文章を読む力が結構強いって言われて。
普通のモデルって入力が長くなればなるほど、 計算量とメモリ使用量が急激に増えていくっていうところなんだけど、
DeepSeqのV4 Pro、Flashもなのかな、 ちょっとそこまで調べてないけど、
少なくともV4 Proは文章そのまま全部ベタ読みするんじゃなくて、 重要な情報を圧縮しながら参照する仕組みを入れてるらしくて。
なので結構コンテキスト効率がいいモデルみたいなところがあるみたいですね。
3.2までは結構中国語混じったりとかしてたけど、 相当改善されたなっていう印象を受けてますっていう感じですね。
だからそもそも100万トークンコンテキスト受容できるのに、 それでいて効率的に読み込んでいくっていうのがかなり。
あとついでに1.6兆パラメータ規模なんで、 そもそもの知識が豊富みたいなのも結構。
おだしょー 読み込んでいくパラメータの。
三沢 そうそうそう。けど活性化するのは490億だけみたいな。 49Bだけみたいな感じなので、相当効率をよくしてるんだな。
06:10
逆に言うと、一昔前にあなたはなんちゃらの専門家ですみたいな。
役割与えてたじゃん。
おだしょー プロンプト的だね。
三沢 そうそうそう。それが結構効くんじゃないかなって。
おだしょー ああそうなんだ。
三沢 この仕組みを聞くと、実際にどの辺の知識を参照すればいいのかなっていうのを、 初めにピン止めしてあげるっていうのが結構効くのかなって。
実際はどういう仕組みなのかわかんないけど。
おだしょー それはMOEとかの文脈的にっていう意味じゃないかな。
おだしょー そもそも持ってる知識が、そもそもハナから学習してる量が超大で、 その上でDeepSeekが必要なところだけ参照して持ってくるみたいな感じで、
実際に活性化するのは490億のパラメーターっていうことは、 初めにこの辺だよっていうのを作ってあげることで、参照しやすくなるというか、みたいなのがあるのかなって。
三沢 なるほど。
おだしょー 実際に呼び出してどういう風な中身になってるのかわからんから、なんとなくでしか言えないけど、もしかしたら聞きやすいモデルなのかなっていうのはちょっと思ったよね。
私、実際、そうだね、多分この辺読みなっていうのが結構効くモデルなのかな。 何が重要かっていうのをちゃんと教えてあげることが重要なモデルなのかなっていう作りで、なんかちょっと感じてます。
ちなみにオープンコードのオープンコードGOっていうサブスクリプション、初月5ドルで、翌月から10ドルでサブスクリプションプランで、いろんなモデルを使えるみたいなのがあるんですけど、
そこでDeepSeek V4 Proは3450回リクエストできるよっていう、5時間おきなのかなこれ。
5時間あたりのリクエスト数が3450。で、Minimax 2.7とかCuben 3.6プラスと一緒くらいの同じ3000回台ぐらいで、DeepSeek V4 Proは31650回5時間おきにアクセスできる。
で、Kimi K 2.6とかMimo V 2.5 Proとかは1000台。GLM 5.1は880。
そっか。だいぶお安いね。
お安いし、実際Kimi K 2.6とかも使ってみたんやけど、結構混乱してて途中で意味わかんないことやり始めてたりしたところがあったんやけど、Kimi K 2.6。
そういうのがやっぱないから、長時間駆動させる前提だとDeepSeek V4 Proがそもそも長い文章をしっかりと要約しながら、
09:03
重要な要素を抜き出しながら参照するっていう点、その特性とかも含めて、あと100万トークンコンテキスト使えるっていう特性も含めて、かなりいいんじゃないかなって。
しかも別にさっき言ったコーディング性能微妙だよねみたいな話は、別に作業者とかをあなたはPMに徹しなさいとプロジェクト管理に徹底して、
実装とかレビューとかはちゃんと別セッションのサブエージェントを使いなさいっていうのをしっかり与えたら、実装はGPT 5.5とかやってくれるから、
だから別にコーディング性能低くてもいい役割的にはっていう、親エージェントとしてそこそこ頭良くてしっかりプロジェクトを増やしてくれればいいっていう。
100万トークンコンテキストがあるからコンパクトが走りにくいっていうところがやっぱりいいよね。
そうそうそうっていう感じなので、なかなかいいなっていうのがちょっと感じてますっていう。
アベちゃんも多分実際に使ったから、お互い感想というか、僕は結構感想今言ったんだけど、使用料的にも多分気になる方いるんじゃないかな。
初月5ドル、翌月から10ドルでどれくらい使えるんだろうみたいなところとか。
僕の使い方だったら、GPTの200ドルを使い切るぐらいの量を使ってますっていう前提に立つと、
オープンコードの10ドルプランだと、四周ポストアトラスっていうオーケストレーター、親エージェント的なもののところと、
あとはエクスプローラーとかリブラリアンとか情報調査用のところをV4 Proにして、
クイックとかロー、簡単なタスクはV4 Flashに預けて、それ以外をGPT 5.5に、ちょっとオーマイオープンエージェント前提の話しちゃうんですけれども、
一日で使い切るぐらい。ちょうど一日で使い切るぐらいなので、それは使い切ったのは、ちなみに週間のリミットを一日で使い切るぐらいなので、
70ドルの課金をすれば、毎日使い放題になるっていう。切り替えながらになるけど。
GPTの200ドルプランを1週間で2アカウント使うっていうヤマちゃんが、一日持つっていうのは結構使えるかなって感覚を覚えますけどね。
GPT200ドルプランを1個解約して、70ドル分のオープンコード5を課金して、お釣りが来るみたいな感じのね。
12:01
しかも、正直オーケストレーターという文脈においては、5.5より使いやすい。
僕も同じ感覚は得ていて、非常に使いやすいモデルだなっていうのは感じてます。
ちなみに、GLM5.1とか他のKimiK2.6は微妙だったみたいな話をさっき聞いたと思うけど、僕の中で結構中華モデルの中で安定して結構頭がいいイメージなのはGLM5とか5.1系とかなんだけど、そことを比較しても、全然DeepSeqV4のほうがいいイメージだなと。
オープンコード5で使ったじゃなくて、前ちょっと実験的に使ったみたいな文脈において言うと、GLM5.1は途中でなんかぐちゃぐちゃになっちゃう。
やっぱり長時間駆動させたら、そもそもだから200系しか耐えられないっていう前提があって、
しかもGLM5.1だと1000もない、880とかだったら、正直4時間ぐらいでアウトだよね。
そうだよね。4分の1とかだもんね。
そこまでしてGLM5.1を使う必要はない。それだったらGPT5.5でいいかなみたいな。GPT5.5のほうが40万使えるから、トークン。
むしろコンテキストウィンドウ的にも前提として5.1あんまないかなみたいなのはあるよね。
DeepSeqV4 ProとMIMO V2.5を比較しても、結局1290アクセスしか5時間以内にできないんだったら、DeepSeqV4 Proで十分かなみたいな感覚。
すごいね。やっぱり100万コンテキストウィンドウで安定して、しかも完走できるっていうのはかなり重要。オーケストレーターをやらせるっていうのは重要かなって。
正直頭はそこそこ良ければいいじゃん。嘘とかないって。
たまに本当に嘘つかれたけどね。
お前絶対見てないやんみたいな。
そういうのね。
GNM5.1とかキミケイとかもそうかなと思うんだけど、ちょっとコンテキストが重なるともう尻滅裂の発言したり、発言がループしだすみたいな、そういうぐちゃぐちゃな落ち入り方とかも。
あと中国語だらけになるとかね。
そういうのもないし、少なくとも言ったことはちゃんとやって、完走してくれる。たまに勘違いして嘘ついたりとかするかもしれないけど、急に全然別のこと、他のコンテキストに汚されて別のタスクをしだすとか、そういうこともない。
15:10
資質移住的な安定性も高いから、かなり僕の中では、僕使ってるのはまだ2日とか3日ぐらいなんですけど、結構良いモデルだなっていうのは確かに感じてますね。
そういう意味では、初めてGNM5とか良いよねって言ってたけど、結局手足として使うには良いよねだったじゃん。調査タスクとか。
そうだね。
結局調査タスクもしっかりした調査やろうとしたらすぐコンパクションが走ってみたいなのがあるから、調査タスクとしてもDeepSeek V4 Proとか結構優秀で100万トークン抱えた上で最後整理して返してくれるっていうのがあるから、
だからそういう意味でも結構コンテキストウィンドウでかいのはかなり良くて、そうした時に中華モデルで初めてなんじゃないかなって、オーケストレーターの役割を晴れるモデルって中華モデルで初めてなんじゃないかなって思ってる。
なんかそんな気は、まあそうだね。これからも多分オーケストレーターとして使い続けそうだなみたいな感覚を得てるのは初めてかもしれない。一応GNM5の段階で結構安定してた時は、まあ行けそうかなみたいなのは若干あったりした。それはどっちかっていうとタスクの範囲が狭いような。
うんうん、そうだよな。
もっとちゃんと大規模に計画立って大きくやらせるとかも含めて任せられそうだなっていうのは確かに初めて。
しかもなんか最近、俺が開発する上での一発のPRとかが、なんか3分6万行とかっていうのがもう普通になって、それをこなせるだけのモデルっていう意味でかな、なんか。
まあそうだね。その大規模開発も耐えれるっていう意味ではまあ初めてかもね。
うんうんうん、そう。だから結構、まあなんかちらほらいいよねっていう声は聞くけど、なんかもっと盛り上がるべきモデルなんじゃないかなって。
まあ君の時にあんなに盛り上がってたのにっていうのはあるよね。
いやそうそうそうそう、なんかもっと盛り上がっていい。しかもディープシークはなんかすごいこう情報公開がかなりされてて、これをもとに中華モデルがおそらくまた躍進する?
なんかって考えると、なんかニュース性で言うと、なんかGLM5.1出ることよりよっぽどニュース性はあるなのになーみたいな。
なんでだろうね。
なんか名前なのかな、GLMって。かっこいい。ディープシークってなんか。
18:02
そうなんか、なんかまああれなんか、ディープシークって結局上流モデルだから、そんなモンスチャーみたいな感覚があったりするのかなみんな。
なんかどうなんだろうね。
まあでもね、僕が使った感覚としても本当に安定していて、でさっき山ちゃんもちらっと言ったように、なんか研究者機質というか結構硬いなっていうのはなんかやってて思う。
あとはシンキング?リーズニングの機能は当然あるんですけど、なんかリーズニング結構考慮してるなっていうのを出力を見て感じるので。
調工型で結構実行した上でタスクを遂行するんだけど、なんかディープシークのこのV4 Proのすごいなと思う。結構高速に動くんですよね。
結構早いよね。わかるわかる。
なので調工してても全然なんかじゃあ遅いなっていう感覚はなくて、むしろこんな早いんだっていうふうにサクサク動いてくれて、
しかも100万コンテキストウィンドウっていうデカさも最高っていうような感覚は得てますね。
そうやな。フラッシュもさらに早いもんね。
僕ね、フラッシュちゃんと見てないんだけど、これより早いって言ったら相当早いことになるなって感じますよ。
相当早い。なんか全然違うよ。なんか倍、3倍ぐらい早いみたいな感じかな、イメージで言うと。
ちょっと後で使ってみよう、ちゃんと。
いや本当におすすめですよ。結構ね、やっぱオープンコードGOいいっすよね。
安定してるなって。
そう、安定してるインフラも含めて。
10ドルから始められる、なんなら初月は5ドルから始められるっていうのが本当にすごい。
もうちょっと上のプラン早く用意してくれないかなって感じ。
その上が全なのかな、100ドルプラン。
あ、全、あんのそれ。全ってあれじゃない?重量課金だと思ってた。
あ、別なんだ。
だからGOの上のプランが、GO自体まだベータ版だよって言ってるんだけど。
なんかどっかで100ドル、10ドルと100ドルがあるみたいなのをちらって見た気がして、
100%あるんだとか思ってたけど、分かんない、僕がハルシネーションしてるのかもしれない。
人間ハルシネーション。
してる気がするな。ちょっと調べるわ。
3倍は言い過ぎだったわ。
スループットが、プロ、DeepSeek V4 Proで31TPS出る。
で、Flashが54TPS出るって感じかな。
そうなんだ。
で、APIで使うにしても、あの、あれなんよね。
GLAも5と同じぐらい。よりちょっと安いのかな、みたいなぐらい。
21:01
なんで、なんかコスパも相当いい。
あと、MIMO的な感じでさ、なんか256K以上は、ちょっと、なんだろう、値段のグレードが上がるみたいな。
階段的な。
あれもないから、すごい、そういう意味でもいいなっていう。
最高だよね。
あと、OpenCodeGoのいいところって、やっぱ最新の、わりと新しく出た中華モデルは基本試せるっていうのはあるので、
なんか、いろんなモデル使って、とりあえず動かしたい人とかは本当に持ってこいの。
いや、分かる分かる。なんか試験的に見てみたいなね。
そうそう。今まで僕らって、ZAIでサブスク登録してみたいな、こっちで登録してみたいなのでやってたけど、
これで1個にまとめられるし、かなり使えるっていう。
そうやんね。そこ本当にでかいよな。
しかもね、出たてのモデルとかだとフリーで動かせるとかもあるしね。
あとね、結構安心感があるのが、あれなんやね。
学習にデータプライバシー的にプロバイダーのゼロ保持ポリシーに従って、
モデルのトレーニングに使用しないっていうことがOpenCodeGo経由だと約束されてるっていう。
これすごいありがたいね、本当に。
あと安定性があれなのかな。
このプランは主に海外ユーザー向けに設計されており、
米国、EU、シンガポールでホストされたモデルにより安定したグローバルアクセスを提供しますって書いて。
この辺の仕組み上の安定性の良さみたいなのもあるのかな。
僕らは多分シンガポールのリージョン使ってんのかな。
だからもしかしたらアジア系の人たちはあまりまだ使ってなくて、
僕らはインフラとしてそこまで負荷の低い、高くない状態で使えてるとかあるかもね。
米国EUとか。
なるほどね。逆にね。
ハードユーザーはどっちかっていうと米国とかEU側に行ってみてもしかしたら。
はいはいはい。確かに確かに。あるかもしんないね。
あるかもしんないね。
かなりいいよね。
ここに来てオープンコードを正直やる意味あんのかなってすごい思ってたよね。
出したとき。
だってオープンルーターとかもある中で、
わざわざサブスクで色々切り替えて中華モデルだけ切り替えてって何の意味があるんだろうって思ってたんやけど、
これがもう僕の完全な誤りでしたよ。認識の。最高。
最高ですか。
最高ですね。
24:02
そんな感じかな。オープンコードがいいよって話とディープシークV4 Proがかなりいいんじゃないかなと思ってますね。
少なくとも最近の中華モデルの中ではピカイチな感覚がありますね。
GLMも5から5.1になって動きが逆に微妙になった感覚を僕は強く覚えていたりするので、
直近の、キミ2.6は使ってなくてキミ2.5しか使ってなかったんですけど、
それでもなんかやっぱ微妙だなって感覚があって、そう考えると一番光のある、光ってるモデルな気がしますね。
キミK2.6はけど、すごいバグってたから。ちょっとした作業でバグってたから。
どうしようもないなこいつって思って。
どうしようもない。
なんで巷であんなモテ生やされてる。
なんかだけどカースターが結局コンポーザー2作ってそれがキミK2.5ベースだよっていうところの先入観から来てるのかなとかも思ったりちょっとするよね。
なんかそっちな気がするけど、みんなアクセスしやすいモデルでもあるし、みんな使えるモデルっていうのがやっぱりデカい。
使ってるモデルっていうのかな。デカいんじゃないかなっていうのもありましたよね。
意識じゃあ触るかって言ったらあんまり手出さない可能性の方が高いかなみたいな。
僕は勝手にそう思ってるんですけど。そういうのもあるかな。
まあ確かにGLMとかキミK2.6みたいな、世の中的にもみんないいよって言ってる人がちらこらいって実際に使っているケースが増えてないとなかなか使おうとならないのかもね。
これを機にDeepSeekが盛り上がってくれたら嬉しいね。
あとDeepSeek V4 Proの技術を応用した中華モデルたちの躍進を知りたいよね。
そうだね。来月、来月辺りに来るんじゃないですか。
来そうだね。そんな感じで、じゃあ今日は以上とさせていただければと思います。
ありがとうございました。
ありがとうございました。
本日もAI駆動開発部の日常をお聞きいただきありがとうございました。いかがでしたでしょうか。
今回はOpenCodeGoに登録してDeepSeek V4 Proを使ってみたんですけれども、かなり良くてですね。
中華モデルで個人的にはオーケストレーターを貼れるモデルなのかな、初のモデルなのかなというふうに思うぐらいかなり有用なモデルだったので、
その共有となりました。こんな感じでいつも新しいAIとか使って遊んでるので、
27:04
ぜひこのPodcast気に入ってくれた方は、いいね、フォロー、高評価ぜひお願いいたします。
それではまた次回もお楽しみください。バイバイ。