今回は、Z.aiのGLM-5.1とAlibaba Qwen TeamのQwen 3.6 Plus Previewを実際にエージェント開発で使ってみた感想について語っております。
僕も阿部さんも期待していたGLM-5.1ですが、実際にOpenCode上でサブエージェントとして動かしてみると、思わぬ不安定さに直面しました。一方で、100万トークンのコンテキストウィンドウを持つQwen 3.6 Plus Previewは、ロングコンテキストでの安定性やトークン出力の速さなど、想像以上の良い感触がありました。この違いはどこから来るのか?20万トークンと100万トークンの差以外にも色々な観点で話し合い、かなり意見が割れるポイントもありつつ、お互い気づきの多い時間となりました。後半では、Holo3やKAT-Coder-Pro V2、Arcee AIのTrinity-Large-Thinkingなど、気になる新モデルの話題にも触れています。
▼GLM-5.1 コーディングプラン
https://z.ai/subscribe
▼Qwen 3.6 Plus Preview(OpenRouter)
https://openrouter.ai/qwen/qwen3.6-plus-preview:free
---
stand.fmでは、この放送にいいね・コメント・レター送信ができます。
https://stand.fm/channels/68dc82a9036795923c400b4f
僕も阿部さんも期待していたGLM-5.1ですが、実際にOpenCode上でサブエージェントとして動かしてみると、思わぬ不安定さに直面しました。一方で、100万トークンのコンテキストウィンドウを持つQwen 3.6 Plus Previewは、ロングコンテキストでの安定性やトークン出力の速さなど、想像以上の良い感触がありました。この違いはどこから来るのか?20万トークンと100万トークンの差以外にも色々な観点で話し合い、かなり意見が割れるポイントもありつつ、お互い気づきの多い時間となりました。後半では、Holo3やKAT-Coder-Pro V2、Arcee AIのTrinity-Large-Thinkingなど、気になる新モデルの話題にも触れています。
▼GLM-5.1 コーディングプラン
https://z.ai/subscribe
▼Qwen 3.6 Plus Preview(OpenRouter)
https://openrouter.ai/qwen/qwen3.6-plus-preview:free
---
stand.fmでは、この放送にいいね・コメント・レター送信ができます。
https://stand.fm/channels/68dc82a9036795923c400b4f
感想
まだ感想はありません。最初の1件を書きましょう!
サマリー
今回のエピソードでは、AI駆動開発部の山本さんと阿部さんが、最新のオープンソースLLMであるGLM-5.1とQwen 3.6 Plus Previewを実際にエージェント開発で試した感想を共有しています。当初期待の高かったGLM-5.1ですが、OpenCode上でサブエージェントとして使用したところ、不安定さやロングコンテキストでの性能低下といった予期せぬ問題に直面しました。特に、以前のバージョンで改善されていたロングコンテキストの安定性が再び悪化している点が指摘されています。 一方、100万トークンという驚異的なコンテキストウィンドウを持つQwen 3.6 Plus Previewは、ロングコンテキストでの安定性、推論能力、トークン出力の速さにおいて、期待を大きく上回る良好な結果を示しました。両モデルの比較を通じて、コンテキストウィンドウの差だけでなく、モデルの安定性やインフラとの連携といった要因が、実際の開発現場でのパフォーマンスに大きく影響することが明らかになりました。後半では、Holo3やKAT-Coder-Pro V2、Arcee AIのTrinity-Large-Thinkingといった他の注目モデルについても触れられています。
はじめに:お便りと今回のテーマ紹介
こんにちは、AI駆動開発部の日常へようこそ。 このポッドキャストは日々AI駆動開発を行う
起業家の山本とエンジニアの阿部が、AI駆動開発のリアルをギル語り合う番組です。 はい、じゃあ本日もよろしくお願いします。
よろしくお願いします。 はい、なんとですね、スタンドFMの方で
お便りをいただきまして、ちょっと気づくのが遅くなっちゃってたんですけど、普段あまり見ていなくて申し訳ないです。
完全に気づくのを遅くなっちゃって。で、コンポーザー2は使わないですか?
継続プレトレーニングやポストトレーニングで君K2.5からだいぶ良くなってるらしいですよっていうお便りと、あとはGLM5.1の感想を待ってますというようなお便りをいただいております。
ちょっとコンポーザー2はまだすいません、使えておりませんね。本当に早いし、そこそこステップ踏んでしっかり実行できるみたいな噂は聞いているものの、
ちょっとまだできていないんですけれども、今回ちょっとGLM5.1を使ってみているので、その辺の共有というか、どんな感じかみたいなところと、
あとKuben3.6プラスっていうのが今オープンルーター上で無料で使えるようになっているんですけれども、そちらもちょっと試しに使ってみたので、
その2つを照らし合わせながら、どんな感じかみたいなところの話ができたらなというふうに思っておりますという感じです。
僕も阿部ちゃんも2人とも使っているので、お互いどう感じているかみたいなところを話できたらいいのかなと思います。
はい、じゃあそんな感じなんですけれども、軽くGLM5.1とKuben3.6プラスがどんな特徴のあるモデルなのかみたいなところをちょっと共有してから、
実際の本題、感想の部分とかその辺に話できたらと思うんですけれども、まずGLM5.1は実際にGLM5からかなり特にコーディングスキルにおいてっていうところで伸びましたよっていうところですね。
一応クロードコード上で動かしたベンチみたいなのがあって、それでいうところのGLM5までは35.4だったんだけど、5.1になって45.3に伸びました。
28パーセント向上しましたよっていうところと、あとクロードオパス4.6がその一方で47.9っていうところで、マイナス2.6ポイント分ということでかなり近さまで近づいてますっていうのが。
っていうのが一応特筆すべき点として歌われてるっていう感じですね。
実際、コンテキスト量とかは変わらず20万トークンのままになっているっていうような形です。
実際にオープンルーター上とかではまだGLM5.1とかが出てないので、他のベンチマークとかその辺はまだ分かんない状態なんですけれども、一応そんな感じの比較になっているとのことです。
一方でKuben3.6プラス、これはオープンルーター上で出てはいるんですけども、ベンチマークの公開まではされてない。
X上ではベンチマーク取れたよみたいな感じで図が出てるんですけど、クロード4.5オパスとの比較っていう何とも。
4.6で比較してほしいですよね。
4.6で比較してくれよって感じの。しかもGLMとの比較もあるんだけど、GLMも5と比較してるっていう感じで。
5.1はまだベンチマーク出てないから、そういう意味でも比較できないみたいなところだと思うんですけど。
ちょっとこの表にはすごい作為的なものを感じるんですけど、なのではっきりとしたベンチは出てないっていう感じなんですけれども、
一応Kubenの3.6プラスに関しては、なんと100万トークンのコンテキストウィンドウがあると。
これは結構でかいですよね。
めちゃめちゃありがたい。
あと一応3.5からの3.6プラスへの一番大きい進化みたいなところがまとめられてたんですけれども、
不必要な思考ループを削って結論に到達するのを高速化したよっていうところと、
あと同じタスクでもトークン効率が上がって、より少ないトークンで完了できるようになったよっていうところと、
あとハルシネーションの削減、特に100万トークンでのシロック向上っていうところと、
あとは強制、これはオープンルーター経由で今プレビュー版だからみたいなところもあると思うんですけれども、
強制的にチェーンオブソートでやってくれるから、タスク追従性が上がったみたいな感じで捉えておいてもらったらいいのかなというふうに思っておりますと。
そんな感じで、まだ情報が足りてない中でみたいな感じなんですけれども、一応そんな感じになってます。
GLM-5.1の評価:期待と現実
僕たちは実際見つかってどうかみたいなほうが重要だから、正直ベンチマークはあくまでも参考程度にっていう前提ではあるんですけれども、
実際の感想とか言い合えたらなというふうに思ってます。
ちょっと最近ね、GNM5Vのターボってやつが出てね、マルチモーダルのターボが出たりとかしてっていう、
結構GNMかなりアップデート早いなっていう感じなんですけれども、とはいえ5.1どうだったかっていうところの話が、感想ができたらと思ってます。
阿部ちゃん使ってみてどうでした?
GNM5.1なんですけどまずは、僕たちで言うとオープンコードっていうハーネスを使っていて、
クロードコードとかコーデックスと同じようにオープンコードっていうハーネスを使っていて、
今オーマイオープンエージェントっていう名前に変わったんですけどもともとはオーマイオープンコードっていう名前のプラグインを使って、
それこそシシューポスとかアトラスっていうエージェントを動かすことでオーケストレーションしながら開発をするっていう形。
以前からも結構、
何回もね。
何回か話したと思うんですけど。
それでまずは僕はシシューポスでGNM5を普段使っていたんですよ。
彼は結構クロードコードのオーパス4.6と割と近しい性質を持っていて、
かつ推論も結構いいので、
GNM5の時はシシューポスっていうエージェントとして使っていて満足してたんですけど、
これがGNM5.1に変えてみたところ、
結構動作がそもそも不安定だったり、全然うまく動かないっていうことが多くあって、
そもそもモデルとしてそんなに使えないんじゃないかっていうのが正直な感想としてありました。
どのことが起きるかっていうと、
最初こそはいい感じに返信を返してくれるんですけども、
それこそ3,4ラリーをしているだけぐらいで意味不明な文字列を出力しだしたりとか、
ファイルに書き出しますって宣言してから、
結局返信の中にもファイルに書くコードとかメッセージを長々と返して終わるみたいなことをやっていて、
これはもちろんオープンコード上でのチューニングがまだされていない、出てきたモデルなので、
そっちの性質もありつつもツールユーズの性能が結構低くなってしまったんじゃないかなっていうふうな感想を受けました。
かつ、GLMって4.7の時に一番良くなかったのが、ロングコンテキストの性能が結構低かったんですよ。
ちょっとでも長い会話になるとも思考が破綻したりとか、
なんか尻滅裂な文章の生成が起きたりしていて、それがGLM5でかなり改善されてほとんど起きなくなったんですけど、
それがGLM5.1でまた起きるようになってしまった。
そういうような感じを受けてますね。
なるほどね。
結構なので、正直GLM5と5.1どっちがいいですかって言われると、
5でいいんじゃね?みたいな感覚で加えました。
5っていうか5ターボじゃない?俺のイメージで言うと。
5ターボが一番安定してるイメージがあるんだけど、どうなんだろう。
確かに安定感で言うと5ターボがいいなって思ったんだけど、
最近の動きを見てると5でも全然そんなにおかしくなることはなくなってるなって僕は感じたんです。
それが内部的なアップデートがあったのか何もわかんないんですけど。
なるほどね。
あんまり5ターボと5の違いは感じなくなってきてます。僕の中では。
それで言うと、今GLM5で5.1が安定しないみたいなのは、
俺、GLM5の時も結構感じてて、5ターボになった時に結構安定したなって思ってたんやけど、
そっから5は使ってなかったよね。
なんですけど、もしかしたら初期の不安定みたいなところなのかな。
追加で今チューニング中というか、みたいなのあるのかも。
あるのかもしれない。結局インフラありきなところもあって、
例えば5.1って結構トークンの速度が遅いって結構Xとかでも言われていて、
それって割とインフラキーンの話、どれだけトークンを処理できるかって話もあるので。
結局あれだよね、Go3のコーデックスパークとかのセレブラシのあれを使ってるのかみたいな、
計算機種源を使ってるのか、そういうのに近いってことやね。
近くて、そっち側の不安定さに引っ張られてる可能性もややあるのかなっていうのはあるので、
ちょっとまだ様子見なんだけど、現時点ではちょっと5.1使えないかもみたいな感覚を得ているっていう話ですね。
はいはいはい。なるほどね。
一方で昨日は調子良かったんですよ、少しだけ。
使ってていい回答。
それこそこの後喋ろうとしていたQN3.6 Proと全く同じタスクをさせてみたときに、
5.1だけちゃんと僕も分かってなかったようなことを発見して、
こういうのありますよと教えてくれて、いいじゃんっていうのは一瞬あったんですよ。
だからタイミングによっては安定して、そのときは性能はいいかもしれないんですけど、
でもそれについてもその後ちょっとさらに会話を続けてると、またシルメットリッドな生成が生まれていたりするので、
やっぱりどうしてもロングコンテキスト的な体制は低いんじゃないかなっていう。
前提20万トークンがちょっと低すぎるみたいなところはあるよね。
そうだね、20万が足りない。
もちろん大きいのは分かってる。
NLMの事業者目線でいうと20万トークン大きいでしょみたいな感じはあると思うけど、
僕らのGPT 5.4とかが100万トークンをサポートしてしまったが故に、
その感じで使っちゃうとみたいなのもあるよね。
最近のフロンティアモデルは100万トークンサポートする動きが、
オーパス4.6も100万トークン動かせるっていう前提で考えるとやっぱりちょっと心足りないなっていう。
だし、5.3コーデックスでも40万トークンあるしね、実際。
そうだね。
やっぱ倍違うのは違うよね。
全然違う。
なるほど。
僕が感じたNLM 5.1はちょっとね、まだまだ。
QNは?
Qwen 3.6 Plus Previewの評価:期待以上の性能
QN、これがね、僕最高だなって今のところは思ってます。
一応ちょっとすいません、話す前に。
QNを今オープンルーター上で無料で使えるようになってるんですけど、
一応プロンプトとか全部学習される前提でしか使えないっていう前提を持ってして、
一応オープンルーター上で無料で使えて、
オープンコード上でも無料で使えるんですけど、
それもおそらく学習されるだろうっていう、
ちょっとそこは分かんないんですけれども、
オープンコード上だったらどうかっていうのは分かんないけど、
基本的には学習されるために無料でプレビューマンで提供してるみたいな感じなのかなと思ってるんで、
使用する際はあんまり自分の本当にやってるプロジェクトには使わないほうがいいと思いますよっていう補足だけ。
結論結構良くて、非常にこれこそ今話していたようなロングコンテキストになっても全然耐えられるっていう。
これはもともとKuben 3.6 Proっていうのは100万トークンのコンテキストウィンドウをサポートしているっていうところの前提があるからだと思うんですけど、
比較的コミュニケーションが長くなったとしても、
全然性能が劣化するとか思考の質が低下しているっていうのはあんまり感じられないように思っています。
かつその推論力に関しても、結構オーパス4.6を使ってる時の感触に近くて、
コミュニケーションも良好だし、こういうことしてほしいって言ったらその指示に対する追従性能が結構高いっていうところがありました。
結構そういう意味では僕らでいうとこのオーマイオープンコードの刺繍ポスのエージェントとして
アトラスとか
そういうオーケストレーターを担うエージェントとして、
このQN3.6 Proを配置しても十分戦えるぐらいなんじゃないかって僕は感じるぐらいには非常によく動いてくれるモデルでした。
実際の頭の切れみたいなのはどんな感じなの?
頭の切れに関してはどうだろうな、すっごい複雑な問題をさせていたわけではないっていうところと、
さっき話したGLM5.1とQN3.6に同じタスクを指したときに、5.1しか僕が求めていたような機能の発見っていうのはできなかったっていうのが一個あるので、
すごい切れるかって言うと多分そうではなくて、どっちかというと汎用性の高いモデルみたいな感覚なのかな。
あとシステムの安定性の高さみたいなところなのかな。
そうだね、安定性のそういうのは感じますね。
確かに、今僕の前から言ってるマストラクローってマストラでオープンクローを持つみたいなのをちょうどオープンコードで無料だから、
しかも別に全然試しのプロジェクトみたいな感じだし、その資産を活かして自分のプロダクトに転用していこうというか、
うまく思想をチューニングできるのを一つの材料というかみたいな感じで考えてやってるだけだから、
学習されてもいいかっていう前提でそれを思いっきり回してたんやけど、
ある意味マストラの仕様を見て、オープンクローの今の仕様を見て、
マストラのコアの機能を使いそうだったらマストラを使うし、
オープンクロー独自でそういう独特な設計思想だったらカスタマイズして入れるし、
みたいなのを判断しながらタイプスクリプトで書いていくみたいな感じなんで、
多分なんかめっちゃ頭使うわけでもない、めちゃくちゃ本当にやったことないことをやるみたいなよりは
AIからすると楽な作業みたいな感じになった時に結構100万トークンコンテキストが結構効いてて、
ひたすらULWループってあるじゃん、OMO、オーマイオープンエージェントのやつで、
あのループ、ラルフループをひたすら一番初めのフロンプと投げてやり続けても、
全然劣化してる感じがなくて、延々と動き続けるみたいな感じになってたから、
そういう作業にはすごい良いんだろうね。しかもちゃんと分析として的を得てたから、
アホじゃないんだなっていう。
そうだね、少なくともアホではないね。
だってね、その中の説明でマストラのこの機能とかっていう説明があって、
おめちゃんこんな機能あるみたいだねみたいな感じで、
なんか俺らも実際学び合ったしね。
そうだよね。
だからなんか結構QN安定してるよね。
そうだね、安定。まず安定してるのが、このオーケストレートエージェントとしては結構大事だし、
あとコンテキストウィンドウの大きさっていうのがやっぱ大事だよね。
しかもなんかQN3.6ってそんな遅いわけではなくて、むしろちょっと早いよりのモデルかなって。
確かに確かに。
そのトークンの出力に関しては結構早めかなっていうふうに感じてて、
実際5とか5.1って、なんか僕の端末でオープンコード使ってる時にトークンのスピード測ってるんですけど、
5.1とか5って19TPSぐらいしか、20TPS前後しか出ないんですけど、
なんかQN3.6とかは30超えてるんで、やっぱ早いなっていう。
1.5倍ぐらい早いんだ。
1.5倍ぐらいの速度で動いてんだなっていうのは。
なんかそれもあれなのかな、さっき言ってた無駄な重複指向をやめるみたいなチューニングがされてるみたいな。
なんかそういうのが効いてるのかもね。
そういうの効いてるかもね。
なるほど。
それは思考の話か。思考の話だから、アウトプットの時の速さとはまたちょっと違うのかな。
まあいいや。
GLM-5.1の不安定さとQwen 3.6 Plusの安定性の比較
個人的にGLM5.1、ちなみに俺が使ってみてみたいなところで言うと、
もうまさに阿部ちゃんと同じような意味わかんない文字とか、
なんか動かなくて帰ってこなくなっちゃったみたいなとか、
サブエージェントが安定しないなっていう感覚と、
あとは今メインのオーケストレーターとしてGPT5.4、
100万トークン使えるやつを使ってるっていう前提になった時に、
そこそこ大きいタスクをやらせてるから、
そんだけ使えるんだったらっていうので。
そうした時に計画の時に出てきたタスクがそこそこ大きくて、
やっぱちょっと20万トークンが心持たないみたいな感覚になることが多いので、
サブエージェントとしてもちょっと辛そうだなっていうのを感じてて、
そうした時に5.1サブエージェント微妙かって思ってたんだけど、
阿部ちゃんが思考の切れみたいなところで、
5.1いい時もあるよみたいな話だったら、
この辺はコンテキストエンジニアリングの問題なのかなっていう感覚も得てて、
もっと計画の後に1回スラッシュコマンドで、
10万トークンコンテキストぐらいに収まるような計画を、
一つのサブエージェントに任すみたいなリュードにしてくださいみたいなのがうまくいくんだったら、
それはGN5.1で十分だよね、頭の良さもいいしみたいな。
結局今コンテキスト引動の問題で圧迫してくると変な挙動になるし、
ちょっと頭の切れも悪くなるみたいなのがボトルネックのだけで、
最大瞬間出力だけで言うと5.1の方がいいみたいな感じなのかなって。
なんか話聞いてるとね、俺はそういう使い方をしてないから感じることはできないんだけど。
確かに最初に立ち上げた計画のステップ、こういう計画で進めるっていうところを、
もう一段階細かくしてもらって、そのGLM5.1とかが全然コンテキストとして耐えるぐらいに落とし込んだときに、
そこを実行舞台として5.1にやらせたら切れるし、やってくれるんじゃないかなみたいなイメージかな。
まあそうだね。
いや、そう思って、まさにそうなってくると、とはいえそれでいけるってなったとしても、
この5.1の不安定さ怖いなって。
あと遅いからさ、一番簡単なやつ早いやつにやらせたいじゃん。
まあそうだね。
そこもネックになってくるよね。
じゃあ5ターボの方がいいのかなみたいな。GLM5ターボ。
そうなんだよね。中華系でよくある特性としてはやっぱり5.1もあるし、
こないだ話してたようなMIMO V2かな。
結局ちょっとコンテキスト長くなると破綻したりとか、
途中で急に同じことを連呼しだすとか、
そういう不安定さがあって、
そいつらをサブエージェントで使おうかって思うと、
まあ不安っちゃ不安だから。
不安よね。正しく動いてるのかわかんないもんね、正直。
最近それで僕がこういうの欲しいなと思ったのが、
サブエージェントとか、もちろんメインのエージェントとかもそうなんだけど、
そいつらをちょっと監視する。
その出力を1分おきぐらいにサンプリングして、
AIがおかしく挙動してないかっていうのは、
ローカルLLMとかで判定して、
やばそうだったらストップかけるみたいなガードレールみたいなのを、
オープンコードとかだとプラグインで、
そういうのに介入できる仕組みを作れる気がするので、
そういうのを作れたら結構安くて、
でもまあ頭の切れはいいんだけど、
コンテキストウィンドウ狭いような、
途中で暴れ出すみたいなね。
そういうのをうまく制御して、
コスパよくハンドリングできる可能性もあるかなみたいな、
ちょっと思ったりしました。
確かに。
コンテキストウィンドウの重要性と今後の展望
そういうの欲しいな。
実際俺だって5.1でやってたとき、
そんなことをやってたもんね。
なんか帰ってこなくなったりしたら、
サブエージェント今おかしくなってるから、
一回インターラップ止めて、
もう一回サブエージェント止まってるから立ち上げ直して、
もう一回お願いしますみたいな。
けどその時に、
同じセッションで続けたら、
結局おかしい状態のセッションで立ち上がるから、
全く新しいセッションで、
依頼し直してくださいみたいなこと言わないといけないけど、
それをちょっとちょびちょびやってくれるだけで全然違いそう。
そう。
っていうのができないかなと思って、
ちょうど僕はローカルLLMに、
昨日あたりちょっと手伝って。
あたっか調べてたんだ。
昨日の夜。
そういうのもあって。
なるほどね。
まあ、けど20万トークンはやっぱちょっと辛いよね。
まあもう辛くなってきたね。
まあ1年前とか20万トークンすげえって大騒ぎしてたけど、
うん。
もう今や100万トークン。
よくやってたよね。
いやー本当によくやってたなって思う。
うん。
まあ手元で動かす、
手元でっていうかまあ今も手元だけど、
なんだろう、
ほっぽり投げるみたいな前提じゃなくなってるっていう。
まあね。
なくなった。
そう思ったんだ。
うん。
うん。
そうだね。
前はなんかまあとにかく監視して出力をずっと見てるみたいな状態だったから。
うんうんうんうん。
だって比べたら、
今やらせてることのタスクの大きさっていうのが圧倒的に大きくなって。
だからこの前。
そうだね複雑性も増したしね。
そうだね。
確かに確かに。
それもあるな。
うん。
いやーQN3.6頑張ってほしいな。
いや、いやマジでちょっと楽しみです僕は。
あのー、
コーディングプラン。
うん。
とかで出てきてほしいですね。
はいはいはい。
多分あのアリバマのやつがさ、
アリバマのコーディングプランがさ、
もうなんか追加のあれをやめちゃったよね。
停止しちゃったよね。
あ、そうなんだ。
ん?あーそうなんだ。
そうそう。
確か。
またあれしてんのかな。
あー。
なんか俺がちょっと前に見たときに、
なんか新規募集を停止しますみたいな。
あ、そうなんだ。
うん。今はどうなんだろう。
あー、ライトプランの新規受付を終了します。
なるほどね。
3月20日時点で。
もう一個上のプランとかやったらあるのかもね。
プロプランか。
プロプランだったらある。
けどそれでも今あれかな。
まあドキュメント上で言うとQN3.5プラスが
一番大きいって感じかな。
あ、3.5プラスっていうモデルもあるんだ。
うん。3.5プラスっていうのがある。もともと。
あ、そうなんだ。それは知らなかった。
うん。そう。
で、それの上位モデル的な感じで出てきたっていう。
QN3.5いっぱいあるからね。
なんかクロードコードの上流したみたいなところもあるし。
あ、そうだね。QN3.5とかQNベースのモデルはいろいろあるみたいだね。
一応QN3.5プラスっていうやつが普通にサブスクとかで使えるやつみたいな。
立ち位置でいてっていう感じですね。
いやけどローカルLLMで100万トークンコンテキスト出てくるってすごいよね。ある意味。
うん。そうだね。
実際はデカすぎて動かせないけどさ。
すごいマシンが必要になるけど。
多分オープンソース化予定なのかな。
でもQN3.6プラスはGLM5よりもちゃんと頭いいなっていう感じがしますし。
前回Kimi2.5Kだっけな。
GLM5よりも頭いいんじゃないかって話があったけど結局微妙だったよねみたいな感じではなくて。
しっかりと使い心地としてもQN3.6プラスはいいっていう感覚を得てるので。
逆に言うとね、GLM5.1ですごい僕はショックを受けてるので。
GLMファンだったので僕は裏切られたなという気持ちで悲しい気持ちになってました。
あんなに期待して出てきた5.1があれみたいな感じだったんですけど。
直後にQN3.6プラスが出てきて助かりましたよ。
ね、確かに。
その他の注目モデルとまとめ
あとコーディングモデルじゃないけどHolo3ってやつが気になるね。
コンピューターユーズの特価のモデルみたいな。
5.4よりもいいベンチ出すっていうのがあるのと、
あと最近だとKATO Coder Pro V2っていう。
なんか出てきたね。
そうそう、あれもコーディングプラン出してるよね、あそこも。
あれもちょっと気になる。
実際どうなのかっていうのは分かんないけど。
あとね、Trinity Largeのプレビューってやつが今までオープンルーター上にあったんですけど、
それがもうちょっとで廃止されるんですよね。
オープンルーター上でずっと使ってたやつが。
Trinity Largeプレビューが4月10日にGoing Awayって書いてて、
ずっとフリーでやってたんだけど、
それが次Trinity Large Thinkingっていうやつが新しくオープンルーター上で出てて、
これのちょっとベンチは気になるなって思って。
インプットプライスが100万トークンコンテキストあたりで0.25ドルで、
アウトプットが0.9ドルなんですよね。相当安い。
安いですね、それも。
これがちょっとどういうモデルになるのかなっていうのがちょっと気になってる。
コンテキストの許容量は26万トークンかっていう感じらしいんだけど、
これはちょっと気になるなっていうふうに思ってます。
そんな感じですかね。
QAEN 3.6がこれ実際プレビューでフリーでしか使えないのが今の現状だけど、
ここが実際にAlibabaのコーディングプランとかに出てきたときに、
僕たちの選択肢に入ってきそうですね。
いや、非常に有力であると僕は思いますね。
なかなか有力な気がする。
そんな感じですかね。
結論、最後に総まとめとしては、
GLM 5.1は頭の切れはいいが安定性に難あり、ちょっと期待外れっていうところで、
QAEN 3.6プラスが思いのほか良かった100万トークンコンテキスト最高って感じなのかな。
そうだね。
超簡単に。
本当に中華モデルの毎日出てくるって感じすごいよね。新たなるモデルが。
大変よみんな、本当に。
僕らも大変ですよね、追いつくのが。
コンポーザーはまだ入れてないんですけど、って感じですね。
パッと使っただけじゃなかなかあれだから、そこそこ使って話さないといけないからね。
っていうのがあるので、もうちょっとお待ちくださいっていう感じですね。
あとあれかな、コンポーザー2が僕らの使い方に合ってないんですよね。
オープンコードでやるっていう前提。
一応使えるけど、
コンポーザー2って立ち位置的に難しいところにいるんですよね。
当てる場所がなくて困ってる。
役割として当てる場所が超微妙な感じなんですよね。
っていうのもちょっとある感じですね。
そんな感じです。
じゃあ今日はそんなもんですかね。
じゃあありがとうございました。
ありがとうございました。
本日もAI駆動開発部の事情をお聞きいただきありがとうございました。
いかがでしたでしょうか。
今回はGLM5.1とQA3.6プラスを実際にちょっと使ってみてどうだったかみたいな話をしました。
こんな感じでいろいろとモデルであったりとかツールとか使っているので、
もし気になる点とかあったらいつでもコメントお便りお待ちしております。
このPodcast気に入ってくれた方は、いいねやフォロー、高評価ぜひお願いいたします。
それではまた次回もお楽しみください。バイバイ。
32:45
コメント
スクロール