28【期待のKimi K2.5を使ってみた】OpenCodeで検証した結果

中華モデルの現状とKimi K2.5への期待

こんにちは、AI駆動開発部の日常へようこそ。このポッドキャストは、日々AI駆動開発を行う、

企業課の山本とエンジニアの阿部が、 AI駆動開発のリアルを緩く語り合う番組です。

はい、じゃあよろしくお願いいたします。

はい、お願いします。

はい、じゃあ最近ね、中華モデルが、 GLMもそうですけれども、かなりいい感じの雰囲気。

言っときましょうかね。いい感じの雰囲気を醸し出しているので、

ちょっとその辺をどれくらい使えるものなのかとか、含めて、僕たちもちょっと試しているので、

その辺りの知見をシェアできればなというふうに思っています。

以前から話していると、GLM5は、うちも簡単なタスクに関しては導入していけているというような形で、

最近だとGLM5ターボに早いほうがいいから、多少性能劣化はありつつも、全然GLMターボでも動くっていうところがあるので、

GLM5ターボを扱っているっていう先手なんですけれども、

もうちょっとやっぱりオープンAIモデルから依存をなくしたいよねという僕たちの思いもあり、

いろんな特性の持つモデルっていうのを試し使いしているっていうのが、

ちょっと最近の動きみたいな感じにはなるんですけれども、

Kimi K2.5の概要と期待値

その中で、KimiK 2.5っていうモデルですね。

最近だと母さんのComposer 2のモデルの元になっているみたいな話題になっているやつなんですけれども、

そこをちょっと僕は正直、阿部ちゃんに人柱になってもらっているみたいな感じがあって、

オープンコード上でめっちゃ使っているみたいな感じではないですっていうのが前提としてあるんですけど、

ちょっと最近、阿部ちゃんにも使ってもらっているっていうのがあったんで、

その辺の使用感とかシェアしてもらえたらいいかなというふうに思っています。

ちょっとざっくりとKimiK 2.5の概要というか、

どういう特性のあるモデルだよと言われているかみたいなところに関しての説明をすると、

ベンチマークとかその辺は見てもらったら分かるんで割愛するんですけれども、

Kimi自体が、モデルの特性というかKimi自体がどうしているかみたいなところで言うと、

エージェントスワームっていう機能というか、Kimiの機能があって、

それは大軍のように、軍勢のようにエージェントが動いてみたいな、

よりマルチエージェント駆動で動くみたいなところを推していたりとか、

あとはマルチモーダル、画像をちゃんと認識しますよみたいなところとか、

その辺りの特性があります。

結構いろいろな、見ている限りはデザインとかも結構うまく作ってくれるのかなみたいな感じの感覚を、

情報からは見て取れるみたいな感じなんですけれども、

なのでオープンコードで言うところのAtlasとかSysiuposみたいなオーケストレーターのモデルであったりとか、

あとはビジュアルコーディングの部分とか、

あとマルチモーダルのいわゆる画像とかを認識するような役のエージェントとしてとか、

その辺の役としてKimiK 2.5っていいんじゃないかなみたいなのを感じましたっていうところがあって、

ちょっと使ってみたいなみたいなところがあったんで、

アメちゃんに人柱になってもらって使ってもらってるっていうのがちょっと最近なんですけれども、

実際に使ってもらう前にKimiのアプリでね、

アプリ上でうちが作ってるサイトのLPを修正してもらったんですよね。

それがもうめちゃめちゃ良くて、うまくナノバナナとかで画像生成もしてすごくいい感じのLPに仕上げてくれて、

それをちょっと参考にしてまた改善できたりとかもあったんで、

結構期待値は僕の中で高かったみたいなのがあったんですけど、

その中でアメちゃん実際に使ってどうだったかみたいなところで、

ちょっと話聞ければなというふうに思っております。

OpenCode上でのKimi K2.5の実践的な評価

実際アメちゃん使ってみてどうだったの?

いや結構期待してたんですよ、僕も。

GLM5よりも安定するんじゃないかなみたいな。

僕もLP見て結構出来が良かったなって思っていて、

これは期待だぞと思って、

実際シシューポスっていうオープンコード上のオーケストレーションになるモデルとして、

KimiK 2.5を与えて、

比較的簡単なタスクだったり、

ちょっと調査してもらって、それに対してどう対処すればいいかっていうのが、

そんなに複雑ではないものをまず検証ガテラに使ってみたんですよ。

結論僕の中で結構、

誤った判断を下してしまう瞬間があるなって感じていて、

あれなんですよね、GLM5とかだと割としっかりと考えて、

そんなに外れてない、それなりに良い推論でもって、

どういうふうに問題を直せばいいかっていう答えまで導いてくれるんですけど、

KimiK 2.5っていうのは、本当に狭い領域の、

このファイルを見て処理を答えてくださいとかっていうぐらいであれば、

しっかり答えてくれるのはもちろんなんですけど、

一方でいろいろログを確認したりとか、

いろんな情報をもとに最終的に何に問題があってどうすればいいかみたいな分析して、

回答を出すっていうのには、まだちょっと一歩及ばずなのかなっていう感覚でした。

肌感としては、そのGLM5っていうのが今GLMモデルの中で一番頭がいい。

僕の中では結構評価が高いモデルなんですけど、

その1世代前のGLM4.7っていうのが結構ひどかったって言ったらあれなんですけど、

あんまりうまくワークしなかったんですよ。

ここでよくあった問題っていうのが、

コンテキストが少し長くなったりすると、

もうちょっと前に話してた内容をすっかり忘れてしまって、

もう暴走し始める。質問してたのに急に実装に取り掛かるみたいな。

あとはコンパクションされた時とかも、

結局コンパクションで完全に過去の話も忘れ去って、

また暴走するみたいなことをよく起こしていたんですけど、

まさにそのGLM2.5の動きがそれにちょっと近いんですよね。

ちょっとロングコンテキストなタスクには向かない。

まさに1問1答だったらいけるけど、ちょっと分析したり調査したり、

そしてどうすべきかっていう。

推論していくっていうのには向かないのかなっていうような感覚でした。

なるほど。

そうすると結局結論としてはGLMのほうがいいっていうのがあって。

そうだね。結論はGLMのほうがいいなって感じですね。

GLMモデルとの比較とKimi K2.5の課題

そうすると君のアプリがいいのかな。

ウェブサイト作りのワークフローでお願いしたいよね。

すごいいい感じに要件作ってみたいな、

ステップワイステップで進めてくれて、

必要に応じてナノバナナ使ってみたいな。

ツールユーズも結構強いみたいなの書いてたから、

結構いいんだって思ってたけど、君のアプリがよかったって感じなのかな。

もしかするとそっち側でうまくチューニングされているがゆえに。

あと結構ワークフロー組まれてるのかなみたいな。

ヤマちゃんがサイト作ってるときにコンセプトを確認しますとか、

サイトの中身を確認します。

そこからどういうふうにすればいいかっていうのをチェックしますよね。

ワークフローチックに動いてるなみたいな感覚もあった。

見てて感じたので。

あれは完全にワークフローだね。

そこで縛ってるからこそはっきりできてるのかなみたいな気がしましたね。

なるほど。じゃあ不採用って感じですかね、うちのあれで言うと。

そうですね、実習ポスには不採用かな。

Kimi K2.5の応用可能性とコスト

なんかこうExplorerとか、Explorerっていうファイルの中身、

実装を確認しに行くであったり、

ウェブで検索して情報収集するとかには全然使えるんじゃないかなっていうのは感じてる。

なるほど。

けどそれって別にもうどのモデルでもお願いしていいよねっていうタスクよね。

KIMI 2.5が爆安だったらめっちゃありって感じかな。

でもコーディングモデル、そんなGLMよりも安いってわけでもないんですよね、確か。

どっちかと言うと多分、安いみたいなモデルで言うと、

次のエピソードとかで話したらなと思うんですけど、

MINIMAXの2.7とか、あっちが中華系の中でも安いモデルみたいな感じのイメージで、

KIMIはめっちゃ安いっていうわけでは別にないっていう感じかな。

もちろんね、フロンティアモデルと比べて安いのは間違いないけど。

うんうん。

って感じかな。

不採用ですよね。

不採用ですね。

ベースモデルとしてのKimi K2.5のポテンシャル

不採用ですね。

そっか。

そりゃ残念だ。

ただあれなのかな。

コンポーザー2で結構みんな良かったみたいな感じの。

うんうん。

確かこれパラメーター数がめっちゃ大きいんよね、KIMIって。

うんうんうんうん。

だからその、自己学習みたいな、自分たちでもう一回再チューニングするみたいなのには向いてるっていうことなのかもしれないね、もしかしたら。

うんうんうん。

なんか、かわさの公式のアナウンスかな、そのKIMI 2.5を選んだ理由は、

なんかパラメーターの大きさみたいな話はしてましたよね。

だから学習させる余白というか、詰め込める知識量があるっていう。

だからベースモデルとして言う、ベースモデルというか、これからあともう一回自己学習しますみたいなモデルとして優秀っていう感じなのかな。

素で使うのはちょっとみたいな感じなのかもしれない。

もしかしたら。

コンポーザー2があれだけ安くて、かつパフォーマンスが高いと言われているくらいなので、ちょっとそっちも気になってくるけどね、そうなると。

まあね、そっちは気になるよね。てか普通に気になるけど、うちオープンコード使ってるから、ちょっとまだ使おうってなってないっていう感じよね。

なんかちょっとコンポーザー2の話になると、なんかあれなのかな。

オープンコードで基本的にエージェント駆動開発みたいなのやって、手元でバンバン回す系の開発はコンポーザー2とかちょっと早いモデルでやるみたいな。

エンジニアの人だったらそういう使い分けみたいなのはあるかもしれないよね。

俺とかだとエージェント駆動開発しかやりようがないけど。

確かに。結構軽量なモデルである程度見えてるものはサクサク進めてもらうっていうのは、僕もたまにやるからそっちでコンポーザー2を使うとか。

まあそれぐらいだったらギリギリ君2.5も耐えれるかな。僕はもう監視して、僕の手足になってもらうぐらいの感覚で使うんだったらギリギリ君2.5いけるかなどうかなみたいなのはあるかも。

ちょっと切れてるかもしれないけど、なんでこれこっちになったんだよみたいな。切れは発生するかもしれないけど、使えるかもなって感じではありますね。

今後のモデル動向と今回のまとめ

じゃあ次のモデルに候補期待ということで。

そうですね。そろそろ出てくるんじゃないですかって話もしてたけどきっと。

まあね、周期的には出てきそうだし、GLM5.1の話もね、ちょっともうそろそろ出るんじゃないかみたいなね、COAの人が言ってたりとかね、するし。

まあまあ、どうひっくり返るかわかんないっていうのが、このあれだからね。

ゴールデンウィーク頃にはまた出てきてくれる。

確かに。

ちょっと今日はあっさりですが、ちょっと君K2.5ちょっと実際に阿部ちゃんが使ってみてみたいなところの話でした。

まあそんなもんすかね。

はい。じゃあありがとうございました。

ありがとうございます。

本日もAI駆動開発部の事情をお聞きいただきありがとうございました。いかがでしたでしょうか。

今回は君K2.5を実際にオープンコード上で使ってみてどうだったかっていうところの話になりました。

こんな感じでいろいろとモデルとかも使って試してるとかしていってるので、ぜひコメントとか気になるトピックとかあればお便りとかいただけると嬉しいです。

このPodcastを気に入ってくれた方は、いいねやフォロー、高評価ぜひお願いいたします。

それではまた次回もお楽しみください。バイバイ。

総スター数

エピソードをシェアする

Instagram シェア画像

埋め込みプレイヤーのカスタマイズ

プレビュー

カラーテーマ

メッセージを送信

AI駆動開発部の日常

感想

サマリー

目次

総スター数

コメント

感想を書く

こちらもおすすめ