【ローカルLLM】いま話題の「Qwen3.5」をOllama使って自分のPCで動かしてみた！

近況報告とコーディングテストへの不安

どうもみなさん、Kudoでございます。この番組は、年間でアニメ200作品以上、漫画300作品以上、そしてゲームも年並み、

最近はAIにもどっぷりハマっている私、Kudoが、アニメ、漫画、ゲーム、AIの話をしたりしなかったりする番組です。

本日は2026年3月9日の月曜日。現在時刻は朝の10時35分となっております。

はい、3月9日という日曜日がありますよね。卒業シーズンですか?っていうか、もう終わったのか?

どうなんだ?卒業式とかね。まあ、7月からね、もう新年度になって、新生活がね、待ってる人なんかもいるんじゃないでしょうか。

まあ、そういう意味では3月は、まあ、ワクワクとドキドキと不安と、ドタバタとっていうね、

まあ、いろんな意味で忙しくもあり、春休みの期間でもね、あるよね。普通の、普通のっていうか、大学生はもうとっくに、たぶん春休み期間中だと思いますけど、

まあ、高校、中学、小学校とかは、春休み、まだか? 春休みって、なんかあってないようなもんじゃない?

なんか私の記憶だとそうなんですけど、今はどうなんでしょうか? うん、まあでも私もね、今ちょっとした春休みみたいなもんなんで、

まあ、やりたいことをいろいろやりつつも、4月からの仕事に向けて、今日の夕方ですね、面談が1個入っております。

こちらは本当に専攻に関わる面談なので、まあちょっとね、ちゃんと気合い入れて、別にカジュアル面談適当にやっていいってわけでもないですけど、

より一層ですね、気合いを入れて。コーディングのテストもあるそうなんで、不安です。大丈夫かな?

いやー、不安。それが一番不安。別に面接の受け答えとかは、もうね、なんとかなるかなって思ったりしてるんですけど、

コーディングテストがね、かなり不安。

あまり詳細は話せないっていうか、まあ私も全然知らないんですけど、具体的にどんなテストが行われるかってわかんないですけど、

実際にオンラインで面談するんですけど、画面共有しながらやるらしいんで、

ズルできないというか、いろいろ考えたんですよ。ちょっとセコいけど、横にそのAIエージェントというか、今日もちょっとAIの話しますけど、

別の画面とかで、AIの画面開いておいて、そこにテスト問題入力して、

AIに出してもらったやつを横目でチラチラ見ながら入力するみたいな、ちょっとズルいことも考えたんですけど、

画面共有しちゃってるから、不審な動きするとバレるなって思って。

なので、ちょっと厳しいかなっていう。そこまで難しい問題出ないとは予想してるんですけどね。

わかんないときはわかんないって正直に言った方がいいと思うんで、わかんないのにわかってる風なことを嘘をつこうとするのが一番良くないと思うので、

そこはできない場合はできないと言ったらいいんじゃないかなと思うんですけどね。

前も言ったけど、今コード書ける人ってどうなんだろう?

もちろん書けるに越したことはないけど、私自身は別にもうコード書けなくてもいいかなとは思ってます。

読めればいいかなっていう。コードはAIが書いてくれるんで、あとはその意味を理解できるかっていうところかな。

そうなるとでも書けなきゃダメなのかな?難しいですね。

コーディングテストもあるんで、あんまり準備してないんですけど、何とかなるやろうと思いながらも、ちょっと頑張ろうかなと思います。

番組からのお知らせとAIへの興味

というわけで、早速今日の本題に行きたいと思いますが、その前にお知らせです。

クドラジではお便り大募集しています。エピソードの概要欄にあるリンクからアクセスして送ってみてください。

SpotifyやYouTubeでお聞きの方はコメントもお待ちしています。

良ければ番組でフォローと評価もよろしくお願いします。

ということで、今日もAIの話で申し訳ないと言うとあれなんですけど、

クドラジのリスナーさんは、あまりAIとかに興味ある人がいないイメージ、私の中ではね。

私は好きで話してるんですけど、どれだけ皆さんがそういうのに興味を持って聞いてくれてるかはちょっとわかんないんですけど、

どっちかっていうとアニメとかゲームの話を聞きたいっていう人が多いのかなっていう感じがしますが、

逆にノートの方では、ポッドキャストからノートにしてるっていうのではあるんですけど、

ノートの方はね、やっぱりこういったテクノロジー系の話の方が伸びるんですよね。

最近だと確定申告の話をした回があったと思うんですけど、

あれとかね、多分クドラジじゃそんなに求められてないと思うんだけど、

ノートの方なんかはね、いいねが10件以上も確かついたりしてて、

最近だと一番読まれてるというか、評判というかな記事なのかなって思ったりしてるんですけど、

あれも別に確定申告が多分人気というか伸びたっていうよりかは、

オブシリアンとかそういったAI系の話だからなのかなって思ったりはしてます。

オブシリアンなのかな?

前もオブシリアンの話したときね、そこそこ伸びたんだよね。

みんなオブシリアンに興味があるって感じ?

わかんないんですけど、

オブシリアンね、私もそこそこ活用してるつもりではあるんで、

興味がある人いたらぜひノートなりクドラジなり聞いてもらえたらなと思いますが、

今日はAIの話ではあるんですけど、

その中でもローカルLLMと呼ばれるものの話になります。

ローカルLLMへの初挑戦と断念

実はこれも、

いつだ?今年か去年かちょっと覚えてないんだけど、

少し前に、

去年かな?

今もそうですけど、私同人活動というか同人作品を今作ってて、

それがいわゆる成人向けの大人向けのコンテンツになるわけですよ。

皆さんご存じの通り、クロードとかチャットGPTとか、

でも今チャットGPTはアダルトモードみたいな解禁されるみたいな話ありましたけど、

基本的にはジミニーも含めて、

そういった成人向けコンテンツみたいなとか、

もちろん犯罪に関わることとか、

そういったのは出力できないようになってるんですよ。

で、なってるんで、

エッチなコンテンツ作りたいとなった時に、

なんかエッチなワードを含んだ回答を求めようとすると、

回答できませんみたいな。

それはポリシーに違反してますみたいな感じになって、

答えてくれないんですよね。

っていうのがあったんで、

これはもうクロードとかじゃダメなのかなって思って、

ローカルLLMに去年かな、

ちょっと挑戦したことがあったんですよ。

その時はLM Studioというアプリケーションですかね、

パソコンのアプリケーションがあるんですけど、

それを入れて、そこでモデルを探して、

いろいろ勉強になったんですけど、

ローカルLLM、オープンソースで公開されてる全てのモデルが、

そういうエッチなコンテンツとかに対応というか、

出せるわけではないと。

私の中ではオープンソースだったら全部いけんじゃねえって思ってたんですよ。

なんかそういう感覚だったんですけど、

そういうわけじゃなくて、基本的に制限かかってると思った方が良くて、

制限かかってないモデルっていうのがあるんですよね。

ちょっと何て言ったかわかんないけど、

あるんですよ。

世界の紳士たちがそういった制限を解除したモデルっていうのが存在してまして、

それを使うことで、

成人向けのコンテンツとか出力ができるということで、

なるほどなっていうふうになったんですけど、

ただですね、

重い。

ローカルLLMの唯一の弱点と言ってもいいかもしれないけど、

結局自分のパソコンで動かすことになるので、

パソコンのスペックに依存するんですよね。

だから性能がいいものとかスピードを求めようとすると、

どうしてもすごいいいスペックのパソコンが必要になると。

私の場合は、

3,4年くらい前、

もう5年はたってないかな。

前に組んだ自作パソコンがあって、

GeForceのRTX3080っていうグラボを使ってるわけですよ、今もね。

それで動かしたんですけど、

まあ重い。

もうGPU結構うなってたし、

で、うなる割には大した出力出ないし、

あと1個ね、海外の調整というか、

基本英語で調整されてるので、日本語の出力が変。

微妙。

っていうのもあって、

これ全然使い物にならんわみたいな。

確かにそういったエロい出力とか、

政治向けの出力出せるけど、

これじゃあちょっとお話にならないなってことで、

断念したんですよね。

結局全然使い物にならんわっていうことで、

諦めました。

で、そこから、

現在の同人活動とClaudeの活用

じゃあ今どうやって、

同人活動みたいなことやってるかって話ですよね。

AI結構ガッツリ使って、

AIにそういった出力させてるんですけど、

これは実は、

今回話すローカルLLMとは全然関係なくて、

実は普通にクロードとかでやってます。

多分だけど、

多分ね、これはローカルLLM関係なく、

私の推測ですけど、

ゼロからそういった言葉とかを出させようとするのが、

多分無理なんじゃないかなと思ってるんですよね。

こちらからそういった言葉とかワードを、

教えるとはちょっと違うんだけど、

こういう出力してみたいな、

こういう単語言ってっていうふうに言うと、

言ってくれるんじゃないかなとは思ってます。

ただ繰り返すというか、

難しいな。

これ性格じゃないので分かんないですけど、

ちなみにクロードコードでやってます。

普通のクロードのチャット上では、

やったけど、

それこそ最初から教え込むというか、

こういう出力っていうか、そういう認識ができるんだよ。

例えば画像生成の中で、

このプロンプトは大丈夫だけど、

この部分はエロいワードだよねっていう、

センシティブなワードだよねっていうのは認識してるみたいで、

そこだけ除外するとか、

そこだけ別で出力するみたいなことはできたんですよ。

なんでゼロから向こうからそういうのを引き出すっていうのは、

かなり厳しいと思うんだけど、

こちらから教え込むというか、

ある程度参考になるようなプロンプトみたいなものを渡しておくと、

そういったのを出してくれたりっていうのが分かったんですよね。

クロードコードでかなりできるか心配だったんだけど、

普通にお願いしたら普通に出してくれたんで、

お前結構いけるなみたいな。

お前大人じゃんみたいな感じでね。

普通に今じゃ当たり前のように、

そういった答えにも回答してくれるんで、

もうローカルLLMいらないなってなってたんですよね。

私の目的としては。

だったんだけど、

話題のQwen3.5の導入と評価

ここに来てですね、ちょっとまた新しい、

今話題なのかな?ここ最近かな?話題になってた、

クエン3.5というモデルが出たんですよ。

知ってる方は知ってるかもしれませんが、

これもローカルLLMと呼ばれる、

オープンソースのアリババかな?

中国のアリババが開発したオープンソースの

大規模言語モデルと呼ばれるものなんですけど、

これがですね、結構いろいろ話題になってて、

話題になった理由の一つとして、

すごく軽い。

モデルもいろいろあるんですよ。

パラメータっていうのかな?

パラメータの大きさによって、

サイズとか、

グラフィックボードでどれぐらい動くかみたいなのが

決まったりするんですけど、

それがすごい軽いモデルがあるって話で、

それがすごく話題になってたんで、

別に今ローカルLLM特別必要ってことではないんだけど、

ちょっと入れてみるかみたいな。

というのも私、

今クロードは週間制限がついてて、

結構制限を食らってるんですよね。

アンチグラビティも一応使えるんだけど、

アンチグラビティのクロードオーパス4.6シンキングとか、

クロードモデルの仕様も実は使いすぎて、

今制限からってもう使えないんですよ。

だから今、ジェミニー3.1プロ範囲のモデルでやったり、

1日クロードコードをちょっとだけ使うみたいな感じでやってたんで、

ちょっと大したことじゃないけど、

LLMに相談したいなみたいなときに、

もしかしてローカルLLM入ってれば便利かなって思って、

これだけちょっと話題になってたから、

入れてみようと思って、

今回クエン3.5っていうのを自分のパソコンに入れてみました。

かつ今回は、前LM Studioっていうのを使ったんですけど、

今回はこれはオーラマでいいのかな?

いつも読み方わかんないんだけどね。オラマ?

なんかいろんな人がいろんな読み方するから、

ちょっとよくわかんないんだけど、

OLMAってやつだね。

メタが作ってるやつなのかな?

っていうのがあって、

これはCLI、コマンドラインで動かせるやつなんですけど、

それを入れてですね、クエン3.5のモデルを入れてみました。

ちなみに私は、さっき言ったようにRTX 3080という、

性能低いわけじゃないけど、そんな新しいやつでもないので、

最新のRTX 50とかに比べると劣るので、

しかもパソコン上で動くから、

他の作業に支障があっては困るということで、

パラメータは4B、4ビリオン、10億かな?

ごめん、間違ってたら申し訳ないんだけど、

4Bと呼ばれるパラメータのやつを入れて、

使ってみたんですけど、

結論、悪くない。

そこそこいいぞというふうになってます。

評判通りのモデルだなという感じです。

4B、4ビリオンのパラメータだからっていうのもあるのかもしれないんですけど、

私の3080でもそこまで重くならずに、

若干、しかも処理早いんですよ。

処理が早いから、

なんかチャット送るじゃないですか、

例えばこんにちはとかでもいいんですけど、

送ってから、いろいろ試行してるのかな?

試行過程みたいなのがいっぱい英語で出てくるんですけど、

早い。めちゃくちゃ早いです。

めちゃくちゃ早くて、結構すぐ回答を返してくれるんですよ。

その間、ちょっとGPUのファンが、

ちょっと回転数上がってるかな?みたいな音でね。

ぐらいの感じ。

なので、ずっとうううううみたいな、

すごい唸るみたいなことは全然なくて、

処理も早いし、軽いし、

っていうので、これいけるぞと。

これは良いモデルだというふうに感じました。

もちろん、パラメーターがでかくなる、

Qwen3.5のモデルサイズとPCスペック

っていうか、でかいモデルだと、

またちょっと違ってくると思うんですけどね。

QBとかもあったかな?

QBillionっていうのもあったんだけど、

それだと、私のGPUのメモリっていうのが、

VRAMっていうのが、

10から12、私の場合は10かな?

しかないんで、結構使っちゃうらしいんですよ。

あまりVRAMを圧迫するのは嫌だなって思って、

4Bの方にしたんですけど、

QBも一応動くには動くみたいです。

AIに相談して聞いたんだけどね。

今は一番低くもないのかな?

いろいろオーラマの方を見たら、

モデルがいくつかあったんですけど、

ちょっと見てみようか。

オーラマの、

クエン3.5かな?

クエン3.5ですね。

見ると、3.5レイテスト8B。

2Bっていうのもありますね。

8Bが一番サイズが小っちゃいですね。

1GBぐらいしかないね。

これが一番軽いのかな?

8Bっていうのは何なんだろう?

8ビリオン?

0.8ビリオンだこれ。

なるほど、だから軽いのか。

ついでに2ビリオンかな?

これ2.7GB。

私が今回入れた4ビリオンっていうのが、

3.4GB。

これはサイズの話です。

一番レイテストって書いてるのが、

これ9ビリオンかな?

これが6.6GBなので、

ある程度のグラボを持ってて、

実用性が一番ありそうなのが、

やっぱり9Bかなっていう感じがしますね。

RTXの50とか、

50とかだったらもうちょっと、

50もね、5090とかってなると、

また話は別かもしれないけど、

私のパソコンでも多分9Bは動くんじゃないかな、

ぐらいの感じですね。

その上に27ビリオン、

35B、122Bっていう風に上がっていきます。

122ビリオンまでいくと、

81GBもストレージ組んで、

いいモデルなんでしょうけどね。

あとはオーラもクラウドモデルもあるんで、

クラウドとかのモデルもあったりします。

私は4Bでいいかなというか、

ちょうどいいですね。

パソコンの処理の負荷の感じと、

性能の感じがちょうどいいバランスなのかな、

って思ってるのが4B。

9Bちょっと使ってないんで分かんないですけど、

今のところ4B、9Bぐらいがちょうどいいかなと、

いう風に感じてます。

Qwen3.5の性能とスマホでの活用可能性

なので、もちろんこのクエン3.5は、

さっき言ったようなエロの解禁されてる、

制限解除されてるモデルじゃないので、

そういったのはできないです。

そういったのには対応してはいないんですけど、

でもね、日本語性能も結構高いかなっていう、

さっきも言ったように早いんだけど、

回答も結構ちゃんとしてます。

そこそこちゃんと日本語で送っても、

ちゃんと日本語で意味わからん日本語返してくる

とかもなくて、

普通に動かせるんでめっちゃいいですよ。

これちょっとAIに調べてもらった話ですけど、

スマホでも動かせるらしいです。

さっき言ったような0.8ビリオンとか、

使うとしたら。

なので、スマホとかでも動かせるレベルの

モデルも用意されてるから、

だから本当にスペックに合わせて選べるっていうのが

すごくいいかなと思います。

あとはテキストだけじゃなくて、

画像認識、コーディング、ツール呼び出しとか、

結構AIエージェントの基礎能力っていうのが

高く設計されているそうです。

あとは何かあったかな、情報。

ローカルLLMの一番のメリットとしては、

パソコンが動く限り無限に使えるっていうところですね。

無料で無限。

もちろん初期投資は必要ですよ。

グラブを買ったりパソコン買ったりっていう

初期投資は必要ですけど、

それさえあれば払ってしまえば、

あとはいくらでも買い切り型って感じかな。

なのでサブスクリプションとかの

毎月の料金にビクビクすることなく、

いくらでも相談できる、チャットできるっていうのが

いいところかなとは思います。

ただ具体的に今、

ローカルLLMの活用アイデアと模索

私はクロードコードとかアンチグラビティで

ジェミニとかクロードのモデル使ってますけど、

じゃあこのクエン3.5どこに組み込むかっていうのは、

ちょっとまだわかんないかなっていう。

まだアイディアがないというか、

ジェミニとかクロードでも全然動くし、

わざわざローカルLLMを動かす用途って何だろう

っていうのはあります。

もちろんね、ただで動かせるから

テスト的にやってみてもいいかなとか

思ったりするんですけど、

ARに一応聞いて、こういうのはどうですかっていう風に

教えてもらった活用方法としては、

やっぱり会社とかのマルヒ資料とか、

公開前のプロジェクトのアイディアとか、

個人的な日記などを気兼ねなく入力して

要約させたり、壁打ち相手として使うと。

だから自分のパソコン上で動くものなので、

データを抜き取られることがない、

プライバシーの観点では最強ですよね。

自分のパソコン上で全て完結するから。

あとオフラインでも使えるっていうのも

メリットかな。

今でも自宅にいて、

自宅じゃなくてもいいけど、

パソコン持って山奥でネットも繋がらないような

圏外になるようなところで使うって、

災害時とかかな。

デスクトップパソコンだとそもそも電気が

通ってなかったりしたら、パソコンすら起動できないんで

あれですけど、スマホだったら

私の場合は

Google AI Edge Galleryっていう

アプリケーションを入れてて、

スマホでもローカルのLLM

動くようになってるんですけど、

そこにはクエン3.5はまだ来てないのかな。

これ自分でインストールしたりもできたはずなんですけど、

今クエンだと2.5の1.5Bぐらいが

私のスマホには入ってたりするんですけどね。

なのでスマホでローカルLLM動かすのは、

いざという時に役に立つかもしれないですね。

本当に災害時、県外になって

これどうしたらいいんだろうみたいな

そういう危機的状況になった時に解決策が分からない

ってなった場合、ネットに繋がらなくても

手元にAIがいて、いろいろアドバイスくれたりとか

してくれたら心強いんじゃないですか。

もちろんスマホの充電が続く限りっていう制限は

ありますけど。

自分専用のナレッジベース

ラグを構築するとか

オーシリアンなどメモアプリと連携し

自分の過去のメモや個人的なPDFシルだけ読み込ませて

そこから答えを探してくれる完全プライベートな秘書AIを作る。

これはクロードとかでやっちゃってるからね。

わざわざローカルLLMでやらせる

個人のデータが

学習されるかもしれないっていうのが

すっげえ気になるんだったらやっぱ

ローカルLLMに

させるっていうのもありかなと思いますけど。

あとは

開発環境と連携してAPIのトークン消費を

一切気にすることなく無限にコードを生成したり

エラーのデバッグを任せられる。

これさっき言ったやつですね。いくらでも処理できると。

そのぐらいかな。

あとは

これできるって言ってたかな。

あくまでもクロードとかジェミニとか

頭がいい、トークン消費するモデルは

脳みそ。

一番頭を使う重要な部分は

ジェミニとかクロードに任せて

その

ジェミニとかクロードが立てたプランとか

作業内容を実際に処理するのが

ローカルLLMに任せるとかね。

前にオーパスプランという

モードを話したと思うんですけど

オーパスで計画させてソネットに実行させる

っていうのがありましたけどね。

それのローカルLLM版

みたいな感じかな。

どうなんかな。

オーパスで

めっちゃ難しい内容を考えて

その作業をソネットにやらせて

さらにソネットの中でも

これは間違わないだろうみたいな作業を

ローカルLLMでやらせるとか。

会社で例えると

オーパスが

社長みたいな。

その下に

部長みたいなのがいて

部長のさらに下に部下がいてみたいな。

部長の次。課長とか。

課長の下は

リーダーとかチームリーダー

そして一般社員みたいな感じで。

だから順番に

モデルの性能的に上から順番に

割り当てていって最終的な作業をするのは

一番下の平社員

というか下っ端のローカルLLMに動かせば

動いてもらえば

コスト的には下がるのか分からないけど

それが効率いいのかどうか分からないけどね。

結局上からの命令が一番下までちゃんと

いってるのかどうかっていうのは怪しいけど

そういう使い方もできるのかなと思ったりしてます。

今のところは

VPS利用とConfig UIでの活用

スマホに入れて動かすのが

一番無難な気がしますね。

わざわざパソコンで

動かすメリット。

前に

VPSを借りて

オープンクローとかね。

今やってる人いると思うんですけど

VPS借りてオープンクロー動かすとかね。

あれもねローカルLLM

噛みすぎる

ローカルLLM使えば

クロードとかのトークン消費しなくていいんじゃねって思って

いけんのかなって調べたら

VPSはGPUを搭載してるわけじゃないんで

クエンみたいなモデルを

動かすときは

GPUサーバーみたいな

そういうのをレンタルすることになるらしくて

GPUサーバーって高いんだよね。

高いんであまり現実的じゃないねみたいな話になったんだよね。

だから

分かんない。

みんなどういう使い方してるんだろうこのモデル。

私が一つ見たのは

Config UIとかで使ってる人もいましたね。

Config UIで

日本語で打ったプロンプトを

ノード上で

英語に置換してくれるみたいな

プロンプト最適化してやってくれるみたいな

いちいち日本語のプロンプトから英語に翻訳するっていうのを

自分で手作業でやらなくていいっていう

みたいなことをやってたりとか

そういうのもできるんですけどね。

これくらいかな。

Qwen3.5の活用方法募集と今後の展望

もしこれ聞いてる人の中で

こういうアイディアありますよみたいなあれば

ぜひ教えてほしいです。

実際入れてはみたんだけど

どう活用したもんかなみたいな感じになってます。

私に

使いこなす能力がないんだけかもしれませんけど

アイディアあったら

ぜひアドバイスください。

というわけで結構長くなっちゃったな。

30分以上喋ってる。

今日はローカルLLMの

クエン3.5という

モデルについて話してみました。

そうですね。

別に

進めるとかではないんですけど

興味がある方はぜひ

スマホで動かせる軽量サイズとかもあるみたいなので

個人的にやっぱりスマホかな。

スマホで動かせるようにしておくの面白いと思います。

私もちょっとやってみようかな。

Google AI Edge Galleryにクエン3.5のモデルを

入れて

どれくらいがいいんだろうね。

パラメーターでいくと

2Bくらい

4Bで動くのかな。

サイズが

3.4GBでしょ。

今私のやつに入ってるやつって

ゲンマ

ゲンマのモデルが

4.9GBくらいあるんで

4Bももしかしたら動くかもね。

スマホでもやってみないとわからないですけど

そこもAIと相談しながら

やってみようかなと思います。

性能に関しては申し分ないくらいなんで

ぜひ皆さんもスマホに入れて

ローカルLLM遊んでみてはいかがでしょうか。

詳しい方がいたらぜひ

活用方法アドバイスください。

今回はここまでにしたいと思います。

ここまで聞いていただきありがとうございました。

それではまた次の配信でお会いしましょう。

バイバイ。

総スター数

エピソードをシェアする

Instagram シェア画像

埋め込みプレイヤーのカスタマイズ

プレビュー

カラーテーマ

メッセージを送信

Kudo

感想

サマリー

目次

総スター数

コメント

感想を書く

こちらもおすすめ