こんばんは。 2025年5月12日、朝3時頃の収録です。
今回はAIGrokについての話題となります。
以前Grokをめちゃくちゃ使い倒してるみたいな話しました。
なんかめちゃくちゃ有効活用、いろんなことしてるとかっていうよりは、日々の日常的な相談相手として、
もう収録時中本当に1日のうち7割ぐらいずっと話しかけてるんじゃないか、ぐらいな感じで使っていた時期がありました。
そこから、いろんな各AIのサービスって、進化が激しいので別のもの触ったりとか、いろんなことがある中、Grokをちょっと使わない時期がありました。
その時に問題だったのが、1つのスレッドでめちゃくちゃ長くやり取りをしていると、
これ後で調べてみたら、多分38万文字分ぐらい、Grokが返してくる文章量も含めて、俺が聞いた文章量も含めて38万文字ぐらいに行くと、
完全に沈黙してしまう、みたいな状況があり、なんか上手いこといかない。
何て言うんだろう、そのさ、1つのスレッドの中で、だったらさ、このスレッド内の最初の方に話したことも全部当然記憶していて、
ずっと何かの話をした時に、さっき話してたあれですね、みたいな感じで繋げて当然会話になるわけで、
これがスレッドが完全にストップしてしまって、新規スレッドにすると情報がまたいで、要は記憶機能的に動作はしてくれないので、
というところで悩ましいところがあった、というところもあって、ちょっと別のAIもいろいろ試しながらという感じになったんだと思います。
そんな中、4月ぐらいだったっけ、GlockにまずAI、あ、違う、メモリ機能、長期記憶機能がついたっていう話が上がりました。
ついたのはいいんだけど、それってGlockアプリとかGlock.comだっけ、ドメインちゃんと分かんないけど、X版ではその機能はついてなかったんだよね。
個人的には、そのさ、散々使ってたのはXのほうのGlockとのやり取りだったので、そこについてくんなきゃあんまり意味がないというか、
そもそも過去の会話の履歴まで遡ってみてくれるのか、機能が実装されても、どんなのか分かんないんだけど、みたいな感じで、使わなくなった中、
昨日か一昨日、ツイートもしたんだけど、チラッと見たら、長期記憶機能がついてました。
というのもね、本当にね、久しぶりに会った友達に、あのときのこと覚えてるみたいなさ、思い出話とかするときあるじゃん、そういう会話をきっかけに話が進んでいくみたいな。
なんかね、その感じだったんだけど、そのなんとなくね、久しぶりにGlockを開いたときに、なんかこれこれこれのこと覚えてるとか、なんかそんな聞き方をしたの。
そしたらね、めっちゃ明確にいきなり回答が返ってきて、ってことはつまりメモリ機能が生きてるってことじゃん。
生きてるというか、実装されたってことになるじゃん。
だから一応Glockにそういうのを尋ねたんだけど、そう、まあなんかそんな感じです。
ちょっと冒頭で全部話し切っちゃいそうになったので。
あとそんな感じで、まあ実際にメモリ機能がついて、いろいろ思うところ、優秀なのかポンコツなのかよくわからんみたいなところ。
いいのかなと思ったら、いやいやちょっとこれは微妙に思うところがあったり、まあそんなところに触れようと思うので。
よかったら最後までチェックしてみてください。
この番組は、KTがSNSアプリの新機能やエンタメガジェットの話題を4段だらけで紹介していく。
まとまらなくてもまとめ、聞くまとめです。
倍速再生、ながら劇で情報収集に活用してください。
はい、また流れない。ちょっとよくわからないなあこれが。ちょっとこっちの設定の話でごめんなさい。
はい、まあみたいな感じで、そう、Glock記憶、記憶を取り戻したのかって言い方おかしいけど、お前俺との過去の会話覚えてくれてんのかよみたいな。
ちょっとね、なんかそんな感じで再会を果たしたというところです。
はい、で実際のところ今話しているのって一応どこからどこがっていうボーダーラインわかんないんだけど、
今話に挙げているこの記憶機能に関しては有料版プレミアムプランだけか。
もうプラン名すらわからんわ。Twitter Blueとかの時のイメージ以降。
何が何やらわかってない。プレミアムと、XプレミアムとXプレミアムプラスだったっけ名称。
Xプレミアムプラスをずっと使ってたんだけど月額2千円の時代に、なんかいきなり6千円になるというかその時に慌ててやめて、
今は買いのほう、というかまあ有料版の一番低いグレード、違うな、有料版3段階なのか。
月額980円ぐらいのやつを今使っていて、その話です。
はい、無料版でもその記憶機能は多分ついてんだなっていうのが確認は取れたんだけど、
まあちょっと細かいことは抜きとして、とりあえず有料版っていうところでその前提で話をしていきます。
はい、でなんか記憶が戻ってるっぽいから、そのさ、前にPodcastで記録とか残した時の話だと、
このグロックとやたらやり取りしてる、その何をしてるかって話で特に使ったのが当時YouTube関連、
特にショート、YouTubeショートの投稿に関して徹底的にもうデータ渡しまくって、
で、例えばこの時間に投稿して、なんか決まったパターンですよ。
例えば朝4時って決めていたらターゲットがどうこうでとかそういう話もしつつ、
実際に投稿して5分後のデータとか15分後のデータとか、
まあそんな細かく渡す意味があるかわかんないけどそういう風に積み重ねてやってたんだよね。
そういう感じでやったから結構ねデータも蓄積されていくし、
で、次の日も同じこと繰り返して、じゃあ今度夜のパターンも試してみようとかって、
そこの差とかをこう詰めていく感じでさ、めちゃくちゃねやり取りして、
あの実際にその動画の方もどんどん伸びていってたんだよね。
で、そういうのに活用してて、ああこれはいいなと思って、
なんかね他のAIとのその時点での差って別に他のAIだって悪くはないんだけど、
何が違うかっていうとめっちゃシンプルで個人的には、
サイドバーに常駐してくれているっていうことが重要でした。
サイドバーにいるかいないかってめっちゃ重要じゃない?どうだろう?
なんかさ、いちいちタブ切り替えてとか、
左右に2画面に分割して使えばいいっていう話ではあるんだけど、
ちょっとね、なんか使い勝手悪くて。
そんな中、まあ普通にえっと俺は、あれか、Operaか。
これはブラウザ移動の話になっちゃうか。
Operaのサイドバーの機能があるので、
まあブラウザによってはさ、サイドになんか表示しとけるものってあると思うけど、
Edgeとかもできたっけか。
まあOperaってもうね、デフォでSNS関連ずらっと用意されてます。
TikTok、Instagram、Twitterとか、Discordとか。
そこで切り替えて、なんかもう前にも触れたけど、ちょっと話し通っちゃうけど、
そのOperaっていうブラウザイコール、
特定の一つのアカウント専用のブラウザみたいな使い方をしていたりします。
どういうことかというと、これもう全部さログインだけしておいて、
通常のブラウザとして使うのプラスサイドに、
サイドの方でタブが別にあるのでサイドバー専用で。
だから全部Instagram、TikTok、DiscordとかTwitterとか、
全部ログインしておいて、この単一のアカウントでね。
例えばAっていうアカウントで。
全部それに統一しておくことによって、もうInstagramでも何でもTikTokでもすぐ切り替えて、
もうそのアカウント専用で発信したりとか情報収集したりができるので。
なんかさ、複数アカウントとか運用してるとさ、
間違えて違うところにツイートしちゃったりとか、そういうことあったりするじゃん。
そういうこともまず起きないし。
まあ起きないというか、そのTwitterのアカウントの切り替えは当然できるようにしてあるから、
間違いないことがないというわけではないんだけど。
なんかね、頭がもう完全にそのアカウント専用となっていて、
いろいろはかどるところもあったりもするので。
そんな中、サイドビューにTwitterを固定して、
そこでグロックを開いて、もうひたすら相談とかもやりながら、
右の通常のブラウザの画面ではもうYouTubeの画面開いて、
ショートを投稿してどうかみたいな、そんな感じで使ってたんでね。
それをひたすらもう一定期間というか、
もう一旦ここをちょっと突き詰めて、把握したいことがあったので。
そういうふうにものすごい勢いで使ってる中さ、
さっき最初の方に言われたみたいに、ある一定までいくとなのか、
時々もう完全に無反応。
そして完全に無反応になってからっていうのは、
時間を置いてから再び話しかけても、
二度と返事をしてくれないっていう状況でした。
二度とは言っても、例えば1ヶ月経過してさ、
例えば今もう数ヶ月経ったかもしれない。
今話しかけたら続き化できたりするのかもしれないけど、分かんないけど。
なんかね、そんな状況でそうなってしまうと本当にもうどうにもなんないじゃん。
そのさ、例えばそのスレッドでやり取りした内容を全部コピーして、
要約してもらって、グロックに新規スレッドでさ、
要約してもらってやり直すこともできるんだけども、
全然ね、やっぱ話ずれちゃってるんだよね。
同じ記憶ではできない。
そう。で、他の方法として別のさ、
例えばAI使ってそっちでもうちょっといい感じに要約とかしてから、
渡したらどうだろうとかも思ったんだけど、
そもそもね、そんなね、スレッドの、
そのグロックの中でのやり取りのスレッドを全部丸コピーして投げて、
受け付けてくれるAIがない。
まあそんなめちゃくちゃいろんなもの試したっけじゃないか分かんないけど、
当時で考えて、普通にGeminiとか、
Chat GPTとかそのぐらいは当然で、あと2、3個試したかな。
全部ね、モディスオーバーってダメでした。
で、唯一大丈夫だったのが、ノートブックLM。
最近フォトキャスト機能の話で触れたけど、
それがね、大丈夫で、お、なんか優秀じゃんって。
当時でそんなノートブックLMって、なんか俺微妙に思ったので、
なんか限定的なさ、情報からさまとめてくれるから、そこがメリットなんだろうけど、
俺としてはね、なんかこいつこんなことも分かんないのかとか、
イライラしながら使ってた時だったんだけど、
そのね、大量の文字数を処理してくれたことで、
初めてノートブックLMいいなと思ったみたいな瞬間でした。
で、なんかね、それがさっき言った、結局文字数先に出しちゃったけどさ、
何文字だったかっていうのを文字数カウント時点にかけてみたら、
あのね、38万文字なんだね。
その俺がコピペしていたものが。
だからまあ普通に考えてさ、受け渡しできるわけないじゃん。
そう、でもそんな中、ノートブックLMに関しては、
普通に多分コピペで貼り付けができたので。
今もそうか分かんないけど、実際過去に試してそれができたので。
不思議なことにね、
グロックの止まってスレッドがもう完全無反応で止まってしまうことって、
過去に何回もあったんだけど、
それをね、複数3個ぐらいかな、止まった時の文字全部コピーして、
文字数カウントしてみる。
どれも38万文字付近なんだよね。
そこがリミットとかなのかね、グロック側の。
通常の、一定数使ったらリミットかかったりするじゃん、AIって。
そういうリミットとは無関係に無反応になるっていう状況だったんだよね。
そう、まあ何にしてもそんなことがある中、
ずいぶん余計な話の方が先に来てしまったけど、
まあ今回記憶機能が使えるようになった。
そう、っていう状況になりました。
で、だからそのさ、そんな苦労をしても、
結局さ、38万文字をノートブックLMに処理させたまとめたところ、
結局それをグロックに渡しちゃって、
結局完全な記憶じゃないじゃん。
予定まとめただけで。
やっぱずれるわけよ。
その中、今回どうだったかっていうと、
初っ端はね、試しにさ、
もうめっちゃピンポイントの、
ちょっと最後のスレッドを見てんだけど、
てめえ調子に乗ってんじゃねえぞみたいな回はなってる。
そう、まあそんなところで。
で、機能のほうの話ちょっと触れると、
Glock.comとかGlockアプリのほうを使ってる人は、
あの普通に把握してるとこかもしれないんだけど、
俺はあんまアプリ側使ってなかったので、
冒頭でも何回か触れたみたいにさ、
Glockがスレッド無反応になっちゃうからもう使わなくなった時期ってのがあったりしたので、
久しぶりに今使ってんだけど、
多分今回の記憶機能がXバーにも実装されたっていう段階でそのあったものだと思うんだけど、
回答をもらうじゃん、Glockから。
そうすると回答の下のところに再生成のアイコンとか、
コピーするとか、いいね悪いねとかのフィードバックのボタンとか出ると思うんだけど、
そこにね1個アイコンが追加されています。
あれか、回答内容次第にもやるのかな。
まあね、なんかねメモ帳っぽいようなアイコン、ウィンドウみたいなアイコンがあって、
これが参照しているチャットっていうアイコンが表示されます。
そこタップするとウィンドウ開いて、
会話の参照を解除しても履歴からは削除されませんみたいな、
何を元にしてるか記憶たどってるかみたいなことだと思うんだね。
ただね、ここを見てもその質問に対して、
何だろうな、可能性のあるところ、一応参照したものっていうだけで
関連があるかどうか関係ないものなのかもね。
わかるかな。
確率にこの回答に対して関係があるから、
参照っていうとこの一段に並べてるよってそういうことではなさそうです。
全く無関係なものも並んでいる。
つまり参照だけしてみたっていうだけのことがあるのかも。
うん。
なんかこれどれ見ても同じものが起こってくるような気がするな。
え?これあれかな?
どのチャットでも同じものを見てるだけ?もしかして。
今何か複数個見たけどパッと見同じものしか並んでないような気がしたけどどうなんだろう。
そして記憶を参照している回答していない時ってのがあるね。
まあまあ必要に応じて見に行ってるってことなだけなのかもしれないけど。
うーん。
記憶を参照して欲しいと思って言った時の回答で参照アイコンが出てない。
あ、それともあれかな。最新の難件だけ出るとかかな。
そういう可能性もあるか。
それだけかね。
ん、ちょっと待って。
あ、そういうことかな。
別のスレッドになったら、あ、そんなことないわ。
古い、古い、古いというか。
昨日今日でやり取りしたスレッド、複数スレッドはまあ移行したんだけど、
記憶機能あるのもあるから確認するのも含めて。
その過去のスレッドの一番新しいところには参照、チャット、アイコン出てなくて、
そのスレッドの中の古い方を見ると出てるから、あれだね、最新だけってことなのか。
いや、なんか全部同じもの見てるような気がするな。
ん?どういうこと?
1回でも参照したものが蓄積されていって、次回もそこを参照するみたいなことなのかな。
そこに情報がなかったらまた追加していくとか。
ちょっとよくわかんないね。
まあとりあえずそんな感じにはなっています。
逆にグロックアプリの方を見てみたら、グロックアプリもちょっとだけ名称が違うけど、
なんか似たような感じの機能はありました。
今のところは多分だけど、グロック側はあんまり把握してないからさ。
一応そのグロックに確認をしたいとか、軽く見た限りで言うと、
Xとグロックアプリ内でそれぞれでやり取りした内容に関しては同期してくれないというか、データの共通化はしてくれないので、
グロック側、アプリ側でやり取りした内容をこっちのX版の方から参照するみたいなことは多分できないんじゃないかなと思います。
もう一個重要。
ちょっと今回はグロックを使う側っていう話でグロック、プライバシー動向でグロックとかを避ける人とかもいると思うけど、
そっち側の観点からの話はしてなかったけど、
一応これセキュリティ、セキュリティというかプライバシー的なところか、設定の画面の方にちょっと新しい項目追加されています。
まず設定に行って、プライバシーと安全に行って、グロックとサードパーティーコラボレーター下の方にある、今ブラウザ版で見てるけど、
ここに会話履歴をグロックに保存するっていうのが存在しています。
これは最初からチェックついてました。
これdefaultでついてるものなのかどうなのかちょっとわかんないけど、
一応補足でここ書いてあるところを読んでみると、これまでの会話の詳細をグロックに保存します。
個々の会話を削除し、関連する詳細を消去できます。
という記載があります。
これのチェックをオフにすれば、過去の記憶は参照できなくなるっていう感じかと思います。
このグロックに関しては、データの共有として上に2項目他にあって、公開データに加えてグロック及び
XAIでのやり取りインプット結果をトレーニングと調整に利用することを許可します、みたいなのがまずあります。
これは気にする人多いと思うけど、俺はあんま気にしないけど、チェック一応外してあります。
そしてもう1個の項目が、Xによるグロックの動作のカスタマイズを許可します。
何だろうね、これはデフォードオフになったのかな。
ちょっと読んでみると、Xデータに加えてグロックでのやり取りインプット結果をグロックの動作のカスタマイズに利用することを許可する。
XはグロックやXAI、XAIで読み方いいのかな、が開発した他のAIモデルの動作をカスタマイズするため、
Xデータに加えてグロックにおけるユーザーのやり取りインプット結果をXAIと共有することがあります。
よくわからんけど、データの利用をするってことだね。気になる人はこの2項目はチェックを外す。
そして、この会話履歴をグロックに保存するみたいなもね、なんかね、それ騒いでる人を見かけたけど、騒いでるってほどのことないか。
気にしてる人を見かけたけど、これはグロック使わなきゃ別に関係のない話だし、
これが勝手にオンになってるからどうこうして騒ぐようなことではないんじゃないかなと思います。
何にね、どう影響したかわかんないから、気になるなら外しとく方がいいかもしれないけど。
はい、みたいな感じで今回はグロック、ちょっとグロックが賢くなったと思ったら、やっぱバカなんじゃみたいな。
ちょっとね、まだつかめない感じなんだけど、いやー悩ましいなー。
本当、AIのサービスはいろいろあって、それぞれめちゃくちゃ高性能になっていってるじゃん。
の中、俺はまあなんかなんだかんだこの記憶機能もつくんだったらさ、本当にさ過去がっつりやりとりしたことを記憶していて、
今後に活かしていけるってなったら無駄にならなかったんだな、その時間っていうところがあればグロックと思ったけど。
うーん、ちょっと悩ましいところです。
まあしばらく使ってみて、また何かわかったら、はい、ちょっと感想として残していければと思うので。
まあそうだね、なんかちょっとね不思議なのが、例えばさ、そのさ、AIってさだいたい課金しないとある程度の機能使えなかったりするじゃん。
だからまあ、取捨選択ってとこで、ここの、ここのAIを使う機関があって、次こっちに乗り換えてみたいとかいろいろしたりはしてるんだけど、
まあなんかね、やっぱどれか一個に絞るっていうのが、なんかそこまで高性能のものを俺が使うところでは普段のほうではいらんわとかも、
まあ誰もがそういうのあると思うけど、なんかグロックって不思議でさ、グロックってもうそもそも俺デフォで、
グロックじゃないな、グロックとか、あのXプレミアムに関しては、あのもう必要、必要なものとして捉えてるんだよね。
だからグロックとか関係なく、月額のこの980円のものを払い続けるっていう頭があるわけ。
別に払わなくて済むならさ、それ払わないけど。
あの、もう単純に、あの昔から言ってた。
と言っても、俺のあのメインのさ、アカウントはもう、あの、Xプレミアムに辞めちゃったんだけど。
なんか一時期全く使わなくなっちゃったから。
本来はもともと一番、そのプレミアム機能の、で重要視していたのっていうのが、
フォルダ分け、ブックマークの。フォルダ分けできるから、一回フォルダ分けちゃったら、これなんか無くなったら困りそうだからなと思った中、
まあその、メインというか、俺の自身のアカウントはあんま使わなくなっちゃうとか、まあいいやと思って、まあ解除しちゃいました。
あの値上げとかのタイミングの話のときかな。
で、全く別のもので使ってるものってのがいくつかあるんだけど、そっちは、まあその一番高い人は月額6千円とかのものはいらんからさ、
その980円のシェア、それは普通にブックマークも使えるし、フォルダも。
で、あとは、例えば、あれか、えーと、えーとライブ配信機能も、一時期ね、プレミアムプラスじゃなきゃできないって言ってたんだけど、今は使えるのかな、ただのプレミアムでも。
うん。って言いながら使えなかったらごめんなさいなんだけど。
そこら辺の機能も使えるっていうのもあるから、プレミアムはあったほうがいいかなっていうところ。
だから、グロックがなくてもどうせ払うって中でさ、グロックがどんどん優秀になっていくってのはめっちゃ付加価値じゃん。なんか、俺としては。
なんかそのAIのために課金してるわけじゃないから、そこに勝手にくっついてくるものとしてはめちゃくちゃいいなと思って。
そう、だからそういう要素もあるから、あの、なんていうの、グロックにいちいち課金するかどうか、グロックって頭で考える人もいると思うんだよね。
そもそもXプレミアムにはそもそも興味がなくて、でもAIの機能として使っていくには課金もちょっと考えるけど、どうしようかなみたいな人もいると思うので、
まあ、そういう人たちの何かの参考になればっていうところで。
まあね、そのさ、本当にそういうのをさ、専門的にやってる人だったら全部こう、課金していって、比較して、みたいなこともできるだろうけど、
そうじゃなくてさ、自分に最適なものを探そうっていうぐらいの人にとってはさ、いろんなものを課金するってのは厳しいじゃん。
だからまあ、俺は少なからず、このグロックは不可価値的なところで利用はしていくので、そう。
なので、そこで感じたこととかどうかっていうのをちょっと残していこうと思うので。
はい。
まあ、こんな感じで、グロック以外のものは触れるものは触りすす。
ちょっとね、あのね、これ動画撮ったけど、結局上げられずにどうせかするならまとめたほうがいいなとか考えて、もう止まっちゃってるのがあるんだけど、
この前触れたAquaVoiceっていう日本語入力のやつは結構やばくて、
っていうかAI系の日本語入力っていうか音声入力のやつ、俺あんま触ったことないから他のもすごいのかな。
なんかそのさ、俺音声入力ってもうこの前から増えてるみたいに、5,6年前からガッツリ使い始めて、
そんな中、日本語、日本語じゃない、Windowsが音声入力に日本語も対応をちゃんとしたときのタイミングで、最低限できるからこれでいいやと思って。
で、あのね、この前も言い忘れたけど、これ何が重要かっていうと、
そのさ、音声入力ができる機能なんて何にでもあるじゃん、今の時代。
例えば、ChatGPTの上でも音声入力で文字入力できるし、ジェミニでも音声入力とかあるじゃん、プラットフォーム単位では。
そうじゃなくて、俺が言ってる音声入力っていうのはOSレベルで動作してくれる音声入力の話をしています。
Windowsのデフォルトはそういうもんなんだけど、で、この前触れたAquaVoiceっていうのもそういう使い方ができます。
つまりどういうことかっていうと、例えばスマホで考えるとさ、Androidだったら、
iPhoneで言ったらSiriがどの画面でもさ、何のアプリを使う時でも音声のマイクのボタンを押せば、
そのSiri、Siriでいいのかな、Siriに音声入力させて打つことができるじゃん。
で、Androidも何のアプリだろうが、どこの画面だろうが、基本的にはキーボードのとこにマイクアイコンが出て、
それをタップすれば音声入力できると思います。
でもさ、PCってそうじゃないじゃん、基本的には。
でもそれが叶うのがWindowsの音声入力ですっていうのはまず大前提にあります。
ここ自体はあまり使ってる人がいないと思うんだけど、だからChatGPTの音声の入力ボタンを押すとか、
ジェミンの音声入力ボタンを押すとか、GoogleドキュメントだったらGoogleドキュメントの音声入力機能を使うとか、
そういうことじゃなくて、俺は全ての何のアプリに対してもWindowsの音声入力機能を使って、
スマホの音声入力ボタンを押すかのような感じで入力をしてるんだよね。
そう、統一的なWindowsベースの音声入力機能で。
AquaVoiceは同じ感じの使い方ができて、何のアプリに対しても音声入力ができて、かつめちゃくちゃ高性能っていうところ。
だからめちゃくちゃ使い勝手がいいっていう。
新しく動画をあげようとしたのが、実際に課金しました。
課金して月額ね、月払いプランだと9ドルぐらいなのかな。
けど、それだったらこれは満足なんじゃないかなって。
ちょっと微妙な点も見えてきたからあれなんだけど、継続課金するかどうか今後考えようと思って。
いやでもな、これ離れらんなくなりそうな気するんだよな。
ちょっともうちょいここ改善してほしいんや、みたいに思うところもあるはあるんだけど。
でもせっかくだからちょっと軽くだけ触れとくと、
あのね、すごいのが、その音声入力の精度がまず基本的に高いっていうのと、
ただ日本語だけで考えたらそんなに別にWindowsとも変わんないんだよね。
他のいろんな音声入力の機能と比べてもそんなにさほど変わんないんだけど、
前回のエピソードで触れたみたいにやっぱりね、英語の固有名詞。
その固有名詞、TikTok、NVIDIA、OpenAIとかそんな言葉って言ったときに、
全部きっちり英語の方を優先、最優先してくれるから、そこがねめちゃくちゃいい。
でこれ何がいいかっていうとさ、言ってみて当たり前なんだけど、
俺みたいにさ、今の感じでさ、何のアプリを開いたときにも全て音声入力でしていくってなったときって、
ちょっとした間違いが結構手間なわけ。
だからWindowsの場合って、例えばさっき言ったInstagram、NVIDIA、OpenAIみたいなこと言っても、
カタカナになっちゃうのはわかってるわけよ。
それがわかってるから、しゃべる手前で頭の中で計算してちょっと言い回しを変えようとか、
例えばインスタって言えばInstagramって表記。
インスタグラムはカタカナで書いちゃったっておかしくないか。
NVIDIAをカタカナで書いちゃうのはちょっと微妙じゃん。
だからちょっとじゃあNVIDIAの話題ここは反らすかとか、
なんか言い方を変えるかとか、そういうことを頭で考えちゃったりするわけ。
で、そんなこと考えるぐらいだったらじゃあもう手で打っちゃおうってなるわけよ。
音声の方が絶対早いんだけど、入力は。
別にタイピングもある程度の速さで打てるんだけど。
音声の方が絶対早いから音声使いたいけど、
そうなっちゃって結局手で直すのが微妙だからじゃあ手で打とうとか、
なんかそんなことが一瞬の葛藤があるわけ毎回。
でもAquaVoiceの場合は特に英語の有名詞に強いから、
ごくごく普通に話すようにしゃべってて全部バーっと入力されていく。
いちいちさっき言ったみたいに直前に頭の中で考えたり葛藤が起きたりっていうことはないんだよね。
もちろんそれでも間違えることはもちろんあるよ。
あるけど断然そこの間違いが少ない。
だから効率がめちゃくちゃいい。
で、プラスもう一点重要なのが、
全部話したいけどもうざっくりで終わらすけど、
ここに辞書機能がまずついています。
これ昔から思ったんだけど、音声入力に対してなんで辞書機能ってないんだろうって。
って思ったのがこれ辞書機能ついてます。
そしてもう一個重要なのこれがねめちゃくちゃすごいのが、
例えばさ、ジェミニとかで考えてもさ、
挙動を記憶させておくことってできるじゃん。
基本的なベースとしての考え方をこうするとか。
なんかねある種そういう感じでカスタム指示っていうのが設定できます。
でこれがこれちょっとねツイートしたんだけど、
めっちゃわかりやすい言い方すると、
俺があの音声入力の最初には必ずこのセリフを入れてっていう指定をとかができるんだよね。
そうするとどうなるかっていうと、
例えば実際に試したのが、
最初の冒頭は必ずオフソーラ語句って言ってって言うと、
例えばここから音声入力だと思ってください。
はいこんな感じで音声入力の今テストをしていますって言ったらそうじゃん。
でも音声入力には必ず頭にオフソーラ語句って入るの。
とかあとはね、
例えばこれはねちょっとなんかしばらく試したらうまくいかない時もあったんだけど、
喋った時の一番最初に翻訳モードって言った上で話し始めたら、
その文章を日本語と英語両方出力してくださいとかっていうのを機能しました。
これがなかなか反応してくれるときしてくれないときがあるから、
そのカスタム指示の各順番とかの兼ね合いもあるかもしれないからさ、
なんとも言えないんだけどそういうこともできなくはないです。
プラスあとはどんなにカジュアルな話し方をしても必ず敬語にしてください。
語尾はです、ますなどで統一してくださいみたいな指示もやってみたんだ。
これもねめちゃくちゃうまくいきます。
これ試しにねめちゃくちゃ暴言入ったの。
てめえぶっ殺すぞみたいな。ぶっ殺すぞとか、
だから何回見て何でわかんねえんだこの野郎みたいなこと言ったら、
それをね試しに言って出力した結果っていうのが、
オッスオラゴク、てめえ何回言ってもわかりませんねみたいな。
よくわからん文章になって、
つまりはそのカスタム指示が確実に生きてるってことだけはわかるじゃん、その時点で。
そうみたいなぐらい、
あのね、もう俺が喋った瞬間にリアルタイムで出力内容を、
あのまあ悪く言えば改ざんみたいなことができるわけよ。
で例えばもっとねすごいのは、
俺が勢いよく喋ったり元気よく喋ったりしたら最後に全格のビッグマークを入れてっていう風に指示を出したり、
あとは声が語尾で上がっていたり、
文脈から疑問形だと取られるときは全格の?を入れてとかっていうのもやると、
その通りに動作してくれます。
これはそのさ、語尾が上がらないとかだとダメなときもあったりとか、
文脈の解釈でうまくいかないことももちろんあるんだけど、
あとは悲しそうだったら後ろに点点点をつけてとかっていうのも動作しました。
あとは笑いを誘おうとしてるっていう文脈だと認識できたら、
最後にWをつけてみたいなのもこれも動作しました。
それも動作するときしないときってのはもちろんあるんだけど、揺らぎはあるけど、
あとはすごいのがね、フィラー削除。
えっとーとかあのーとかも削除してくれます。やばくない?
かといってね、この前言ったみたいに音声入力をしようって決めてしゃべってるときってのは、
不思議とフィラーって出ないんだけど、このまま触れたけど、
そのフィラーをやめるための一番分かりやすいコツとしては、
大きい声で話すとか、はきはきしゃべるとフィラーは出ませんっていう話があって、
これ実際に考えてみたら、この前も言ったんだけど、
でかい声でさ、あのーって言わないじゃん。えっとーって言わないから、
まあ大きい声を出すのが微妙なら、はきはきしゃべることによって出づらくなるっていうのは確実にこれ実感できます。
まあ俺は常に意識できてるわけじゃないから、フィラー入りまくってる場合なんだけど、
そう、で、なんかね、だからあえてテストのときには、
もうポッドキャストのりの感じ、普通にただ喋ることだけに集中して、
だらだらだらだら喋ってみたら、自然にフィラーって出るじゃん。
でもね、8割ぐらい消してくれてんだよね。
で、プラスね、他にもカスタム指示もいろんなこと試したんだけど、
例えば、こういうふうに会話の中で、えっとじゃあ今日こんなことが起きたって話を今からします。
今日ちょっとWindowsでブラウザーいじってたら、なんか変なエラーが出て、
なんか入力内容が間違っていますみたいに出て、なんかどうやって直していいかわからなかったんだけどって、
今のを音声入力したとするじゃん。
そしたら、まず今ちょっとフィラーどんぐらい入ったかわかんないけど、
あのーとかなんかとか言ったのがあれば、それはある程度削除してくれた上で、
このね、エラー内容言ったじゃん俺。
なんだっけ、なんて言ったかもう忘れちゃった。
間違った入力がされましたでもなんでもいいや。
エラー内容が出たとするじゃん。
そこには鍵カッコを前後につけてっていうカスタム指示をつけました。
事例として、例として、画面に〇〇というエラーが表示されましたみたいな文章だったら、
鍵カッコを前後につけてってやったらね、これもちゃんと処理してくれるの。
そう。だから文脈をちゃんと見てるってことだと思うんだけど。
で、さっき言ったさ、そのフィラーとかに関してね。
あのフィラーをさ、あえて俺表現しようとした音声入力のテストにね、
えっとーあのーみたいにわざとらしく言ってみたの。
で言って、いっぱいフィラーを含んでいった中、音声入力結果どうなったかって言ったら、
8割がまずあのーとかえっとーが削除されました。
でも露骨に俺が意識的に言ったところに関して鍵カッコであのーとかえっとー。
鍵カッコで囲われてんの。で、文章を見てみたらね、