ケイティーです。
まず音声入力っていうところからついて触れると、例えばスマホで音声入力をタイミングタイミングでする人っているんじゃないかと思います。
どうなんだろうね。世間一般でどう使われているかってのは知らないけど、スマホだったら使う人はいるだろうなとは思っています。
逆に人によってはさ、音声入力っておじさんが使うものでしょうぐらいに思っているようなおじさんおばさんとかって思っている人も中には未だにいるのかなっていう印象もあるしどうだろうそんなことないのかなもう時代的には。
俺自身が言っているのはスマホとかでは使うのはもちろんなんだけど、そんなことよりもパソコン上で使えます。
特にこの番組聞いてくれている人だったら普通にバイブコーディングとかそのプログラムAIに指示を出してプログラムを組むとかそういうときに音声を使うとか、
あとはAIが普及してAIに対して音声で質問するとかってそういうケースが増えているか。
何にせよ俺が言っているのは例えばチャットGPTに話しかけるときだとか、あとはスマホで音声入力するときにマイクアイコンを押すとかさ、
Google、Androidとかでマイクアイコンを押してとかそういうことではないんだよな。
それに近いか。それに近いことがパソコンでもできます。
何かっていうとパソコンだったら基本的には例えばブラウザでチャットGPTの画面でマイクアイコンを押してしゃべるとかそういう感じになるんじゃないかと思います。
基本的に各対象ごとにアプリ単位でマイクアイコンがついているから押してしゃべるみたいな人はいるんじゃないかと思います。
でも俺が言っているのはそうじゃなくパソコンのOS上で常にマイク入力ができる状態。
対象の文字入力するエリアさえ存在していれば対象が何であろうが基本的には対象が何であろうが打てるっていう音声で入力ができるっていうものを指しています。
何となくわかるでしょうか。
例えばWindowsのメニューの下の検索バーのところにだって音声入力で入力できるしみたいなそういうイメージで考えてください。
それを聞いたときにWindowsの標準であるじゃんっていう人もいると思うんだけどWindows Hだったっけか。
ちょっとショートカットも忘れちゃったな。
Windows H入れてるやつ。マイク。マイクが出てこれも音声入力ってのはできます。
それだと精度が低いのでそこで去年の5月ぐらいから使い始めたものとしてAquaVoiceっていうサービス。
これは結構主流だったと思うんだけどそれを使っていました。
色々本当にざっくり触れると精度がそこそことかある程度高くて
なおかつ当時触れていたことだと例えばWindowsの音声入力とかスマホの音声入力は今どうなのかな。
多分固有名詞にめちゃくちゃ弱いんだよね。英語の固有名詞特に。
例えばオープンAIとかFacebookとかもっと分かりづらいものがいない。
クロードとかクロードコードとかそういうのって多分カタカナ表記になっちゃうものって結構あったりすると思います。
ただAquaVoiceとかだとそういうところにめちゃくちゃ強い。
もうひたすらそういう英語の固有名詞言っても全部きれいに英語で入力してくれるとか。
あとはもうちょっと言うと例えばChatGPTとかだとメモリの機能記憶してもらう機能って使ってる人もいるんじゃないかと思います。
多少でも活用してる人だったら。つまり自分でこれを覚えておいて登録をしておいた上で
普段のチャットの中でAI側がメモリされている情報から情報を引き出した上で回答してくれるみたいなイメージになります。
メモリ機能とかそういう感じの指示を含むようなこともできるわけだよね。
例えば質問に回答するときは必ずリサーチをした上でファクトチェックを行ってから回答してみたいなものを事前にメモリ機能として登録しておける。
そうすることによって普段のチャットとかAIに聞いたときの回答が最低限のラインのメモリ機能から引っ張った上でやってくれるから
毎回細かい指示を出さなくていいみたいな状況になります。
これ分かってる人多いと思うんだけど、今回触れているAquaVoiceっていうサービスにもそういう機能があって音声入力に対して
カスタムなんとかみたいなのがあって、そこに今俺が言ったようなルールを設定しておくことによって音声入力の際にその挙動で動いてくれる。
例えば俺がやってるものだと怒ってる漢字だったら怒ってる絵文字を付けてとか絵文字を実際に何個かパターンで入れたって
この中からランダムで出力してってしたりとか、また悲しそうだったら泣いてるアイコンにするとか笑ってたらWって付けるとか
例えば祭を草に変えるとか、そんな感じの指示ができたり。
あとはもうちょっと最近試してないけど、AquaVoice側のアップデートとかで挙動が変わってきちゃってるけど
2025年5月時点で俺がやったのは一番最初、喋り始める最初に翻訳モードって言った上で話し始めたら
その後に話した内容が日本語だったら英語の文章を日本語の文章の後ろに出してって
2言語同時出力みたいなこともできました。すごくない?
あとは例えばどこまでちゃんと機能してくれてるかってそんな明確に分かんないけど
例えば主語と述語の間にめちゃくちゃ余計な言葉が入ったりしたら
そこをうまく主語と述語を近づけて分かりやすい文章に変えてとか
そういう指示をしてちゃんと機能してくれてるなって感覚が得られた時もあります。
その他個人的に設定してめちゃくちゃ便利だなと思ったのが
例えば英語の固有名詞Instagramって入れた後には必ず日本語のカタカナで括弧に挟む形で
日本語の表記でInstagramってカタカナで書いてとか
2回目以降には同じことはしないで初回登場の時だけその文章の中で初回登場の時だけそれ入れてみたいな
完全な挙動で動くわけではないんだけどもある程度動作してくれて
そうみたいな感じで音声入力にも関わらず補完をしてくれたりとか勝手に修正をしてくれたりするわけ
これがめちゃくちゃ使い勝手がいいっていうのはあります。
AIの音声入力っていうのがどういうものかっていうのは今の感じだと把握してください。
とは言ってもAquaVoiceにはいろいろと難点があってちょっとこれ後で触れます。
そんな中個人的にはごまかしごまかし使っててめっちゃイライラしながらだったんだけど
そんな中1週間2週間前くらいかな
James ParkっていうAIのサービスこの前俺年額課金をしたって言ったやつになるんだけど
そこが日本展開に力を入れていくって発表があったニュースについて
この前ポッドキャストで触れたと思うんだけどその中でも多分書かれてたのかな
ちょっと俺ちゃんと意識してなかったけどその中に含まれていた
James Park Speaklyっていう音声入力のサービス
これがまだベータなのかなんかわかんないけど一応使えるようになっています。
それをまず試しました。
そしたらとりあえず感じたのがAquaVoiceよりも全然精度が高いし
とにかく安定している。
さっき言ったみたいなAquaVoiceってめちゃくちゃ不安定なのでなんか知んないけど
言ったことが入力されなかったりとか
言ったことと全然違うことが入力されたりとか
例えばねこれしょっちゅうツイートもしててめっちゃ腹立つんだけど
お疲れ様、ご視聴ありがとうございましたとか
お疲れ様でしたとかおはようございますとか
おはようございますとかまだあかんじゃん
ご視聴ありがとうございましたってなんだこの野郎って話じゃん
っていうのが例えば長々と話してるんだよこっちは音声入力で
話してて結果ご視聴ありがとうございましたって出てきてめっちゃ腹立つじゃん
今まで喋ったのは何だったんだよっていう
でそれはAquaVoice側もそういう挙動になっちゃうの
把握してんのかなんかわかんないけど
一応ね対策としては設定画面とかアプリの画面
アプリがあるのでアプリに行くとちゃんと音声自体も残ってるし
文字起こしした結果ってのも残ってて再生成するってのもできたりします
でまぁ今みたいにご視聴ありがとうございますってなっちゃったものもあるから
再生成ってあれば直せるかな?試したことないわ
今音声も一応残ってるんだよね
再生成あればそれもできるかもねもしかしたら
まぁ手間はかかるけど
そうとかあとは一応オンオフはできるけど
最後に入力した内容を自動でコピーするとか
これはご視聴ありがとうございましたって出力されちゃった場合は
もうそれがコピーされてるだけだからダメなんだけど
例えばなぜかテキストエリアに入力されないことがあるの
そういう場合はコピークリップボードにコピーされてるから
Ctrl Vでペーストすればちゃんと入力されるなんてこともあります
とにかくねそういうことがコマゴマコマゴマと起きて
もう本当に俺9割音声入力なので
もうそれは9割ずっと9割ではないにしても
さっきも言ったように多分5年以上経ってるような気がする
音声入力歴としては5,6年
もうあれねスマホでちょっと入力するとかではなく
PCでガッツリやるっていうレベルで5,6年経過しています
そうっていう状態で考えて
考えてってことないななんだっけ
ジェンスパークスピークリーアクアボイスがダメだった話だね
何話したか飛んじゃった
とにかくアクアボイスが微妙で
そんな中タイプレスじゃない
ジェンスパークスピークリーっていうのを使ったら精度とか高いしね
めっちゃいい
ただアクアボイスにある機能がなかったり
さっきのカスタムの指示あったっけななかったっけな
多分なかったような気がします
ただアクアボイスで逆にできないことができて
例えば音声入力するだけじゃなくて
入力されている文章をテキスト範囲選択で選択した状態で
英語に書いてとか
こういう感じに書いてとか
適当にしゃべった
あらあらしい文章だったら
あらあらしい文章だったら
てめえこの野郎みたいな感じだったとして
それを全選択してビジネスメール風にしてとかやったら
試したことはないけどそういう感じで変化をしてくれます
もう一パターンあってテキスト選択した対象に対して
質問することができます
例文としてチュートリアルで富士山はみたいな富士山についてはごちゃごちゃと書いてある文章があったんだけど
それを全部選択して富士山って何とか漢字が難しい漢字があるから
バカでもわかるように説明してみたいなことを
音声でだよ言うとそれの回答がウィンドウが上がってきて
そこに表示される回答がみたいな感じができる
さらにその先調べるんだったらボタンを押すと
James Parkが起動するみたいな感じ
特定の音声入力のトリガーになるキーの設定ができるんだけど
これを2回押すと直接James Parkの方が起動して
エージェントモードになって音声入力して質問するとウィンドウが出るんだけど
その質問からもう一回ボタンか何か押すと
James Parkが起動してくれて
そこから回答が来るみたいな感じになっています
これがめっちゃ使い勝手良さそうで
アクアボイスから乗り換えようかなと思うくらい
しばらく安定性を試そうと思ったけど
とりあえず安定はしてるの
なんか謎に音声入力を開始する時の
トリガーになるキーボードのキーを設定するんだけど
1個しか登録できないの