音声入力の重要性と標準機能の限界
皆さんこんにちは、40歳からのAI活用塾のウミノです。このチャンネルでは、AIを活用して1日2時間時短する実践的なテクニックと、時間と場所に縛られない働き方のヒントをお届けしていきます。
今日は音声入力についてお話をしたいと思います。前にもお話したことがあるんですけども、私は音声入力めちゃめちゃ使っているんですね。
ただ、スマホではぶっちゃけ使ってないかな。パソコンで主に使っています。
パソコンでどんな方法でやってるかというと、前はWindowsとかMacの標準の音声入力を使っていました。
これもね、これで私はとっても気に入っていたんですよ。なので、ほとんどの人にとっては標準機能で十分じゃないかなと思います。
ただ、私ね、ユーデミとかやってるじゃないですか。このユーデミというキーワードを奴らはですね、認識してくれないんですね。
ユーデミとかって変な感じになっちゃうので、それがすごく嫌だなって思ってました。
あとはウミノっていうのも、なかなか聞き取ってくれない。私の滑舌が悪いんですけどね。
なので、それをどうにかしたいなと思いまして、やっぱりお金かけなきゃいけないのかなと思ってね、いろいろ試しましたよ。
試して、私には音声入力でこだわりがありました。
リアルタイム入力の必要性と過去の失敗
というのは、こうやってね、お話をしている時に、例えばこんにちはって言った時に、そのこんにちはっていう文章が目に見えること。
これすごい大事だ。なんでかっていうと、スーパーウィスパーとか、あとはたくさん音声入力ソフトってめちゃめちゃいっぱいあるんですけど、
ほとんどの音声入力ソフトってボタンを押している間とかに入力されるんだけど、その間は何が入力されているのかわからないんですね。
そうすると、ちょっと1分とか、1分までいかなくても何十秒とか喋っていると、最初の1分とか半分以上が消えてたみたいな時って結構あるんですね。
それってめちゃめちゃ怖いというか、めちゃめちゃショックじゃないですか。
そういうのが何回も続いて、使わなくなった音声入力ソフトがいくつかありました。
昔やったボイスインクというアプリがそうだったんですよね。
このボイスインクもすごく良くて、確かに無料だったかな。
無料でも使えるという音声入力ソフトでした。
オープンウィスパーか何かを確かインストールしておけば、そこからやってくれるっていう感じだったかな。
だから無料でやりたいという人にはすごくいいソフトだと思うんですけども、今もね。
ただ、最初の部分が消える時がある、たまに。
それが本当に耐えられなくてやめました。
なので、ちゃんとこんにちはって最初に言ったら、こんにちはが見えていることが大事なんですよ、私にとってね。
スポークンリーとの出会いとAPI活用
なのでそれをできる音声入力ソフトをめっちゃ探して、
基本100%海外製なので、海外のいろんなボイスなんちゃらとかね、そういうサイトを見て、
リアルタイムの入力ができるのかどうか、変換が見えるのかどうかっていうのを見たりとかね。
だいたい結構ね、動画で見せてくれているホームページがほとんどなので、これはダメだなとかね、判断できるんですけど、
わかんない奴は問い合わせを送ったりとかさ、あなたの音声入力ソフトを検討しているんだけども、
リアルタイムで見えますか?みたいなね、そんな感じで問い合わせをして、
いや、うちは見れないんだーみたいな、そんな感じで返事をくれたりとかするんですけど、
そこでね、結構何時間もかけて探して、結局私がたどり着いたのが、スポークンリーです。
スポークンリーっていうソフトです。
このスポークンリーは、サブスクもやってる。でもサブスクの方はやらなくていいです。
スポークンリーにするメリットはそんなにサブスクだとないんじゃないかなと思います。
まあ、わからないね。値段あんまり見てないけど。
このスポークンリーを使う、使っている良いところというのは、APIを使えるんですね。
APIというのは、他の音声入力のモデルを提供しているAIの会社ってたくさんあって、
例えばXのグロックもそうだし、XAIのグロックもそうだし、別のグロックもあるんですよ。
GROKがXなんですけど、GROQのグロックっていうのがあって、そっちも音声入力のソフトを開発してたりとかもします。
ソフトというかモデルかな。
あとは他にも、私が使っているのはソニオックスっていうAPI。
他にはソニオックスっていうAPIというかソニオックスのモデル。
他にもいろいろあるんですけど、私はいろいろ試して、リアルタイムで見えることっていうのがすごい大事だったので、
リアルタイムでやってくれるモデルをいくつか試したところ、
そのGROKのQの方ね、Xじゃない方、そっちは全然ダメだったんですよね。
なんかびっくりするレベルで、全然使い物にならない感じでした。
昔の日本語入力みたいな、音声入力みたいな感じ。
ちょっととても使い物にならない感じだったんですけど、
このソニオックスは本当に良くてですね、めちゃめちゃ感動しています。
スポークンリーの高度な機能とカスタマイズ
私はあんまりね、そんなに整形しなくてもいいかなって思う派。
でもちょっと知ってるかな。
難しいんですけど、まずね、リアルタイム音声入力をするモデルというのをソニオックスのAPIを使って買ってます。
スポークリンにはもう一つ、その入力した音声を整形するとかのプロンプトとAPIも仕込むことができるんです。
例えば、私が入力した言葉を全部英語にするとか、またはカジュアルにするとか、
構造的にするとか、そんなプロンプトを入れておくと、
それでそれについてはGPT-4を使うとかね、
そういう整形用のAPIを挿しておけば、私が喋っている言葉というのが英語になったりとかカジュアルになったりとか、
それで変換してこのテキストボックスに貼り付けてくれるみたいなことができるんですよ。
それがね、最初は全然いらないなと思ってたんだけど、途中からまああっても結構便利だなと思い始めて、
今は多少整形するような感じに使ってます。
そんなとこかな。
スポークンリーの応用例と注意点
でね、あとは、例えばなんですけど、これもできるよっていう感じなのが、
例えばね、不便なときもあるんだけど、
サブスタックの教科書を宣伝するLINEの文章を作ってくださいって入力したとしたら、
このサブスタックの教科書はこんな風によくて、こういうところがいいんだよみたいな文章を作ってくれて、
それを貼り付けてくれるという機能もあります。
言ってる言語があるから伝わりづらいかもしれない。
例えば、音声入力で卵を一つで作れる料理を教えてくださいって言ったら、
それがその言葉が出てくるのではなくて、ゆで卵とかね、卵焼きとか、なんかそんな感じで出てくるような、そんなイメージです、イメージとしては。
それもできる、やろうと思えば。
でもそれすごく私にとってはね、邪魔以外のなんでもなくて、結構めんどくさいんですよね。
私はクロードのコーワークを使うときにそういう言葉を入れたい。
例えばね、LINEの文章を考えてくださいとかって入れたいのに、
なんかそこで勝手に考えられて、しかもそれを作ってくれるのがGPT-40 miniとかさ、
なんかあんまり大したモデルじゃなかったりするので、ちょっとお前に聞いてないって思うときがあって、
なので、ちょっとそれをやめてほしいなって思うときもあります。
そのときは、モデルをいくつか、モデルっていうのかな、
仕込んでおくプロンプトをいくつか選べるんですけど、
ちょっとそこで切り替えて、言われた通りに出すみたいなね、そういうプロンプトのやつを選んだりとかしています。
あー、疲れた。
スポークンリーの推奨とまとめ
ということで、スポン君リーおすすめだよというお話でした。
じゃあちょっとスポン君リーね、まだ知らないよっていう方もいらっしゃると思うので、
それの記事をこれの議会裏に貼っておきますので、ぜひ見てみてください。
それではまた。
ウミノでした。