00:00
皆さん、こんにちは。フリーランスの学校に所属している海野です。 毎週金曜日は、Udemy AIコースのベストセラー講師でもある海野が、
あなたの仕事と生活を楽にするAI活用術をお届けしていきます。
今日は音声入力の素晴らしさについて、ちょっと厚く語りたいなと思ったので、マイクを取りました。
私はですね、音声入力歴はそんなに長くはないんだけれども、ただ私、勝馬和夫さんが大好きなんですね。
ずっと発信を15年以上拝見しております。勝馬さんって、めちゃめちゃ音声入力を入れるの早かったんですよ。
前はドラゴンディクティートだったかな、とかいうスマホのアプリを使ってらっしゃったりもして、
その時にね、私も本当に10年どころじゃなく前だと思いますよ。10年前とかかな。
そのドラゴンディクティートとかね、入れてみたりとかもしたことがありました。
他にも野口幸男さんだったかな、も確か音声入力について書かれていて、
結構本かな、本かなんかで書かれていて、それも真似したりとかもしていたんですけども、
そんなにね、当時の音声入力ってそこまで良くなくて、あまり使えないなっていう風に印象を持っていたんですよ。
ただ、いつだったかな、Windowsで、AIが流行り始めたからかな。
AIを使うようになってから、多少の誤字雑字が全然関係ない世界になったわけなんですよね。
例えば、誤字雑字があったとしても、どうせそれをガーッと喋って入力して、それをいい感じに整形をしてもらうので、
別に誤字雑字あってもいいじゃんということに気づいてからは、Windowsの標準のマイク、標準のマイクというか標準の音声入力機能を使って音声入力をするようになりました。
だから、2、3年前くらいからやるようになったと思います。
Windowsは簡単で、Windowsキーを押しながらHのキーを押すと、それでピョーンってマイクが始まって、それで音声入力ができるんですね。
ぶっちゃけこれでもいいと思います。いいと思うんですけど、私の場合はね、ユーデミー講師とかっていう言葉を使ったりするんですよ。
ユーデミーのコース出しましたとか、このユーデミーをどうしても標準だとダメなんですよね。
全然ひらがなでユーデミーとかってなっちゃったりとかして、全然わかってくれなくて、毎回それ直すのめんどくさくて、何とかしたいなって思ってたんですね。
それでMacに変更して、Macにも標準で音声入力の機能が付いているので、それもやってみたんだけど、やっぱりユーデミーを聞き取ってくれないんですよね。
この標準機能だと辞書登録というのができないらしいんですよ。もしかしたら今できるかもしれないけど、多分できないと思う。
03:06
そうすると困ったなというふうに思って、お金かけてまだまだ入力するのもなぁとか、あとはGoogleドキュメントだと結構いい音声認識の機能が使えるっていうのも知っていたし、
あとは、クロームの拡張機能でボイスインだったっけな、とかいう機能があるのも知っていたんだけども、私ね、クロームの拡張機能で音声入力したくないんですよ。
何でかっていうと、音声入力する場面っていうのはメモ帳にもしたいし、クロームじゃなくてもしたいところってたくさんあるわけですよね。
例えばコワーク使ってる時に音声入力もしたいし、でもそうするとクロームで開いてるわけじゃないから使えないわけですよ。
なのでそういうスクショを取るとか音声入力をするとか、そういうのはパソコン全体に関わるアプリとして使いたいわけなんでしょうね。
なのでスクショの機能もRACを使ってますし、RACこれについてはまたちょっと別途話そうかな。
RACいいよ。RACのスクショだけ使ってます。スクショ機能だけ使ってる。
それはいいとして、拡張機能は使わずに、とにかくアプリとかで音声入力がしたかったんですね。
標準機能として使う分にはもちろん全アプリで共通で使えるものなのでいいんですけど、でも辞書登録ができないということで、じゃあ音声入力アプリかと思ってたんですよ。
いろいろ探しまくってですね、WindowsとかMacだと標準機能の音声入力というのはリアルタイムに見れるんですね。
打っている文字が分かるって言うんですかね。こんにちはって言ったらこんにちはっていう風に出てくるっていうことです。
打ってるそばから、喋ってるそばから。それがね私は良かった。
なぜかというと、そこまで最初はあんまり気にしてなかったんだけども、
ボイスインクっていう無料で使えるというアプリを入れたときに、喋ると最初の一文ぐらいが消えちゃうことが結構頻発したんですね。
それで、なんか最初になんかそういうのすごい嫌だなと。なんかストレスじゃないですか。最初に話したところの一部分が消えてるって。
なので、ちゃんと文字起こしされているかどうかが見えることっていうのはすごい大事なんだなと思って。
リアルタイム音声入力ができるツールというのをめちゃめちゃ探しました。めちゃめちゃ探した。本当に探した。
音声入力ソフトって実はめちゃめちゃいっぱいあるんですよ。本当にたくさんあって。
その中でもとにかくリアルタイムに音声入力ができるソフトっていうのが意外と少ない。
意外と少なくて。でかつね、あとAIプロンプトを仕込むことができる。
整形用のAIプロンプトを自分でカスタマイズできるソフトも実は少ないんですね。
なので、その辺も合わせてめちゃくちゃ探して、問い合わせとかもしたりして、探してですね。
06:04
ようやく見つけたのが、何回もお話ししているのでビミタコかもしれないんですけども、Spokenlyというソフトなんですね。
このSpokenlyめちゃめちゃ良くて、何が良いって無料なんですよ。使うの無料。
一応ね、サブスクの機能もあって、そっちでね、多分その開発者の方は儲けてらっしゃるんだと思うんですけど、
ごめんなさい、全然それいらない。使わなくていいです。使わなくて良くて。
APIとかわかんないよみたいな人は7.99ドルね、月に払えばいいと思うんですけども、
私のフォロワーさんとか、私のポッドキャストのリスナーさんはね、ぜひ私から学んでいただいて、無料で使う方法を分かっていただければなと思います。
このですね、Spokenlyなんだけれども、これMacとiPhoneでしか使えないんですよ。
だからWindowsとAndroidの方は使えないんですけども、MacまたはiPhone限定になってしまうんですが、
使いたい方はぜひ私の記事を見ていただければと思います。
これ私はソニーオックスっていう音声認識モデルを使っていて、それがすごく満足しているんですけども、
いろんなモデルを使えます。めちゃめちゃ機能めちゃめちゃたくさんあった、Spokenly見てみたら。
例えばフォワークとかね、クロードのデスクトップアプリを開いているときにはこのプロンプトとか、
あとは例えばVSコードに貼り付けるときには、例えば何だろうな、じゃあ作業手順書みたいな風に加工するプロンプトを入れるとかね、
あとは何だろう、Chromeのときは話したまんまとか、そんな風に使い分けることができるんですね、AIプロンプトを。知らなかった。
録音しながらAIプロンプトを切り替えることもできるし、これは本当に便利ですね。
例えば私も構造的にしたいとき、例えば過剰書きにしたいなみたいなときには、その過剰書きにするようなプロンプトに切り替えたりとかもしてますし、
そのままでいいやというときはプロンプトなしで音声入力をしたまま文字変換だけしてもらうようにしたりとかね。
例えばスポークンリーって普通に話すとカタカナでスポークンリーって入っちゃうんですけど、辞書登録しておけばそれが英語でスポークンリーって入るんですね。
ユーデミーとかも多分ユーデミーってカタカナで入るのかな、それが英語でユーデミーみたいな風に入ったりとかもしますので、これはね、あるのとないのと全然違う。
AIプロンプトを入れるとちょっとやっぱりAIで読ませるので、整形するので若干時間かかるんですよ。0.5秒、0.何秒なんだけどちょっと遅延があります。
それがめんどくさいなという方はAIプロンプトなしでも使える。全然使える。
で、私はソニオックスの音声認識モデルを使っていて、それだとAIプロンプトなしでも全然綺麗に持ち送りされます。で、クトーテムも入る。
09:08
ただね、完全無料でやりたいと。ちなみにソニオックスめっちゃ安くてですね、1時間あたり18円です。1時間あたり18円なので、3月はいくらだったっけな。
あれ?いくらだっけ?70円?なんかそんぐらい。100円いかないくらいでした。ほんと安いよ。もう全然安いです。ほんと安いので、課金すればいいと思うんですけど、重量課金だからね。
なんだけど、どうしてもお金は心配なので、クレジットカードをオンラインに払うなんて、オンラインに登録するなんて無理みたいな方もいらっしゃると思います。怖いと思う。
だから無料の方法をお伝えします。無料でやるにはいくつかの選択肢があります。ローカルモデルっていうもの。ローカルモデルっていう音声認識モデルを使うと無料にできます。
これは、例えばMacの場合はAppleのやつもあるんですね。Appleなんちゃらアナライザー。なんだっけな。Appleスピーチアナライザーだったかな。とかいうローカルモデルがあります。
ただこれね、リアルタイムじゃないんですよ。リアルタイムじゃなくて。他にもね、NVIDIAとか、あとはオープンウィスパーのやつとか色々あるので、自分のマシン、つまりパソコンとかを使って、スマホもそうですけども、自分のスマホとかマシンを使ってやるっていうのが一つあります。
それらはリアルタイムじゃないんですよ。リアルタイム文字起こししてくれないので、私は使いたくないんですね。ちなみにリアルタイム文字起こしされなくても、Spokenlyの場合は、おにおになんか波形みたいなのが動くので、ちゃんと読んでくれてるなっていうのはわかります。だから気にしなくてもいいよという方はそっち使ってください。
ローカルモデルじゃないんだけれども、オンラインの中のAppleの音声認識っていうAppleSpeech Analyzerとはまた別のオンラインモデルがあるんですね。オンラインの音声認識モデルがあって、そっちはリアルタイムなんですよ。だから無料でやりたいと。でもリアルタイムがいいんだという方はこれを使うといいと思います。私はソニックスだけども、Apple音声認識っていうモデルを選べばOK。
これね、ただちょっとそんなに精度が良くなくて、ソニックスに比べると。なので、その場合はAIプロンプトで整形するのがいいと思います。AIプロンプトもいくつか種類がありまして、Appleも選べます。
Appleインテリジェンスをオンにした状態でAppleインテリジェンスを選べば、無料×無料なので、もうとにかく完全無料で音声認識ができる。ただ、Appleインテリジェンスもちょっとおバカさんなんですね。なので、Apple×Appleだとちょっと私は使いたくないかなみたいな。Macの標準機能で良くないっていう感じですね。
12:00
それだったら。確かね、苦痛点はApple音声認識だけだと入らないんだけれど、Appleインテリジェンス通すと入るけど、文字がちょっとぐちゃぐちゃみたいな。読み間違いみたいなのが結構多いみたいな感じでした。
じゃあ使えないじゃんって。完全無料じゃ使えないじゃんって思うかもしれないんですけど、そういう方のためにですね、まだまだあります。もう一つあるんです。Apple音声認識ソフトとしてモデルとして使いつつ、声型をGlockでやるという方法ですね。
このGlockはXの方のGlockじゃなくて最後がQです。GlockのKのところがQになってるのがGlockっていう別のAIなんですけど、それはクレジットカードの登録不要でAPIキーを発行することができるんです。無料プランで。
それなので使ってももちろん上限あると思います。ただ私は上限に達したことがないし、めちゃめちゃ安いし、品質も良かった。前やったときちょっとダメだなと思ったんですけど、めちゃくちゃ良くなってて、多分これはモデルをちゃんと選べばいけるっていう感じだと思います。
私はなんだっけな、ちょっと待ってパッと出てこない。私が選んだのはOSS、ごめんなさいパッと出てこないので記事読んでください。記事を貼っておきます。そのモデルを選べば、めちゃくちゃいい感じに整形してくれます。
なのでAppleで音声認識をして、そしてGlockで整形する。この組み合わせだったら完全無料で、自分でクレジットカードから請求も来ない状態で音声認識ができます。スマホでもできるな。スマホでもAppleとGlockの組み合わせはいいと思います。
これはぜひやってほしいな、Macの方またはiPhoneの方。ちなみにWindowsの方はどうすればいいのかというと、Lazyなんとかっていう、これも記事に書いてるんですけど、そういうソフトがあってそれがいいという話を聞きましたので、よかったらそっちも見てみてください。
とにかくね、この音声認識はすごくいい。何がいいって、こうやってもうペラペラペラペラ喋っていって、この喋った内容を文字起こししてですね、それをまた整えてメルマガにするなり記事にするなりすればいいわけなんですよ。
そうすることでどんどん横展開もしていくことができるし、あなたが喋ったことを今後も残していけるっていうのはね、本当に素晴らしいと思うし、あとはね、私の場合は子供が4歳なのでまだね、下の子が。
なのでそうすると膝に乗ってくれるわけですよ。かわいいじゃないですか。そこでね、超邪魔。全然キーボード打てない。あとなんかすごいよだれ、したれかかってくるみたいな。甘えんぼなんですよね。
15:10
なので、キーボードが打てないので、そういう時に音声入力してやってます。なのでぜひ使ってみていただけたら嬉しいです。その記事をね、ちょっと貼っておきますので、よかったら読んでみてください。それではまた。うみなでした。