音声入力の現状
みなさんこんにちは、矢野哲平です。この番組は、耳で学ぶAIをコンセプトに、初心者・中級者向けに、AIを分かりやすく解説する番組です。
今回のテーマは、AI音声入力への誘い。Superwhisperで業務は3倍速くなるのか、について話していきます。
はい、ということで今日は、音声入力とAIの文脈で話していきます。
みなさん、音声入力は試したことがありますでしょうか?
これ、あの音声入力自体は最近出てきたものではなくて、昔からある技術というか機能となります。
話した内容がそのまま文章として入力できると。
で、音声入力何がいいのかっていうと、キーボードのタイピングに比べて2倍から3倍ぐらいですね、速度が速いというように言われています。
音声入力自体は昔からあるものなんですけど、おそらくこう思っている人も多いと思います。
タイピングの手間を省くために音声入力を過去に試したことがあると、でもあまり良くなかったよと。
で、実際私もですね、そういった感想を抱いていた一人となります。
ただ、最近は状況がちょっと変わってきています。
なぜなら、AIの登場によって音声入力の状況も変わってきているからです。
スーパービスパーの機能
今日は音声入力と、あとはAIの文脈で話していきたいと思います。
今日話すポイントは主に3つとなります。
1つ目に、AI音声入力アプリのスーパービスパーについて解説をします。
そして2つ目に、音声入力のユースケース、音声入力が活躍する場面について話したいと思います。
そして3点目に、音声入力が適さないケース、逆にですね、このケースだと音声入力は使えないかなというようなケースについて話していきます。
はい、では早速話していきましょう。
もともとですね、この話をしようと思ったきっかけがありまして、それが今日話すスーパービスパーというAI音声入力アプリとなります。
最近このスーパービスパーを使って、カーソルなどのコードエディターがあるんですけど、
そういったものと組み合わせて、プログラミングの作業効率を高めるというようなアプローチを取る人が増えています。
生成AIの登場によって、また音声入力が注目されているような印象があります。
音声入力自体はもともと昔からある技術で、最近出てきたものではないです。
でも、生成AIの登場によって、生成AIと音声入力を組み合わせることで、作業効率が上がるケースが出てきたというわけです。
で、なんでこういったことが起きているかというと、端的に言うとですね、音声入力で入力した文章っていうのは結構誤字脱字とか文章が破綻しているケースなんかもあります。
そういったものでも、AIが柔軟に理解をして、指示を理解してくれるからですね。
今までは音声入力をしても、キーボードで修正し直す必要というのがありました。
入力ミスが含まれるケースが多いからです。
それが生成AIの登場で状況が変わってきたと、AIと音声入力って結構相性が良いと思っています。
話をスーパービスパーに戻すと、ちょっとこれあの事前にお伝えすると、Mac専用のアプリとなります。
なので、Windowsユーザーはちょっと使えないアプリになるんですけど、具体的には人間が話した言葉っていうのを音声入力してくれるものになります。
従来の音声入力と違うのは、生成AIの技術でその文章というのを加工してくれるわけです。
つまり従来の音声入力に比べて文章の精度が高いのが特徴です。
スーパービスパーについてもうちょっと掘り下げると、カナダのトロント出身の企業家、ニールチャドリーさんが開発したプロダクトになります。
最初の公開が2023年ですね。最近話題になっていますけど、公開自体は結構前なんですね。
元々ある従来の音声入力では、音声で入力した内容に誤字脱字が含まれることっていうのは結構ありました。
なんと言ったらいいんですかね。うまく文字が変換できないケースなんかも結構あるんですね。
例えば私がチャットGPTと音声入力すると、単語の綴りが英語じゃなくてカタカナになったりとか、こういったケースがあったりします。
こうした音声入力ならではの細かいミス、例えば変換ミスとかですね。
そういったものを、AIがよしなに整形してくれるようなイメージになります。
従来の音声入力のツールが話した通りを書き起こすだけなのに対して、スーパービスパーではユーザーの指定したプロンプトに基づいて出力されるテキストを制御することができます。
パソコンやスマートフォンでも音声入力の標準機能というのは搭載されている機種は多いです。
ただ音声入力にこうしたAIとプロンプトを組み合わせるっていうアプローチをとっている機能というか、そういったアプリはあまりないと思います。
ちなみにスーパービスパーで使われている技術っていうのは、オープンAIが公開した音声認識モデルのウィスパーが使われています。
これはオープンAIのAPI経由でも使えるモデルですね。
こちら触ったことがある人はご存知の方も多いと思いますが、結構ですね文字認識の精度っていうのは高いです。
英語に限らず日本語などの文字認識の精度っていうのは高いものになります。
その他にもスーパービスパーでは生成AIモデルが使われていて、例えばオープンAIのChatGPTとか、あとはアンソロピックのクロード、メタのラマなんかのモデルが使われています。
面白いのがこのスーパービスパーはオンラインでもオフラインでも使うことができます。
ユーザー側で選択ができるんですね。
なので機密情報とか、あまり外部に送信したくない場合があるとします。
私が音声入力した内容をAIに学習させたりとか、外部に送信したくないと。
そういった場合でもユーザー側でオフライン、パソコンの中だけで完結するように選択することもできます。
次にスーパービスパーの具体的な使い方についてちょっと話したいと思います。
非常に使い方は簡単です。
まず公式サイトにアクセスをします。
そこからMacにインストールをすると。
ちなみに冒頭でも少し触れましたけど、スーパービスパーは現時点ではMac専用のアプリとなります。
なので公式サイトにアクセスするときにちょっと一つ癖がありまして。
クロームのブラウザーでアクセスをするとエラーが出るというものになります。
なのでサファリのブラウザーでスーパービスパーの公式サイトにアクセスをするというような流れになります。
これ最初私知らなくてですね。
クロームで何度もアクセスをしてずっとエラーだったのでサービス停止したのかなとちょっと勘違いしていた時期もありました。
スーパービスパーの公式サイトは概要欄にリンクを貼っておきます。
アクセスはサファリのブラウザーから行ってください。
ちなみにiPhoneアプリもリリースされています。
スーパービスパーのメリットは音声入力の精度が高い点ですね。
そしてその音声で入力した内容に対してプロンプと組み合わせることができると。
例えばこういった使い方もできます。
私が海外のニュースサイトを見ているとします。英語のニュースサイトですね。
私がマウスでドラッグ&ドロップである部分を範囲選択したとします。英語の部分ですね。
口頭で私がスーパービスパーにこのように指示をします。
私が範囲選択した部分を日本語に翻訳してリスト形式で要約をしてと。
するとスーパービスパーは要約した日本語の文章を返してくれると。
こんな感じで音声入力とAIというのを組み合わせることができます。
あとは日本語で音声入力した内容っていうのをそのまま英語に自動翻訳することもできます。
例えばAI、チャットGPTとかクロードですね。に対して英語で指示を出したい場合があるとします。
そういった時でも口頭で日本語で指示した内容っていうのを英語に翻訳してもらうとそういったこともできます。
あと話していてちょっと思ったんですけど、私知り合いにコールセンターで働く知人がいるんですけど
お客様と会話した後にその対応の内容っていうのをメモとしてタイピングで残すらしいんですね。
でこれをAI音声入力でやっても面白そうですよね。
タイピングよりもだいたい3倍ぐらい早いって言われているので業務効率化に貢献できるような気がします。
でこういったコールセンターの業務ってお客様の個人情報が非常に大事ですよね。
なのでAI関連のツールを使うのって結構アウトっていうところ多いと思うんですけど、
スーパーウィスパーの場合はすべてローカルで完結できるような形で音声入力することもできます。
つまり顧客情報を外部に送信することなくAIに学習させるようなこともないと。
結構コールセンター業務とあとはAI音声入力相性がいいのかなと今話していて思いました。
ただコールセンターでMacを使っているところって少なそうですよね。というかちょっとなさそうですよね。
Windowsを使っているところが多いと思います。
なのでコールセンター向けにWindows対応のAI音声入力のサービスっていうのを自分で開発するのも面白いかもしれないですね。
あのちょっと話変わるんですけど、こういった形で何かアイデアを思いついたときはディープリサーチを使うのがおすすめです。
例えばコールセンターで使われる法人向けのプロダクトで、
オペレーターがAIによる音声入力ができるようなサービスはありますかと。
市場調査をしてくださいと。
こういった形でディープリサーチに指示をすると、すでに日本でそういったサービスが展開されているのかどうかっていうのを調べることができます。
調べた結果、なければ自分で開発しても面白いと思いますし、
もしそういう企業があればですね、さらにサービス名で競合調査をかけて深掘りをすると。
あのそういったディープリサーチの使い方もおすすめです。
はいすいませんちょっと脱線しました。
このスーパーウィスパーの使い方はノートで記事に書いたので、興味がある方はこちらも覗いてみてください。
価格と利用方法
概要欄にリンクを貼っておきます。
次にスーパーウィスパーの価格についてちょっと説明したいと思います。
このスーパーウィスパーのアプリ、最初の15分までは無料で利用できます。
結構ですね初めて触ると驚く人多いと思います。
あのかなり使い勝手はいいのでおすすめです。
ただ15分を超えてトライアル期間が終了してしまうと、そこからは有料で使うか無料で使うかの二択になります。
一応スーパーウィスパーは無料プランでも利用ができます。
ただですね無料プランで利用できるAIのモデルっていうのが性能がかなり低くなるのでほぼほぼ機能しないんですね。
なので実質有料課金するかどうかという選択肢になります。
価格で言うと月8.49ドルとなります。
日本円で言うと1250円ぐらいですかね。
ただトライアル期間が終わると25%オフのクーポンというのが発行されます。
それを使うと実質6.37ドルになります。
なので今のレートで言うと940円ぐらいにまでディスカウントすることができます。
ここからさらに年間プランで仮に契約をすると780円ぐらいまで安くすることができます。
ここらへんはですねもう考え方次第かなと思います。
月額1000円ぐらい、1日30円ぐらいの金額でキーボード入力の効率化を図るかどうかという感じですね。
いずれにしろこのスーパーウィスパーのアプリはダウンロードしてから15分間無料で使えるので
音声入力の効率化
タイピングの効率化を図りたいっていう人はですねぜひチェックをしてみてください。
ちなみにスーパーウィスパーを課金するかどうかっていう話は別としても音声入力とAIっていうのは相性がかなり良いです。
なのでMacやWindowsにもともと搭載されている純正の音声入力っていう機能がありますよね。
そちらを試すのも全然アリだと思います。
ここからは音声入力全体のユースケースについて話していきたいと思います。
音声入力はやっぱりAIと相性がいいですね。
今ChatGPTとのやりとりっていうのはキーボード入力をしている人が多いと思います。
これを一度音声での入力に変更してみる試してみることをお勧めします。
あの音声入力は周りに人がいる環境ではなかなか難しい場合もあるんですけど結構ですねお勧めですね。
冒頭でも少し触れましたけど音声入力ってタイピングに比べてだいたい2倍から3倍ぐらい早いというように言われています。
なので単純にChatGPTとのやりとりをタイピングではなく音声入力に変えることでもっと早く操作することができると。
あとはプログラミング関連のタスクでも音声入力はお勧めです。
こうした機能があるアプリを作りたいですと。
私が今から話す内容をもとに要件をまとめてくださいと。
そしてそのまとめた要件の内容をもとに必要なファイルや必要なコードを教えてくださいと。
こういった指示内容っていうのをタイピングすることなく音声でAIとやり取りをすると。
プログラミング、AI、あとは音声入力この3つの組み合わせっていうのはすごくお勧めです。
じゃあ全てのケースで音声入力が使えるのかっていうとそれはちょっと違うかなと思う面もあります。
このケースでは音声入力は適さないなというケースもあります。
その判断基準というのが誤字雑字が許されるかどうかが一つの目安になると思います。
例えば外部に出す会議資料であったりとか、あと社外に送るメール、
こういったものは絶対誤字雑字っていうのは許されないですよね。
なので人間がチェックをすると思うんですけど、こうしたケースでは音声入力は合わないかなと。
音声入力によっぽど慣れている人じゃないと逆に手間がかかると思います。
入力した内容にミスがないか、変換ミスがないか、手直ししたりとかですね。
反対に外部に出さない、内部だけで消費するもの、そうしたものには音声入力が適していると思います。
例えばAIに質問する内容なんかは最たる例ですね。
ちょっとぐらい変換ミスがあってもAIが理解をしてくれると。
自分の業務の中でどれが音声入力に適していて、どれが適していないかっていうのは
実際に自分で試してみないと見えてこない部分なのかなと思います。
日常の業務の中に音声入力というアプローチを導入してみると、これが最初の一歩だと思います。
ただ一つの事実としてタイピングよりも音声入力は2倍から3倍早いと言われています。
この情報だけでもですね試してみる価値はあると思います。
実際に私が音声入力を試してみた感想としてもですね、体感としてやっぱり早いですね。
そういったこともあって、A8のやり取りっていうのはほぼ音声入力に移行しています。
最初はですね音声入力に対してちょっと違和感があると思います。
おそらく多くの方が音声入力を試すと同じ印象を受けると思います。
ただですね、初めてタイピングをした時のことを思い出すとこんな感じだったかなと。
最初キーボードの操作って慣れなかったですよね。
ブラインドタッチとかできないというふうに思ってましたけど、我慢して使っていく中で自然とできるようになっていたと。
これとちょっと同じような感覚で音声入力も最初はちょっと違和感があります。
これはおそらく多くの方が共通すると思います。
ただ音声入力を使っていけばいくほど上達していくとそういうふうに思います。
そうして音声入力を使っていく中でこのケースではあの音声入力使えるなと、
このケースではちょっと使えないなっていう知見がですね自分の中で溜まっていきます。
だいたい3日間くらい使うと音声入力慣れてくると思うので、
確かにタイピングよりも音声入力の方が早いなと実感できると思います。
はいそれでは今日のポイントをまとめます。
スーパービスパーはAIの技術を使った音声入力アプリとなります。
2つ目に従来の音声入力ツールが話した通りを書き起こすだけなのに対して、
スーパービスパーではユーザーの指定したプロンプトに基づいて出力テキストを制御することができます。
最後3点目に音声入力は合うケースと合わないケースがあります。
その際の判断基準というのが変換ミスが許されるかどうか、誤字脱字が許されるかどうかとなります。
AIと個人開発の展望
はい今日はこのへんということで本日も聞いていただきありがとうございました。
ちょっと話変わるんですけど、前回のポッドキャストGPT4.5とクロード3.7ソネットの比較会でしたかね。
こちらの配信後にお便りをいただきました。ちょっと読みますね。
いつも視聴しています。最近は個人開発をする人も増えている印象です。
少しAIとは直接外れるかもしれませんが、おすすめのAIモデルと他ツールの組み合わせなどを使ってみて紹介しても面白いと思いました。
例えばアプリ開発ならバブル、クロード3.7、カーソルの組み合わせがおすすめなどです。
以上となります。お便りありがとうございます。
まさにその通りで、AIを使って個人開発する人って増えてますよね。
海外でもAIを使って起業する人が増えているという話も聞きます。
これ、背景にAIを使って業務効率化をして、少ない人員とかコストで起業するハードルが下がったからだと思います。
特にAIとプログラミングは相性がいいので、今までプログラミングに縁がなかった人でもアイデア次第でプロダクトを公開できる土壌が整ってきたような印象を抱いています。
AIと個人開発の話は私自身もすごく興味があるので先で話したいと思います。
あとは、AIと個人開発の文脈で追加でこういったことも掘り下げてほしいとかあればですね、感想フォームからご意見もらえればと思います。
あと最近、動画学習プラットフォームのユーデミーで新しい講座を公開しました。
えっとですね、プログラミング知識ゼロでオープンAI APIを使ってAIの自動化をするという講座になります。
こちらの5日間限定のクーポン発行したのでAPIや自動化に興味がある方はぜひ覗いてみてください。
概要欄にリンクを貼っておきます。
番組ではこのように耳で学べるAIを毎週発信しています。
通勤中や家事の合間にAI情報をキャッチアップできます。
毎週水曜朝に更新していますのでぜひフォローをお願いします。
お相手は耳で学ぶAIの矢野てっぺいでした。
また次の配信でお会いしましょう。