00:00
アシカガキャスト。
新しい音声入力ツールを試してみました。
Wispr FlowというMac用のソフトウェアです。
このWispr FlowをMacにインストールして、ホットキーを設定すると、
そのキーを押している状態で話しかけることで、自動で文字起こしされます。
GmailでもSlackでもメモアプリでも、文字を入力できるところだったら、
どこでも音声入力を使うことができます。
ホットキーというのは、何か特定のツールだったり、機能を呼び出すためのキーを設定できるということなんですが、
どんな時でも特定のキーを押すことで音声入力ができるのは便利だと。
思ったんですが、考えてみたら、Mac標準の音声入力でもできることでした。
今まで音声入力をあまり使ったことなかったんですが、
ファンクションキーのマイクのキーを一回押したら音声入力が起動して、
もう一回押すと終了します。
なので、音声入力を呼び出すためのお手軽さで言えば、標準の音声入力もこのウィスパーフローもあまり変わりません。
違いとしては、Mac標準の音声入力はキーを一回押したらスタートで、もう一回押したらストップなのに対し、
ウィスパーフローの方はキーをずっと押しっぱなしの状態で音声入力を話したら終了ということになっています。
そして、Mac標準の音声文字入力では、しゃべっている途中でも随時テキストが表示されていきます。
ウィスパーフローの場合は最終的にストップしてからテキストが表示されます。
話している途中でもどんどんテキストが表示される方がいいように思うんですが、
ウィスパーフローが最後まとめてテキストを表示するようにしていることには意味があります。
キーを押しっぱなしで入力するということにも意味はあると思うんですが、
これに関しては押しっぱなしにしないでいいようなハンドフリーモードというのもあります。
音声入力を起動させるためのキーとスペースバーを同時に押すことでハンドフリーモードにできます。
03:03
ハンドフリーにする方法は他にもいくつかあります。
じゃあウィスパーフローが標準の音声入力よりどこがいいのかということが気になりますよね。
公式サイトの説明によると3つのポイントが書いてあって、
1つ目が自動編集、2つ目が状況に応じたテキスト化ができる、
3つ目がその人らしい文章になるということでした。
これ英語で書いてあるので、違約したらこんな感じかなということです。
自動編集というのは、しゃべったそのままが忠実にテキストになるわけではなく、
ある程度整理された文章として書き出されるということです。
なので入力途中にテキストが表示されないんですね。
例えば、じゃあミーティングは5時にしましょう。いや、6時にしましょう。
というと、じゃあミーティングは6時にしましょうとテキスト化される、
そういうことができるらしいんですが、これはなかなかうまくいきませんでした。
後でうまくいったケースの話もしますが、
日本語ではこの自動編集は今のところあんまり使えない感じがします。
状況に応じたテキスト化ができるというのは、
メールの返事なのか、スラックの返事なのか、
SNSに投稿するのかなどの状況に応じた文章を作ってくれるらしいんですね。
ただ、これ私いろいろ試してみたんですが、
今のところその効果が出てるなと実感したことがありません。
日本語で使っているのでうまくいってないのかなと思っています。
例えば、斉藤さんから来たメールに返信するときに、
斉藤さんと喋って音声入力すると、
そのメールをくれた斉藤さんの漢字が正しい漢字の斉藤さんになるのかなとか、
そういうことだと思ったんですが、
そんなに試してはないですが、今のところ私が試した範囲では、
これはすごいとなったことはありませんでした。
その人らしい文章になるというのは、
使い込んでいくうちにその人らしい文章を作るようになってくるらしいんですが、
これも今のところ効果を感じたことはありません。
ユーザーの話し方や文体を学習して、
06:03
より自然な文章を生成してくれるらしいです。
日本語環境でもうまくいくのかはわかりません。
有料のプロ版のみの機能らしいんですが、
最初の2週間はお試しでプロプランの機能が全部使えるようになっています。
次に私が実感したウィスパーフローのマック標準の音声入力とは違うぞというところを話したいと思います。
まずさっきの繰り返しになりますが、自動編集ですね。
成功した例を言うとちょっと微妙なんですよねみたいに言った時にちょっと微妙なんですよねとテキスト化されました。
あと音声で編集指示をするということもできて、
テキストを選択した状態でフロー、この文章をもっと丁寧な文にして
と言うと丁寧な文章に変更してくれました。
アルファベット表記にするように指示してちゃんと変更してくれたケースもありました。
ただこれも失敗するうまくいかないことの方が多いです。
なおこれもプロ版のみの機能ですね。
ウィスパーフローを紹介する、PRする動画ではキーボードをノコギリで切ろうとしていて
キーボードはいらないというのが強いメッセージになっています。
ただじゃあMacの標準の音声入力機能はずいぶん前からあるので
それでもキーボードはいらないみたいな流れにはなってないですよね。
なのでじゃあ音声入力でキーボードをいらなくするにはどうしたらいいかということを考えての
自動編集であったり音声による指示でテキストを編集していく機能だったりするのかなと。
AIの力を借りながらキーボードを使わずに音声だけで文章の作成ができるようにということを
本気で考えているツールなのかなと感じました。
ただ多分まだまだその道のりは長そうだなとも感じています。
他の機能として、辞書登録の機能があって
辞書登録しておくとその言葉が登録している表記でテキストになるので
09:00
これはシンプルに便利ですよね。
例えばアシカガキャストというのをカタカナのアシカガにCASTという
アシカガキャストで使っている表記で辞書登録しておくと
アシカガキャストと喋るとその表記でテキスト化されるので便利なはずです。
あと音声入力した内容は全部保存されていて
実は音声も保存されていました。
なので自分が何て言ったか聞き直すことができるんですね。
音声からテキストに再変換することもできます。
この履歴は検索もできるのでちょっとパッと言おうとは思いつかないですが便利な気がします。
あと囁きモードというのがあって小さな声で囁くような声でも音声入力ができます。
これは試してみたんですが結構すごいと思いました。
本当に聞こえないような声でもちゃんと変換できるんですね。
明らかにMac標準の音声入力よりも小さい囁き声でも拾ってくれるんですが
Mac標準の音声入力でも意外と小さな声でも認識するんだなと試してみて思いました。
また対話型AIのPerplexity に指示を与えることができて
Perplexity なんとかかんとかとプロンプトを言えば
自動でブラウザーでPerplexity のサイトが立ち上がってプロンプトが実行されるらしいんですが
これは一度もうまくいったことがありません。
私のPerplexity の発音が悪いせいかもしれません。
なおトークタスティックという競合ツールもありました。
このトークタスティックも状況に応じたテキスト化ができるというところを売りにしています。
トークタスティックは音声入力した時に喋ったそのままのテキストと
AIが文章を整えてくれたものとのどっちかを選んで入力することができる
そんな仕組みになっていました。
ウィスパーフローの方がトークタスティックよりも後に出ている
後発のツールみたいなんですが
私が使ってみた感じではウィスパーフローの方が洗練されてるなと思いました。
12:02
今回は以上です。
アシカガコウジがお届けしました。
キャストアシカガ〜♪。