2025-05-06 17:35

849☠手打ち終幕🎙️神業音声入力Aqua Voiceが高精度!Windows標準機能と比較。音声入力とタイピングは並行作業できる…?時短効率化/ライフハック

動画版はSpotifyで「聴くまとめ」を検索!
※リンクはアフィリエイト広告を含みます


✅️Aqua Voice 音声入力 神AI
https://withaqua.com/share?code=KT-N5GK

関連ツイート
https://x.com/Koukichi_T/status/1919391043860009295

検証結果:ムリ!「音声入力」と「タイピング」並行作業で2つの記事同時に書けるんじゃ!??|Koukichi_T
https://note.com/koukichi_t/n/nd8f79e61f173

#聴くまとめ #AI #AquaVoice#ライフハック #クリエイター #ポッドキャスト #効率化 #時短 #音声入力 #おすすめ


--


✅️YouTube収録/ポッドキャスト/ライブ配信関連機材

🎙️今回の収録機材

🎙️Fifine K688 

Amazon https://www.amazon.co.jp/dp/B0BK49VSMD/?tag=kt_podcast-22

楽天 https://a.r10.to/hRfVPj

AliExpress https://s.click.aliexpress.com/e/_ol07z9 


📷️WEBカメラ:Insta360 Link

https://www.amazon.co.jp/shop/kt.pics/list/KUI7D4JMYJF6?ref_=aip_sf_list_spv_ons_mixed_d⁠


📎まとめ:YouTube収録/ポッドキャスト/ライブ配信関連機材

https://www.amazon.co.jp/shop/kt.pics/list/KUI7D4JMYJF6

✅️使用アプリなど

音声編集:Adobe Audition

https://prf.hn/l/eOz1Vdo/

動画編集:Adobe Premiere Pro

https://prf.hn/l/0eQV8V1/

全部入りCreative Cloud 

https://prf.hn/l/G9Ja5D5/

--


✅️買ったやつ。ガジェット関連おすすめなどまとめ

Amazonマイストア

⁠⁠⁠https://www.amazon.co.jp/shop/kt.pics

Amazonの新機能です。楽天ルームみたいなかんじのやつ。

カテゴリ分けして載せてるので、気になるものあればコメントなどもらえたらポッドキャスト内で紹介します


--


✅️関連SNS

ブログ

⁠⁠https://koukichi-t.com/

Twitter(X)ポッドキャスト用

https://x.com/kiku_matome

Twitter(X)中の人

https://x.com/Koukichi_T


✅️YouTube

ガジェット本音レビューチャンネル

https://www.youtube.com/channel/UCZzl7IurT1V8-HPrF0S07GQ

SNS関連情報チャンネル

https://www.youtube.com/channel/UCkDwn4gZY8VYHAxCkHynTWw


--


この番組はkoukichi_tが、SNS、エンタメ、ガジェットの話題を余談だらけで紹介していくポッドキャスト、まとまらなくてもまとめ「聞くまとめ」です。倍速再生、ながら聞きで情報収集に活用してください⁠⁠

※アフィリエイト広告リンク含みます⁠

以下でも聞けます!「聴くまとめ」で検索!

Apple Podcast/Amazon/YouTube/Spotify

サマリー

このエピソードでは、音声入力サービスのAqua Voceが優れた精度を持つことが紹介され、Windows標準機能との比較を通じてその利便性が語られています。また、音声入力とタイピングを並行して行うことについて考察され、効率的な作業の可能性が触れられています。さらに、音声入力の精度向上と使用体験の変化について話され、音声入力とタイピングを同時に行うことの難しさが示されています。

音声入力の導入
おはようございます。2025年5月6日午前5時頃の収録です。今回は、AI絡むのかな?これは音声入力のサービス。はい。テキストのタイピングではなく音声入力。これも5、6年前くらいから音声入力に切り替えてっていう話、散々。
ポッドキャスター始めたのは5年前くらいだと思うけど、流れの中でいろいろと話をしていました。今回、めちゃくちゃいいサービスっていうのを紹介というか、Twitterの方に投稿したものがあるんだけど、Windowsの音声入力を普段は使ってるんだけど、比較した感じ、この映像というか音声を流そうと思います。
そして、他にも5、6年前というところで、音声入力とタイピングの並行っていけるんじゃないかみたいな話。最近、音声入力っていう流れが多分来ていると思うんだけど、そのAIとかのプロンプトで音声入力っていうところに、そっち方面に音声入力を使う人がどんどん増えてきているっていう状況にあるんじゃないかと思います。
でも、5、6年くらい音声入力をメインとして使っていた身からして、いろいろ思うところがあったりとか、そんな中、このサービス、これがいいですよみたいなのとか、ちょっとこの辺り軽く触れようと思うので、よかったら最後までチェックしてみてください。
この番組は、KTがSNSアプリの新機能やエンタメガジェットの話題を4段だらけで紹介していく、まとまらなくてもまとめ、聞くまとめです。倍速再生、ながら劇で情報収集に活用してください。
はい。ちょっと待った。曲が流れていないぞ。ちょっと流そう。ごめんなさい。どれだろうな。なんかうまくいかないな。難しいな。はい。ごめんなさい。これでいきます。
はい。とりあえずツイートしたところから見てもらおう。ちょっと動画で見てもらうとわかりやすいと思うんだけど、この後音声の人にもわかるようにはします。
要は、普段は個人的にはWindowsの標準の音声入力をショートカットというかマウスに割り当ててあって、Windows Edgeで音声入力って起動します。
はい。そのままマイクに話しかけるとか、そんな感じで全部、全部というか基本的には音声入力メインかなツイートだろうがなんだろうが全てのことにおいてだいたいもう口の方が先に行く感じ。
物によってはタイピングしちゃった方がいいなと思ってタイピングすることってのもあるんだけど、音声入力してご自修正をかけるみたいな感じです。
やっぱりWindows音声入力ってまあまあある程度大丈夫なんだけど、使ってない人からするとなんかダメそうに思うかもしれないけど、割とね最低限は使えます。
というなんか弱いところっていうのも当然あって、今映像の方だとこれ上にその今回紹介しようと思っているサービス、下にWindowsで入力したバージョンとして文章載せてあります。
実際に語字がね結構、語字がちょっと混ざったりとか、あとは英語に弱い英単語というか、固有名詞英語のInstagram、TikTok、NVIDIA、OpenAIとかやったんだけどねほぼほぼカタカナになってしまっている。
で上に載せているのが今回のAcquired Voiceという音声入力のサービスになります。
これ無料の括りとあとは一定から有料になっちゃうから、まあそういうサービスあるんだけど、とりあえずこれ目でね今見てもらったらめちゃくちゃわかりやすいと思うんだけど、さっき言ったInstagram、TikTok、NVIDIA、OpenAIとか全部完全にもう英語固有名詞としてちゃんと表記されています。
これがねなかなか音声入力を使っている人だと伝わると思うんだけど難しいところであったりします。なかなかねうまく対応してくれなかったりする。
実際に音声の方、これ動画としてTwitterにあげたもので今から流します。これ音声の方にも非交流に流れるので。
一応説明すると2つの文章、全く同じ文章を口で音声入力のつもりで喋って、で1つ目がAcquired Voiceの結果、2つ目がWindows音声入力の結果って感じになります。
音声側だとその実際に打たれた文字がわかんないのでちょっとわかりづらいと思うんだけど。
ちょっととりあえず流します。
これが結構ちゃんと打たれたっていう。
続いてWindows音声入力です。
こんな感じになります。音声側だと同じことを2回喋っただけでしかないんだけど。
先に説明したように今喋って音声入力をした結果、もちろんこのメモ帳みたいなテラパッドに入力されています。
その喋った後に。
その結果をツイート側の方にも文字として載せたんだけど、さっき言ったみたいにAcquired Voiceって方はほぼほぼ完璧。
完璧かな?多分完璧だと思います。
Windows側の方はAcquired Voiceってサービス名がまずカタカナになっていて、さっき言ったみたいにInstagram、TikTok、NVIDIA、OpenAIっていう最後のところはもうね、
クテンとか、クテン?トーテン?あのテンとかも入らずに全部繋がってカタカナで書かれてしまっている。
対してAcquired Voiceって方に関してはInstagram、TikTok、NVIDIA、OpenAIって全部点で区切った上で、完璧なスペルで全部ね、もうサービス名、プラットフォーム名が書かれているって感じになります。
並行作業の可能性
Acquired VoiceもちゃんとAcquired Voiceになってる。
これは当然自社のものだから。
みたいなところで、これはね、結構いいんじゃないかなっていうところです。
実際サービスの方見てみたんだけど、もちろんさっきの料金のやつを見たら、あれどっから言ったっけな。
なんかね、最低のプランだとそんなに高くないんだよね。
最低のプランでも多分8ドルくらいからあったのかな。
だからちょっと考えている最中で、もうちょっといろんなパターン試してみようかなと思っている最中です。
無料でもある程度使えるんだけど、なんてなったっけな。ちょっと覚えてないな。何文字までなんだかなんだか。
これが実際の試せる画面です。
で、これ音の方の人には分からないと思うんだけど、
なんかね、例えばキーのショートカットは自分で設定できるんだけど、
えーと、俺が設定したとオルトプラスWを押している間だけ音声入力になってくれるみたいな感じになっています。
これ多分設定で、もうそれを押した時点でずっともう音声入力状態キープ、指を離してもキープするって感じも多分絶対できたと思うんだけど、
ちょっとここで何か打ってみます。何で打とうかな。
何を打おうか。
A単語が混ざっていた方がいいんだけど、
ちょっと適当にツイートしたところを読んでみるか。
はい、今はもう音声入力。
あーごめんなさい。
待った待った待った。
待って。
このね、今テスト機能がこのサイト上にあるので、
ここに今テキストエリアがあって、ここでスペースホールド、
押しっぱにしていると打てますよって説明が下に書かれています。
はい、こっから、
あ、何か変な話した。
ちょっと待って。
日本語入力でスペース判定になっちゃったのかな。
あ、そうだね。
はい、ちょっと打ってみます。
もう打ち始めている。
打ち始めているというか、言葉で音声でしゃべっている。
ちょっと早口で読んでみようか。
時代が追いついた感あるので、
これも改めてチャレンジしよう。
前試した感じでは、
片方をメモ程度なら、
もう一方を上の空にすることでできそうな感覚があった。
同一デバイスじゃフォーカス依存があるから、
スマホとPCとかか。
はい、今は過去にツイートして、
今回の音声の入力サービスのね、
スレッドとして手前にツイートしたものになります。
今ずっと音声入力しています。
話してみます。
スペースボタン。
はい、今話しました。
話すと、もう一気にまとめて文章入ります。
どうだろうね。
漢字はちょっとあれか、しょうがないか。
打ってみますと言ったところは、
あの、もう、
打撃の打になっているけど、
ここはちょっとしょうがないかなと思う。
あとは言葉で音声でしゃべっている。
ちょっと早口で読んでみようか。
結構あってないか。
英単語がちょっと今回入っていないのが惜しいけど、
例文としては。
結構精度高いぞ、これ。
日本語だけで考えても。
ほぼほぼパーフェクトじゃない。
ちょっと後でちゃんと見てみよう。
試しにもう一回ここもリアルタイムで
日本語音声入力でも読んでいます。
今のツイート。
はい、これも
Windowsの音声入力になっています。
時代が追いついた感あるので、
これも改めてチャレンジしよう。
前試した漢字では、
片方をメモ程度なら、
もう一方を上の空にすることでできそうな感覚があった。
同一デバイスではフォーカス依存があるから
スマホとPCとかが。
はい。
どうだろうね。
これはまあそんな問題ないのかな。
まあ問題なさそうだね。
ここが同一デバイスじゃん。
ちょっとね、やっぱね、
Windowsの方が弱いかもしれないです。
日本語だけで考えても。
まあ多少の差かもしれないけど。
まあさ、どっちにしてもさ、
もし音声入力を普段使ってない人からしたら
結構この時点でびっくりするんじゃないかと思うんだけど
このさ、結構割と早口でしゃべっても
こんだけとりあえず打てます。
わかりづらいかもしれないけど、
2回目やったのは、
このサービス上で打てたけど、
あくまでWindows側の
誰でも使えるWindowsの
音声入力の機能で打ちました。
1回目の結構正確じゃんと言った方が
このサービス、AquaVoicesで
このやつを使った感じになります。
これコンティニューってやつどっかでな、ちょっと待って。
ログインしなきゃこれはあれか。
ちょっとサービスの料金とか見られないのか。
もう1回戻れば出てくるか。
プライシング、価格。
えっとね、フリーで
1000ワードだって。
1000単語ってことだね。
と、あとは、
有料版でも月額。
えっとこれは年払いの方で
年払いの場合ってことだね。
月額8ドルとか、まあそんな高くないんだよね。
で、音声入力俺みたいにガツガツ使う
っていう人間だったら
この精度とか、ちょっと本当に最初に流した
A単語含むもの、こういう名詞とか
考えると、これ結構ね
いいんじゃないか。結構効率化になりそうな
気がします。結局さ
Windows側でやるとさ、こんな
カタカナだらけになっちゃう。これ結局打ち直さなきゃいけない
けどもね。それ考えると
8ドルとかだったら悪くないけど
月、まあちょっとな、年払いは
ちょっと怖いから
月単位にした時にいくらくらいになるのかわかんないけど
はい、みたいな感じです。このサービス
に関しては。そして
このツイートに付随する感じ、手前に
打ったものっていうのがさっきから2回くらいさっきも
読んだ、時代が追いついた感ある
つった話。そう、これが何の話か
っていうと、過去2019年2月に
ツイートをしたもので
ノートの記事、タイトルになります。
検証結果、無理、音声
入力とタイピング
並行作業で2つの記事
同時に書けるんじゃ。はい
まあ普通に読んだまんまなんだけど
音声入力をいろいろ試して
iPhoneの音声入力って結構使えるんじゃんって
これね、記事書いたの2月なんだけど
2019年。実際2018年
年内に試しにやったら
結構思ったよりいいんじゃんと思って
そっからガツガツ音声入力使いました
さっきツイート遡ってみたら
今こそさ、もう何も考えずに普通に
この5、6年間の間音声入力を
メインとして使っているわけだけど
何の疑問もなくね
もちろんタイピングも普通のタイピングも普通に打てるし
音声入力の進化と体験
ある程度の測定でも打てるし
今も併用はするんだけど
年数が経つごとに
音声入力率が高まってきたっていう感じで
現在に至るんだけど
当初の過去のツイートを見たらどうしても
音声入力が難しいみたいに
言っていて。要は音声入力に
慣れていないからこの言葉に詰まってしまって
なんかさ
ポッドキャストみたいにフィラーとかさ
なんかさとかこんなこと言ったってさ
ポッドキャストは入んない方がいいけど別に言ったって問題ないじゃん
聞き苦しいだけだって
でも音声入力の場合ってなんかさとかえっととか
全部打たれてっちゃうわけで
多分そこから見で悩んでたんだと思うんだけど
なんかね今ね
今ふと気づいたけどそういえば不思議と
ポッドキャストの中でフィラーって結構出ちゃって
困るなって思ってんだけど
なんかさとかえっととかそういうやつね
でも音声入力の時って
不思議と出ないね
なんかねよくねフィラーを出さない方法
として一番有名な方法
っていうのが大きな声で話すっていうのがあって
なんかさ考えてみたらさそう言われてみて
納得だったんだけどあのーって
でっかいこと言わないじゃんえっとーみたいなこと
なんかそれと同じで音声入力の時
吐き吐き喋んないと
あの無駄な手間減らすために吐き吐き喋って
ちゃんと滑舌よく一発で
決めたいっていう思いがあるからか
だからかねフィラーって入んないねそういえば
平行作業の試み
喋り方もどことなくちょっと
説明的な喋り方になってる
ところもあるかもしんないけど
そのさ話し言葉じゃなくてさ
各文章を口にしているわけだから
まぁそんな感じのところがあります
まぁとにかくそんなことがあった中
このまぁ5,6年前の段階で音声入力と
タイピング並行でいけるんじゃないか
って話繰り返しになるけど
でこれなんでいけそうかなって思ったかっていうと
例えばさ普通にPCでさ
タイピングできる人だったら分かると思うんだけど
まぁPCじゃなくてスマホの
フリック入力じゃなくてでもいいかもしんないけど
人の話でさ聞きながら
受け答えしながらタイピングってできるじゃん
普通にタイピングできる人だったら
なんの苦もなく無意識でできると思うんだけど
要は文章をカタカタ打ちながら話しかけられて
うんと
うんそうだねじゃあどこどこ行こっかとかさ
何々食べたいとかそんな会話できるじゃん
じゃあできるんじゃねって思ったんだよね
でまぁ今画面にノート実際書いてあるんだけど
このリンク貼っとくのでよかったら見てみてください
ざっくりちょっとずつなので
そう
でマルチタスクと思って実際に
試してみたところ結果から言うと
まぁ無理っていう話でした
ちょっとこれをこのまま読んでみようか
えっとね
平行作業を試みるもこれは無理
この感じだと手の方が止まってしまう
ここ重要
さっき言った会話としたタイピング
平行できるんじゃねって思ったところに対して
実際試して気づいたことが
会話の場合相手の言ってることを
聞いて
理解して回答という流れによって
複雑化
じゃあ相手のいない
相手がいないなら余裕だろうと思って
まぁこの音声入力と
あれだよね手のタイピング
平行だったらいけるんじゃんと思ったら
実際には
実際には相手がいない会話
ではないことが問題となってきた
っていう話ですさっきのさ
タイピングと人から話しかけられて
返すことっていうのは聞いて理解して
それに回答だからそっちの方がハードル
高いと思ったら真逆でしたってところ
要は会話の場合は
相手の質問に対して答える
要はねポイント7は答える
だけなんだよねそう対して
文章を書く場合つまり
音声入力しながら文章を書こうとした場合って
聞かれたこととか
そういうことに関して
回答するだけではなく自発的に考える必要がある
つまりまんまね
音声とタイピングの両方を
頭で考えながら進めなきゃいけないから
これが難しいっていうところ
実際試してみてわかったんだけど
ちょっと考えればわかることであるけどさ
なので結果的に音声入力とタイピングによる
入力の平行詐欺は
困難な気がしてきた正確に言うと
タイピング自体は可能だけど
喋ってるのと同時に
タイピングする内容を考えるのは
厳しいものがありそう
音声入力の課題
やっぱね頭を使うことが難しいね
そう
ってことで結果何の成果も得られませんでした
みたいな感じで
音声入力当時だと今よりも精度低いから
なんかねこんなね途中で
みたいにいっぱい文章が入っちゃったりとか
そんなことがあったんだけどSiriで入力したものがあります
音声で
平行して手で何か打とうと
PC側で打とうとしたのかな
全く済まず唯一書かれていたのが
何か書かなきゃいけない打たなきゃいけないな
って喋りながら打ったのが
インスタっていうカタカナ4文字
だけ残ったっていうのをちょっと
画像もあげてあげるんだけど
そうみたいな感じで
なんかね今回この過去のやつを遡ってみて
ちょっと思ったのがね
この今回過去を
遡ってちょっと改めて
この平行の
音声入力とタイピング平行するやつを
試してみようかなって話を
ちょっとしたんだけど
そこで書いたのが片方をメモ程度なら
片方をやることが
メモ程度なら手打ちの方だよね
メモ程度のことであれば
もう一方を上の空にすることでできそうな
感覚はあったっていう部分が
このノートの中を自分で見てみて
前も同じこと
思ってたんだなっていうのをちょっと感じたんだよな
なんかねやっぱね上の空
どっちかをアバウトなノリに
しないとちょっと難しい
両方を考えながらってのは普通に考えてさ
わかると思うけど
これはちょっと試してみようかなと思います
なんかせめてメモ程度でもさ
とかなんかね
コツがある気するんだよな
なんかね俺ピアノとかさ一切弾けないんだけど
楽器全般全部無理なんだけど
それでもなんかね一曲ぐらい何か弾いてみたいなと思って
必死にこうピアノをねキーボードか練習したことが
あったらねもう単純な趣味として
その時に
片手だけ普通の人はどういう練習するか
知らないよ俺もう完全に独学というか
もう思いつきでやっただけのことなので
その時にやったのは片手だけ
もう完璧にしてこれを無意識で
できるまでやってその上で
あのね右手を右手の方だけ
考えてやるみたいにしたらちょっとね
弾けるようになりました
弾ける人だって全然上手いわけじゃないんだよ
全然もう素人の
軽じいて弾けてるぐらいなんだけど
元がね不器用だしリズム感とか
全然ないから本当にね
反拍で打つとかその程度でももう
できないぐらいもうめちゃくちゃ
ダメなんだけどそれでも片側を
片手だけ無意識で弾けるようになったら
例えば左無意識で
左手が無意識だったら右手は
きっちり考えながらで何とか
できたっていうのがあるからその感覚に近いのかな
ちょっと思ってだからさっき
片っ端上の空にしたらいいんじゃないかみたいな
言い方をしたんだけど
ということで
今回はこんな感じでちょっと終わりにしよう
その他
音声のテキストからの
音声の文字を
音声の読み上げ俺の自分の声で
読み上げるというサービスに関して
3サービスほど元々使ってきたものも
含めてちょっと軽く比較してみました
これを次か近いうちに
別で動画
動画でやるかな多分
音声だって分かるか
耳で聞くバージョンなら
それもやろうかと思うんで
別のものも間に挟むかもしれないけど
ということで今回以上となります
ありがとうございましたさよなら
17:35

コメント

スクロール