1. AI駆動開発部の日常
  2. 23【Amical・VoiceOS・Apple純..
2026-02-22 24:29

23【Amical・VoiceOS・Apple純正比較】音声入力ツール結局どれ?

今回は、以前も話題にした音声入力アプリAmicalのアップデートとして、阿部さんがVoiceOSやApple純正の音声入力を経て再びAmicalに戻ってきた経緯について語っております。
スクリーンショットのコンテキストを読み取って文章を生成してくれるVoiceOSの機能に惹かれつつも、実際に使ってみると出力の精度に課題があったという阿部さん。一方でApple純正はレスポンスの速さと安定感が魅力だけれど、カタカナや英語の変換に弱い。この三つ巴の中でなぜAmicalに軍配が上がったのか、それぞれの強みと弱みが浮き彫りになるやり取りでした。
後半では、Amicalの言語設定を英語にすると日本語の発話がそのまま英語に翻訳されるという偶然の発見から、コンテキスト効率やAIへの入力最適化の話へ展開。さらに音声入力が前提になった世界では、キーボードの配置やパソコンの形状そのものが変わるのではないかという未来の話にまで広がりました。

▼Amical 公式サイト
https://amical.ai/

▼VoiceOS 公式サイト
https://www.voiceos.com/
---
stand.fmでは、この放送にいいね・コメント・レター送信ができます。
https://stand.fm/channels/68dc82a9036795923c400b4f

サマリー

今回のエピソードでは、音声入力ツールの進化と将来性について掘り下げています。まず、以前話題になったAmicalのアップデートとして、阿部さんがVoiceOSやApple純正の音声入力と比較し、最終的にAmicalに戻ってきた経緯が語られます。VoiceOSはスクリーンショットのコンテキストを読み取って文章を生成する機能に魅力を感じたものの、出力精度の課題がありました。一方、Apple純正はレスポンスの速さと安定感が魅力ですが、カタカナや英語の変換に弱いという弱点がありました。これらの比較を通じて、Amicalが自然な文章生成や言い間違いの吸収といった点で優れていることが再確認されました。 後半では、Amicalの設定を英語にすることで日本語の音声が英語に翻訳されるという偶然の発見から、コンテキスト効率やAIへの入力最適化といった新たな活用法が議論されました。さらに、音声入力が前提となった未来の世界では、キーボードの配置やパソコンの形状そのものが変化する可能性についても考察が展開され、音声入力技術の進化がもたらすインターフェースの変革への期待が示されました。

音声入力ツールの現状とAmicalへの回帰
こんにちは、AI駆動開発部の日常へようこそ。 このポッドキャストは、日々AI駆動開発を行う
企業家の山本とエンジニアの阿部が、 AI駆動開発のリアルを揺るぐ語り合う番組です。
はい、では、よろしくお願いします。
よろしくお願いします。
はい、じゃあ、まあちょっと、いろいろ話したいことはあるんですけれども、
今日は以前話したAmicalについて、 もう少し話ができたらなというふうに思っております。
っていうのも、阿部ちゃんがね、VoiceOSっていうサービスとかも使ってたよね、最近。
そうだね、音声入力のね。
で、なんかその結果、今はAmicalに戻ってきてっていう、 なんかそういう横で僕は見てたんで、
なんかその辺の話で、逆にVoiceOSって何が良かったのかみたいな話とか。
で、なんかAmical最近ちょっと進化してるみたいなところもあるし、
なんかその辺の話ができて、なんか前回の話のアップデートみたいな感じに、 慣れたらいいのかなっていうふうに思ってます。
なんか余談なんですけど、最近僕はパソコンが壊れてて、
そのせいでマイクが壊れてて、
最近文字起こしっていうか、口で文字入力するっていうのをあんましてなかったんですけど、
なんか久しぶりにパソコンが帰ってきて、やっぱいいですね、文字起こし。
全然やらないからね、なんかあんまハマらなかったのかなってずっと思ってたけどね。
横でね、マイクが効いてなかったっていう。
効いてなかった、そういうこと?
そう、マイクが効いてなくて。
俺ちょっとイヤホンやるの苦手やから、ちょっとイヤホンやってまでって思って。
そう。
まあけど、やっぱ音声入力いいよね。
なんかその楽だから、細かい言葉のニュアンスとかまで全部伝え切ろうと思えるっていうか、心持ち的に。
もう言葉でバーっと喋れるから、タイピングとかしてるとやっぱり何だろうな、手疲れちゃうからはしょっちゃうとかね。
そうそうそうそう、もうこれでいいかみたいなとか。
綺麗に収めすぎちゃうのかな、タイピングして。
そうそう、そんな感じがある。
みたいなのがちょっとある中で、やっぱ音で入力すると多少なんか周りくどい説明とかになっても、
その辺はアミカルがね、吸収してくれて。
あれもすごいよね、単なる文字起こしじゃなくて。
ああとかえーとか、そういう話もそうだし、ちょっとなんか言い間違って言い直したときも、
吸収してくるよね。
切ってくれるのすごいんだよね。
すごいよね。
まあなんかそんな感じで、ちょっといろいろ普段からやってるっていうこともあるので、
その辺のアップデート内容を話せたらなというふうに思ってます。
じゃあまず簡単にあれかな、ボイスOS?
まあちょっとアミカルの対比というか。
ボイスOSもね結構いい、あの俺はちょっと使ってないかったんで、
マイクが壊れてたんで使ってなかったんですけど、
まああの結果的に阿部ちゃんはアミカルに行ったっていうことなんですけど、
話を聞いてる感じボイスOS自体もかなりいいなって思ってるので、
なんか簡単にボイスOSとはみたいなところからなんか話してもらってもいいでしょうか。
了解です。
VoiceOSの機能とAmicalへの再評価
まあでも基本はねアミカルと同じで、
その音声を入力したら文字起こしてくれるっていうのがまずベースの機能なんだけど、
ボイスOSがなんか他と一個違うのが、
その話した内容をそのまま文字起こしするのではなくて、
なんでしょう、スクリーンショットとかを撮って、
なんかその場で話すときにスクリーンショットも撮ってくれて、
そこの中身も含めて意味を補正しながら、
なんか整えた文章を出力してくれるっていうのが大きな機能になって。
だから画的なコンテキスト保管もしてくれるみたいな感じ?
そうそう、例えばメールとかを返信したいなった時に、
なんか予定についてこう聞かれてて、
じゃあ金曜日オッケーですって返信しといてって音声入力をすると、
いつもお世話になっています。日程について承知しました。
みたいな文章も生成してくれるから、
なんかまさにこう、なんだろう、
AIと会話しながら仕事してるみたいな感じが、
よりなんか一個強まった感じがする。
そういう文字起こしアプリかなって僕は思っています。
うんうんうん。
いやそれめっちゃいいよね。
なんかスクリーンをわかった上でってことだよね。
そう、わかった上で、ちゃんと理解した上で文字起こしというか、
その意味を解釈して、しかもこういうふうに返信しといてって言えば返信文作ってくれたり、
質問しといてって言ったら質問する文章になったりとかしてくれるから、
なんか結構一歩先を行くアプリだなっていうふうに思った。
うんうん。
しかもなんか利用料金もね、
もちろん無料ではないんだけど、
けど、
800円。
800円。
なんか結構いい払いやすい値段で。
なんかね、800円くらいだったらいいかなみたいな気持ちになっちゃうね。
うんうんうん。
そうそうそう。
そうだねそうだね。
なっちゃうなっていうのもちょっとなんか話聞いてて思ったって感じです。
そんな中で実際に使ってたと思うけど、
なんでまたアミカルに舞い戻ったん?
実際のところは僕は3つ揺れ動いてて、
これが何かっていうと、
Appleの純正の音声入力。
はいはいはいはい。
普通にキーボードとかで右下とかにもiPhone使ってる人とかわかると思うんですけど、
音声入力があると思うんですけど、
それとアミカルとボイスOSのそれぞれを僕は使ってて、
それぞれいいところがあったんですよ。
はいはいはいはい。
まずAppleの方はとにかくレスポンスが早いんですよ。
もう喋ってたらそれに追いつくぐらいのペースで文字入力されるんで、
どんなに早口で喋っても、
それなりの精度で結構文字起こししてくれてすごく使い心地はいいんです。
しかも、これはアミカルでよくあった事象なんですけど、
アミカルは結構アミカルクラウドっていって無料で使えるクラウドベースの音声認識をしてくれるものの、
サーバーの混雑具合かどうかですごく遅くなったりとか、
全くベタラメな文字起こしがよく起きてたんですけど、
その点Appleは安定してるんですよね。
だから途中は結構アミカルが不安定すぎたがゆえに、
Appleをよく使ってる時期というか日も多かったんですけど、
なるほどなるほど。
弱点がカタカナとか英語とか、
日本語的な入力にすこぶる弱くて、
意味を取り違ったりとか、
同じ開業してくださいの開業がお店を開く方になっちゃったりとか、
あとはGitHubとかっていってもカタカナでGitHubとか、
なんならひらがなでGitHubになっちゃうみたいな。
その点アミカルがその辺がすごく強くて、
自然な文章込みで文字起こしをしてくれるっていうところで、
結構アミカルよかった。
ボイスオーエスもその点はアミカルとボイスオーエスどっちもよかったんですけど、
アミカルとボイスオーエスがじゃあどっちがなんでアミカルに行ったかみたいな話で言いますと、
ボイスオーエスに今よかった、いいよねこういう機能って言ってた、
スクショ撮ってコンテキストに乗っ取って出してくれるっていう機能自体はすごくアイディアもいいし、
使ってみて最初はよかったんだけど、
出してくれた文章が下手くそすぎたり、
なんかちょっと違うなみたいな、
これもおそらくなんだけどモデルの頭の良さみたいな部分に引っ張られてる気がするんだけど、
なんかちょっと違うなみたいなのがすごく多くて、
だったら普通に言葉で説明しちゃんと話した方が圧倒的に早いから、
結局そのスクショ撮ってそのコンテキストにあってみたいな機能はほとんど使ってないんですよ。
結局なんだ、コンセプトはいいんだけど実用に足らなかったみたいな感じ。
そうそうそう足りなくて、
なるほどね。
文章も微妙で、いやそうじゃないんですよみたいな感じが多かったんで、
だったらもう無料で使えて早くて、
それなりに変換機能、何だろう、辞書機能とかもいろいろあったりする、
アミカルの方に分配が上がっちゃったから、
結局ボイスOSは使わなくなったみたいな感じで。
なるほどね。
Amicalの安定性と新たな発見
なんかアミカルクラウド自体の評価が変わってったよね最近。
ちょっと前はさ、俺がアミカルクラウドがやっぱりめちゃいいみたいな話で、
アメちゃんはちょっと微妙だからローカルのやつ買ってるんだよねみたいな、
けどそれだったらまあまあまあみたいな、ちょっとだけ遅くなるんだけどねみたいな話してたと思う。
あ、言ってたね。
そこら辺もね。
そう、一時期アップルの音声入力に浮気してて、
アミカルもう一回やっぱり試してみようと思ったら、
ここ1週間ぐらいは結構アミカルクラウドが安定してて、
変換ミスも少ないしっていうのはあるので、結構良くなった。
でもちょっとこれ、なんか僕だけなのかわかんないんですけど、
夜中の11時とか0時ぐらいから堺に、
なんか変換の精度がガクッと落ちるんですよ。
なんかグローバルなものだと思うので、
もしかしたら、
例えばまあヨーロッパ圏の人たちが活発に使う時間帯とかになるから、
一気に性能落ちるとかあんのかなって勝手に思ったんですけど、
僕の中では深夜の11時、0時ぐらいから、
明け方の30時ぐらいまではあんまり良くないタイミング。
だからその時だけアップルを使ってるみたいな。
最近はそんな感じなんですよ。
なるほどね。
あとさ、ちょっとこれは俺が感じたっていうか、
もうぶち当たったっていう風なシーンやけど、
なんかアップデートが入ったせいか、
勝手に設定が英語モードになってたんやけど、
例えば実装お願いしますみたいなの言ったら、
英語に訳されて英語で文字起こしされるみたいな。
翻訳兼文字起こしみたいな感じになってて、
しかもその精度が結構高いみたいな現象があって、
これ新しいアミカルの使い方じゃんってちょっと思って、
なんか普段のユースケースやと、
ちゃんと入力されてるか確認したいから、
日本語の方がいいかもしらんけど、
なんか普通にメール返すときにさ、
海外の人でやってるみたいな、
けど日本語が僕言語ですみたいな人だったらさ、
アミカルで普通に日本語で入力して、
その結果が英語になってるみたいな。
なんかそういう使い方アミカルできるなみたいな。
単なる日本語の音から逆算した変な英語じゃなくて、
入力した日本語をちゃんと翻訳してくれた英語が文字起こしされるみたいな。
それすごいね。
いや、僕もすごいねと言いつつ確かに、
なんかアップデート入ったのかな。
設定自体は日本語にしてたんだけど、
一回だけなんか謎に英語で出力されるときがあったんですよ。
それがまさに今言ってたように、
喋った内容そのままきれいに英語に変換してくれたで、
その直前ぐらいにヤマちゃんが、
なんかアップデートとかなんかでそうなったみたいな話をしてたから、
しててそうなんだぐらいで思ってたんだけど、
これ実際に体験してみると、
めっちゃスムーズじゃんみたいな。
これで現地人と喋れるじゃんみたいな。
結構すごいよね、あれ。
そうだよね。
そう、だからこれでアミカルのモデル、
正直ほとんど、なんだろう、かなりいい、
その翻訳力みたいなところで言うと、
翻訳力っていうか、
自分の日本語をちゃんと解釈して、
日本語として文字起こししてくれるのも、
割といいんやけど、
例えば工場的な施策としてみたいな話をすると、
工場が上がる方の工場みたいになってたりとか、
あと夏季のレビューが返ってきてますって言って、
夏季が夏の時期の夏季になってたりとか、
なんかそういう問題がちらほらあるから、
まだ完全に信用はできないみたいなところはあるから、
そこだけどもうちょっとモデルが進化してくると、
なんか普通にこれ、
むしろコンテキスト効率的に英語で入力してもらった方がいいじゃんみたいな。
そうか、そういう使い方もあるのか。
そうそうそうそう。
確かに。
そう考えたらなんか、
結構期待がいろいろできるなっていうのをちょっと思ってたって感じ。
なんか多分あれだと思うんですよね、
設定で英語を設定しとくと、
日本語で喋っても多分英語で出力されるようになってるんですよね。
それは確かにそういう使い方もあるんだ。
なんか音声入力の新しい使い方発見してしまったかも。
逆に英語で入れれるからコンテキスト効率よくなる。
よくなる、確かに。
英語圏の人と同じようにAIに効率的に使えるっていう。
あと読むのさえこっちがさ、
そんなに苦痛がなければさ、
仮に喋れなくても、
それだけでいけるっていう。
楽しみにやってみようか。
っていうのはあるなっていうのと、
あと自分が発した言葉だからさ、やっぱ読みやすいよね。
翻訳されてたら、自分が何を言いたかったかが一定わかる前提で読むから。
英語の勉強にもなると思う。
確かに。こういうことを言いたいときに英語で何て言うんだろうっていうね。
そうそうそう。普通に自分で発したらそれが文字起こしで英語になるみたいな感じだから。
音声入力とインターフェースの未来
あと結構速くなったよね最近。
気のせいかもしれないけど。
音速度は速くなってるような気がするよね。
前はスピードの問題でローカルにモデルをインストールして、
ローカルLMという形で僕は使ってたんだけど、
それよりもクラウドの方がむしろ速いぐらい。
翻訳にはなってるかな。
あと阿部ちゃんの言ってたさ、音声入力にしたからこそ、
Vimが優秀だみたいな。Vimの時代が来るみたいな話してたじゃん。
Vimの時代というか、コーデックスとかクラウドコードのターミナル版で文字入力を普段キーボードでしてて、
その頃は、そのクラウドコードとかコーデックスで文字を入力するときに、
Vimエディタとして開いて、一旦そこで文字を入力してから確定すると、
そのままチャットのところに文字が反映されるという機能が、
2つとも標準的な機能として持ってるんですけど、
僕はこれ別に使わなくていいなと思ってて、
普通にチャットのテキストの部分に入力してればいいだけなんで、
そんなに便利でもないしいいかなと思ってたんですけど、
けど、とはいえ、そのこのチャット内で長文とか書いてると、
途中でこう前に戻ったりとか、前っていうのは先頭の方の文字に戻って調整したいって言った時に、
もうめっちゃカーソルとかで、マウスとかでワードとかで編集するみたいにカチッてやれば文字がカーソル移動するわけではないので、
ひたすらこう戻る矢印連打するみたいな、すっごい面倒くさかったんですよ。
ただ、手で入力してる時って基本的になんかタイポしてもその場で直してどんどん前に進んでいくので、
そんなに困ってなかったんですけど、音声入力を始めるとめっちゃ喋ったのに、
結構前半でタイポしまくってるみたいなのが起きてて、
そうなるとめっちゃ戻って調整するの大変みたいな。
こうなってくると標準搭載されたビムモードがすごく活きて、
本当にビムエディターが、僕はネオビム使ってるんですけど、
ショートカットで吐き出された文章が出てきたタイミングで、
ショートカットでコントロールGと押すとビムが立ち上がって、
もう一瞬でビムの中だったらもうカーソルの移動とかも一瞬でポンポン飛んで修正も簡単だし、
ちょっとスクリプトチックにテキストを編集することもできるから、
もう作業効率が爆上がりしたっていうので、
音声入力をやったからこそこのビムモードの良さというか、
より重要性に気づいたみたいな感じで。
確かになって思ったのが、これは別にどんなテキストエディターであっても、
文字入力で結構そこそこの、例えば長い文とか、
普通に短い文でもそうやけど、話し始めの初めの方でごじってたりすると、
マジでうぜえなって思うもんね。
めっちゃ連打する。
わざとそこまで戻ってやるのを修正しないといけないっていう。
普通にキーボード打ってたらね、あ、ごじった。そのタイミングですぐデリートできるからいいけど、
その場所に戻ってデリートして書き直さないといけないみたいなのが結構大変。
ちなみにそれで言うと、僕は長文バーッと出てごじってたときは、
最後にごじ訂正リストっていうのを作ってました最初の方は。
全部バーッと文章を文字オークスされた後に、
なおこの文字はこれ、この文字はこれ、この文字はこちらに対応します。
以上みたいな。
だから書きってごじがあったら書きは書きに変換して解釈してくださいみたいなのを単文で書いて撤去して、
もうカーソルとか移動してるのはめんどくさいからその場で訂正字だけ書いて。
そうそうそうそう。
それもめんどくさくない?
でも戻るよりはマシかなって感じだった。
まあまあまあまあ。
なんかちょっとだるいよねけど、あれ。
まあそう、だるい。
まあ、なるほどね。
まあそんな感じで、やっぱなんかそのインターフェースが変わると、
課題もごっそり変わるっていうのは面白いな。
確かに面白いよね。
なんか逆にこうインターフェース変わることによって、
今までなんかそんなに重要視してなかったパソコンの機能が、
なんかここ1個壊れただけで使えなくなって詰むみたいな。
急にね。
マイク詰めた瞬間何もできない。
まあ今はキーボードあるからいいけど、
もう音声入力前提の世界戦とかになったら、
そういうのもありそうなのが面白そう。
確かにな。
なんか普通にパソコンでキーボードちょっと入力できなくなって壊れてたみたいなので、
まあけど普段音声入力だからキーボードいらないかって思ってたら、
急に音声入力できないタイミングになった瞬間詰むみたいなね。
そうそうそうそう。
その辺面白いよね。
面白いね。
なんかそう考えると音声入力前提になったら、
今のパソコンの形状そのものを見直さないといけなくなるんだな、たぶん。
なるほど、たぶんキーボードが今、
例えばノートパソコンとかだとモニターがあって下にキーボードだけど、
音声入力前提だからそのキーボードの文字の配列自体が変わって、
なんかどっちかっていうと、
それぞれに最適化された確定ボタンが多くあるみたいな。
しかも今って文字入力のボタンって一応キーボードとかにあると思うんやけど、
申し分け程度に一番トップの一番上の方にさ、
一番だから自分の手から離れてるところにあるわけで、
これ右下ぐらいの一番押しやすいところに欲しいよねみたいなとか。
そうだね。
優先度が変わるとやっぱ配置が変わるから、
そういうのに特化したパソコンとか出てきそうやね。
出てくる。
何年後になるんだろう。
もうでもすぐなのかな。
すぐかもしれない。
最近なんかさ、PCで出てきたさ、
モニターなんだけど打てるみたいなタッチパッドで、
そのキーボードの場所がモニターで、
みたいな。
そっちとかあるかもね。
なんか必要な時だけキーボードを呼び出せばいいじゃんっていう手になったら、
普段は画面2枚分?1.5枚分くらいかな。
であって、文字入力前提なんだけど、
キーボード欲しくなったらキーボードボタンみたいなの押したら、
その画面が物理的なキーボードじゃないけど、
タッチパネルのキーボードに変わるみたいなのとかありそうやね。
確かにあるかもね。
文字を入力する、
それこそ言葉としての文字を入力する優先度はどんどん下がっていくだろうとした時に、
今言ってたようにね、
画面に変わるのか、
また別のインターフェースができるのかとかあるかもしれないね。
なんかあるかもしれない。
画面は大いに越したことないからね。
あるだけ損はないからね。
触らないキーボードはこんな一番優先度の高いところに必要ないかもしれない。
確かに。
まとめと今後の展望
そんな感じで音声入力、どんどん進化してるから、
アミカル正直これかなり実用的やね。
早いし。
ぜひまだ使ったことないっていう人は使ってみてほしいなと思います。
無料なんでね、始めるのも簡単かなと思うからぜひやってみてほしいね。
そんな感じで、本日は以上にできればと思います。
ありがとうございます。
本日もAI駆動開発部の日常をお聞きいただきありがとうございました。
いかがでしたでしょうか。
今回の話題は以前話題に上ったアミカルですね。
あと最近使ったボイスOSの間違いみたいなところの話から、
やっぱりアミカルいいよねっていう話になって、
そこから音声入力が標準化したらどうなっていくんだろうみたいな話まで
ちょっと脱線していきましたが、お楽しみいただけましたでしょうか。
このポッドキャスト気に入ってくれた方は、
いいねやフォロー、高評価ぜひお願いいたします。
それではまた次回もお楽しみください。
バイバイ。
24:29

コメント

スクロール