1. マヂカル.fm
  2. 227: 音声入力、ばり便利 ~自..
227: 音声入力、ばり便利 ~自作もしてみてわかったこと~
2026-02-26 28:46

227: 音声入力、ばり便利 ~自作もしてみてわかったこと~

spotify apple_podcasts

今回は「音声入力」について話しました。


Mac標準音声入力/AquaVoice/SuperWhisper/TypeLess/ローカル/モデル選択/ノイズ測定/Claude Code/知識グラフ/関西人括弧はてな/音声入力アプリを作ってみた/辞書登録をエージェントで自動化/メモリ機能で知識をグラフ化/Shephredのスーパーアプリ化/執務エリアで話せる?

▼ 名言ステッカーやアクリルキーホルダーなどのグッズが増えました🙌
https://suzuri.jp/magicalfm

 

▼ マヂカル.fmとは
関西人のプロダクトマネージャー@michiru_daと関西人(?)のソフトウェアエンジニアの@upamuneが週2で配信する雑談Podcast。

 

▼ お便りや感想はこちらからおまちしています。

X(旧Twitter): #magicalfm 
おたよりフォーム: https://magical.fm/hello
マシュマロ:https://marshmallow-qa.com/xno94s1ortkw63w?t=e1P9wQ

感想

まだ感想はありません。最初の1件を書きましょう!

サマリー

今回のエピソードでは、音声入力ツールの進化と活用法について深く掘り下げています。Mac標準機能から始まり、AquaVoice、SuperWhisper、TypeLessといった様々なツールが紹介され、特にオープンAIのWhisperを基盤とするSuperWhisperはローカルでの利用が可能でエンジニア向けとされています。一方、AquaVoiceやTypeLessは、より高度な文章の構造化や翻訳機能を提供し、音声入力の可能性を広げています。 パーソナルな利用では、みちるださんがGoogle Pixelの音声入力で日記を書く利便性を語り、うぱみゅんさんは仕事でSuperWhisperをLLMへの入力や下書きに、プライベートではTypeLessをiOSでの翻訳や文章整形に活用していると明かしました。うぱみゅんさんは、社内デスクトップアプリに音声入力を実装した経験を共有し、ノイズキャンセリングやユーザーの即時入力への対応、LLMを活用した出力の品質向上といった開発の課題と面白さを語っています。 さらに、このデスクトップアプリの高度な機能として、AIエージェントが文脈を記憶し、知識グラフを構築する「メモリ」機能が紹介されました。これは、単なる「スキル」とは異なり、ユーザーの思考や過去の行動を記憶し、必要に応じて関連情報を引き出すことで、よりパーソナライズされたアシスタント体験を提供します。エピソードの終盤では、日本における音声入力の普及の課題(人前での利用の恥ずかしさなど)に触れつつ、今後のさらなる活用シーンの拡大に期待を寄せています。

音声入力ツールの進化と多様性
スピーカー 1
マジカルFMは関西人のプロダクトマネージャーみちるだと関西人括弧はてなのソフトウェアエンジニアのうぱみゅんが週2で配信する雑談ポッドキャストです。お願いします。
お願いします。
今日のテーマは音声入力使ってますか?
おお。
おお。
スピーカー 2
なんか定期的に話題になりますよね。音声入力。
あれなんなんすかね。なんか音声入力これマジ便利みたいな。
なんか最初はそのマックの標準の音声入力でも全然いけるぜみたいなところから始まり。
スピーカー 1
で多分その中のナビはアクアボイスが。あれはなんなんだろうな。なんか自分はそのアクアボイスに投資してる投資家の人のツイートでこれめっちゃいいよみたいな。
スピーカー 2
なんかその前にそのオープンAIがウィスパーを出したんでそのウィスパーをバックエンドにした例えばスーパーウィスパーとかそういうなんかローカルで誰でも使えるよみたいな。
プロプランもあるけど無料でも使えるよみたいななんかいろんな奴のナビが来てなんかそいつらをなんか淘汰するなんかアクアボイスみたいな上位概念が出てきて今はなんかタイプレスみたいな新しい奴が出てきたっていうのが最近感じですかね。
スピーカー 1
そうかなんか多分スーパーウィスパーはなんか多分ちょっとクロート向けっぽい感じがあります。
自分はなんかそのアクアボイス使いたいなーってなってプライベートで使って仕事でも使いたいなーってなったけど仕事の情報は入力しちゃダメだよみたいな会社的にはまだあれだよってなったのでしゃーなしじゃあスーパーウィスパー買ってなった気がします。
スピーカー 2
そうなんだよねそのアクアボイスとかはそのアクアボイスの会社のところに送られるけどスーパーウィスパーはローカルでやってくれるんで別に使っても問題ないっていう感じなんですけど
なんかスーパーウィスパーとかそういうのはあれですね今までの音声入力と違ってなんかウィスパーっていうオープンエンドライブラリーみたいなのがあってそいつが賢くて大体の奴はその上に乗ってるっていう感じですね。
なので普通のマックとかでもローカルで全然動く感じですね。なんかねスーパーウィスパーとかそうだった気がするけどなんか最初になんかモデルとかをなんか選ばされる気がしますね。
そうねなんかカスタマイズするメニューがあった気がする。
スピーカー 1
ターボとか。
なんかあんま違いがわかんなくてとりあえずデフォルトで使った。
スピーカー 2
なんかゲージ出てますねなんか精度と速度みたいな。
スピーカー 1
うんなんかあった。
スピーカー 2
とりあえず一番いいやつくれよみたいな。
そうよくわからないからいい感じにして欲しいってなった。
スピーカー 1
その辺がちょっとエンジニア向けっぽいツールだなぁってなりました。
スピーカー 2
なるほど。確かにアクアボイスとかそういうのなんか選ばせない。
ないですね。
個人の音声入力活用術
スピーカー 1
結果は多分基本なんかワンパターンみたいな感じでなんかその画面を収録するかどうかみたいなやつとかまあ辞書登録これ別に何でもあると思うけどまあとかがあるって感じでしたね。
スピーカー 2
確かにね。でも音声入力って勝間和夫はずっと昔から言ってたんですよ。
スピーカー 1
そうなの?音声入力しか買たんて。
スピーカー 2
そうそう。それのためになんかいろいろ試した結果そのAndroidのなんだっけGoogleのキーボードGボードだっけな。
それの音声入力が一番いいことがわかったんでもう私はこれを使いますみたいな。
へー。
スピーカー 2
コロナか前かそれぐらいから言ってて。
スピーカー 1
やるな。
やっぱすごいですね。
勝間和夫が最強?
スピーカー 2
最強です。
スピーカー 1
でも確かに私実はピクセル10を持ってるんですけど。
スピーカー 2
あ、忘れてた。完全に忘れてた。
スピーカー 1
全然移行できてないピクセル10があるんですけどピクセル10の音声入力がめっちゃいいですね。
なんかやっぱiPhoneの音声入力おバカなんだってなんか思っちゃった比較して。
だから日記をその家で書くときはおっぱらピクセルの音声入力で書いてます。
だから日記が過剰書きじゃないときは音声入力してるんだなって思ってください。
スピーカー 2
ミチルダGoogleピクセルを使ってません。
スピーカー 1
日記書くときしか使ってません。
スピーカー 2
日記すぎるだろ。
スピーカー 1
いやーなんでこうなっちゃったんだ。使いたいのに。
スピーカー 2
思ってたのに。私が何か言うたびにまあまあまあ使いなよみたいな。
スピーカー 1
ちょっとやることが多すぎてそのピクセルにまで頭が回らないんで。
スピーカー 2
本当ですか?
スピーカー 1
カーディングセッティング。
まあでもシムを差し替えたら使えるからな。シムを差し替えるだけなんだけど。
スピーカー 2
それも?
スピーカー 1
ちょっと次の収録の時にピクセルを持ってきてシムを差し替える儀式をしよう。
スピーカー 2
あとはどういうときに使ってるの?
TypeLessの革新的な機能とAI連携
スピーカー 2
仕事だったらスーパービスパーを家だったら使って。
スピーカー 1
使ってますね。
スピーカー 2
結構スーパービスパーって何だろう。
普通の文字起こしだったら結構なんかこれは賢いってあんまならない文字起こしじゃないですか。
その入力をスラックとかやるんじゃなくてまあなんかLLMの入力とかにするっていう。
そうですね。LLMの入力にするとかその文章を書くときの下書きとしてブオーって話すみたいな。
なるほど。そのまま何か他人に見せるものでは。
スピーカー 1
そうですね。それは無理かも。
スピーカー 2
なんかそれが何かアクアとかアクアボイスとかなんかタイプでその何か一歩進んだところで何かいい感じになるっていう。
スピーカー 1
そうですね。なんかアクはもう全然フィラーとかはちょっと残るなっていう感じなんですけど、
タイプレスはマジで全てをいい感じにしてくれますね。
その過剰書きにするとか構造化するとかも勝手に読みやすい形にしてくれます。
スピーカー 2
タイプレスはなんかもう音声、そうですね。文字起こしというかなんか音声入力ですね。あれはもう。
スピーカー 1
そうね。なんかその発音した言葉をテキストに変換するのもやってくれるし、
なんかその英語の文章を選択して割り当てたショートカットでこれ翻訳してとか言ったら翻訳もしてくれるし。
スピーカー 2
私はiOSでもほとんど家ではタイプレスを入力に使ってるんですけど、
本当にこれ、例えばこないだあったのは英語でフィードバックを送りたいなみたいな時に製品のね。
その時にタイプレスでフィードバックフォームめっちゃ入力するじゃないですか。
日本語でこういうことができたらいいなみたいな。わーって入力してパッて入るじゃないですか。
で、そしたら次の画面に右下になんか選択ボタンみたいなのがあるんでポチってそれを押してこれでこれを英語に翻訳してって言ったらバッて翻訳されるんで。
スピーカー 1
あ、そうなの?え、そんなんできんの?自分もタイプレスiPhoneも入れたが、別に選択とかしなくても指示できるっていう感じなんですか?
スピーカー 2
なんか右下にその選択のショートカットみたいなのがあるんですよ。なんか今音声入力したやつの。
スピーカー 1
へー。
スピーカー 2
タイプレス1.0でめっちゃ変わりましたね。タイプレスはね、オンボーディングがめんどくさいっていう。
スピーカー 1
そうね、毎回全てをやらせられる。
はやなーって。なんとかチョコレート。
スピーカー 2
そうそう、なんか買い物リストみたいなの作って箇条書きの体験させられるんだよね。
スピーカー 1
そう。なんか1回目は結構これめっちゃオンボーディングにもなるしええやんってなったけど、なんか毎回バージョンアップの度にやらされるから。
スピーカー 2
スキップはどうせないよねあれ。
うん、ちょっと飽きてきた。本当は右下になんか出てきた。
スピーカー 1
へー、編集するために話すっていう。すごいね。
スピーカー 2
そう、なんでもうタイプレスは、なんか他のってチャットインターフェースが多いじゃないですか、AI。
これはなんか音声がインターフェースのなんかAIだなっていう感じですね。
スピーカー 1
そうですね。
スピーカー 2
なんかMacアプリとかだったら文字起こしモードとAIに聞くモードがあって、今の天気何とかをこうAIにこうパッてFNのスペースとかかな。やったら聞けるんで、もう本当にそうなってきてる。
なんでただの文字起こしサービスだったらちょっとこの先どうなるのかなって感じだけど、なんか音声インターフェースLLMだとしたらめっちゃ便利やんっていう感じですね。
スピーカー 1
なんかタイプレスの入力をiPhoneで有効にしたらめっちゃでっかい面取られるじゃないですか。
なんかあれでかすぎるなーって思ってたけど、こういうボタンを押したかったからでかいのかってなりました。
スピーカー 2
AIに支持するすべて。
Siriがそうなってくれればいいんじゃない?
スピーカー 1
本当だよ。
スピーカー 2
まあSiriがね、ジェミンギンになるっていう噂がありますけどね。
スピーカー 1
だから結構家で長文を音声で入れたりとかするんですけど、だから外でLINEの返信とかめっちゃだるになりました。
これは文字で指で打つのだるって。
スピーカー 2
確かに。フリックもね、限度があるからさすがに言葉には立てない。
スピーカー 1
いや、言葉早ーってなるから。
スピーカー 2
しかもLLMの入力源でめっちゃいいんですよね、その音声入力は。
なんか表記揺れとかちょっと漢字の変換とかおかしくても別に問題ないから。
私最近休みの日、夕方ぐらいまで布団で横になってiPhoneでバイブコーディングしてたら朝から夕方までそうなってるっていう。
スピーカー 1
ずっとタイプレスで喋ってるってこと。
怖い。怖い休日です。
スピーカー 2
なんでだよ。楽しいです。
スピーカー 1
もうちょっとオフィスでもやりやすくなるといいんだけどな。
スピーカー 2
そうよね。だから今後外のシェアラウンジみたいなコワーキングでも喋ってもいいゾーンというか、機陣に見られないゾーンが欲しい。
通話スペースみたいなところではあるのかな。
スピーカー 1
やっぱフォンブース的なところにこもって喋りまくるしかないのかな。
スピーカー 2
最近私これも実装したんですよね、音声入力を。
会社の前に話したアプリケーションに。
結構自分で実装してみると面白ってはなりますね。
社内デスクトップアプリへの音声入力実装
スピーカー 1
どの辺が面白かったんですか。
スピーカー 2
結局ウィスパーみたいなライブラリを使って入力した音声をライブラリに渡して文字にするんですけど、
そのままやると後ろがうるさかったりするとそれも拾っちゃうみたいなのがあって、
それでどこに音の加減を決めるかみたいなのをいい感じに設定する必要があったりとか、
最初の300ミリセックで環境のノイズを測定してそれを加減に動的に設定するみたいなやつをやったんですけど、
そしたら利用者の人から、これって最初喋ったやつ無くなります?みたいなこと言われて、
そんな押してすぐ喋れているんだと思って、その機能を無くす羽目になったりとか。
あとは普通に文字起こしした後に、これLLMに投げてるんですけど、
その時に普通のLLMだと10秒くらいかかるんで、おっせーなみたいな体験になっちゃうんで、
ジェミニのフラッシュライトみたいなやつだと2秒しないくらいで返ってくるし、
どうしても文字起こししたデータは結構文字起こししましたねって感じのデータなんだけど、
LLMにかますだけですごい綺麗な感じになってきたりするんで、そことか面白かったです。
スピーカー 1
自分も喋った音声の46%カットされて半分くらいになったんで、おばさんにフィードバックしました。
スピーカー 2
だいぶマシになりました?まだ試してない?
スピーカー 1
そうね、その後そんな長い文章打ってないかも。
スピーカー 2
結構ね感動しますね。
よくあるピルコンポーネントみたいな、Aquaとかで話してたら下にFnを押して出るじゃないですか。
あれをこんなに自分のやつでもできるんだみたいな。
スピーカー 1
便利だ。
スピーカー 2
そうですね。
スピーカー 1
めっちゃ設定、めっちゃモードがありますよね。
スピーカー 2
スーパーウィスパーを使ってる社内の人からモードを選べるようにしたいみたいな。
モードは例えば普通にLLMに入力するから適当でいいから早くていいみたいな、ボイストゥーテキストみたいなやつから、
スラックとかに貼り付ける前提だからちょっと遅くてもいいから、過剰書きとかもちゃんといい感じに整形してほしいみたいなのを設定できるんですよね。
さっき言ったジェメギのモデルを自分でもっと遅くて賢いやつとかにできたり、
あとはプロンプトを自分で修正できたり、
あとはコンテキストをどんだけ入れるかっていうやつで選んだテキストの内容を入れるかとか、
選択したテキストの内容を入れるかとかクリップボードの内容を見るかとか、
あと今アクティブなアプリの情報を送るかどうかとかそういうのを選べるようになってますね。
スピーカー 1
すごい充実の設定機能。
あともう辞書登録がよく使う言葉が事前に登録してありがたいですね。
スピーカー 2
そうですね。これの辞書登録のめっちゃいいところは、
エージェントが追加できるっていう。
スピーカー 1
どういうこと?
スピーカー 2
エージェントが追加削除できる。
そうそう。
アプリの高度な設定と辞書機能
スピーカー 1
いいですね。
スピーカー 2
だから辞書登録ってしたいけどめんどくさいみたいなのあるじゃないですか。
だからこれだと、こないだ話したみたいにそのMCPツールの一つとしてやってるから、
スピーカー 2
例えばミチルダプロダクトみたいなのがあって、
ミチルダプロダクトチャンネルのスラックの過去100件を読み取って、
品質する単語を洗い出して辞書に登録してくださいとかやったらできる。
そうなんだ。便利。
かけ合わせでできるんで。
スピーカー 1
やるな。
スピーカー 2
そうなんですよ。
スピーカー 1
え、それ知られてる?それ知らなかった?
ううん。
スピーカー 1
ううんじゃない。それ絶対分かるようにした方がいいんだから。
スピーカー 2
難しいですね。
スピーカー 1
定期実行って難しいんですか?
スピーカー 2
定期実行できますよ。
だからそれただのツールとして提供してるから、ただそれが。
スピーカー 1
それデフォルトで定期実行して。
いやー。人によるな。
スピーカー 1
そうなんだ。
スピーカー 2
結構そうなんですよ。前ミチルさんとも話したんですけど、
しゃべればどうにかなるっていう認知が獲得するのは結構むずいよね。
AIエージェントの「メモリ」機能と知識グラフ
スピーカー 1
それも難しいですね。たどり着くのが。
このデスクトップアプリで何かうまくいかなかった時に、
スピーカー 1
今はおばさんに直接質問が来がちなんですけど、
実はクロードコードに質問すればだいたい解決されるっていうのがやっぱ難しいんだよな。
スピーカー 2
でも今日1個成功しましたね。
スピーカー 1
自己解決した人いました?
スピーカー 2
そうそう。このアプリ内にもうエージェントタブみたいなのを追加して、
その中を開いたら何にも意識することなくクロードコードが勝手に立ち上がるみたいなやつをやったんですけど、
そしたらその人はスケジュールを作成してくださいみたいな自然に頼んでてスケジュールができてたんだよ。
スピーカー 1
素晴らしい。
スピーカー 2
確かにこのアプリケーションの中のエージェントだったら、
こいつを理解してるような気がするっていう。
スピーカー 1
なんかやっぱ出来上がったアプリケーションで、でもクローズドで使ってるやつだと、
これクロードコードに聞いてわかるのかってなっちゃうんだよな。
スピーカー 2
確かにね。それ分かるようにしてるんですよね。
スピーカー 1
分かるように?
スピーカー 2
分かるようにしています。
聞いてもらえればいいんだけど、もう分かるわけないんだろうっていう。
スピーカー 1
そうなのよ。
これもう機能が、デスクトップアプリに機能が増えすぎて。
スピーカー 2
増えすぎて?
スピーカー 1
もう8機能もありますね。
デスクトップアプリっていうのはちょっと何回目だっけ?
ちょっと前に喋ったやつだから、詳細はそっちを聞いて欲しいんですけど。
第何回かだけ。
220回だ。
社内AI活用の生産性爆増しデスクトップアプリ。
安全なmcpサーバーを公開したかっただけなのに。
だけなのに。
スピーカー 1
だけなのに。
気づいたらね、音声入力とか。
スピーカー 2
最初は音声入力とかを別アプリにしようと思って、
みちゃらさんにアプリの名前何にしようかなみたいな話とかしてて、
オウムがいいんじゃね?みたいな。
スピーカー 1
生き物の名前で喋りそうなやつがいいんじゃね?みたいな。
スピーカー 2
私もそれで作り始めたんですけど、
みんなインストールしてくれなさそうだなみたいな。
すでにあるやつにインテグレーションした方がいいかもなみたいな。
あとUIがすでにあるんで、いい感じに作ってくれるんですよ、設定とか。
最初からしたら何このダッセーアプリケーションみたいな。
そうなのよ。
スピーカー 1
本当のスーパーアプリになってきた。
スピーカー 2
最近はね、前に記憶できるって言いましたっけ?
スピーカー 1
言ってないね。
あんまりこの機能、あんまりわかってないんだよ。
スピーカー 2
多分便利って言ってる人はいるけど、
私もあんまり何が便利なのかよくわかってないんですけど。
スピーカー 1
創造主なのに。
そうそう。
スピーカー 2
でもね、全然私よりね、今は皆さんの方が使いこなしてて、
そういうこともできるんですね、みたいな感じになってるから、それは面白いですね。
スピーカー 1
何メモリ機能って。
スピーカー 2
ちょっと見せていいですか?
うん。
うん。
スピーカー 1
リスナーの人は見えないからね。頑張って説明してないと。
スピーカー 2
ちょっとMIDのリンクを。
メモリっていうのは、AIエージェントが出てから結構言われるやつじゃないですか。
簡単に言うとそのAIエージェントの記憶ですね。
なんでこんなもの保持しておくかというと、
AIエージェントっていうのは基本的には起動するたびにも真っさらになります。
記憶が。なくなります。
なんでそれを保存しておく外部のいい感じのところが必要なんですよ。
で、これ覚えておいてって言ったときに、
それをいい感じにして記憶にするっていうのがまず一つ機能としてあるんですね。
で、全部追加するだったらちょっと大変なんですよ。
スピーカー 2
例えば、ミチルダが一番好きな果物は柿です、みたいな。
果物ね、柿ですって言ったときに、
分かりましたと。で、記憶にあるじゃないですか。
スピーカー 2
で、1ヶ月後に、やっぱ私が一番好きなのは梨です、みたいに言ったときに、
梨って新しいの追加するんじゃなくて、前の柿っていうやつの記憶を更新してほしいんですよ。
で、まぁそんな感じでその、
例えば記憶を引き出すときに、果物って登録したけど、フルーツって検索、
ミチルダが一番好きなフルーツってなんだっけって検索したときに引っかかってほしい。
ですよね。意味的に近いものを引っ張りたいっていうのもあるんですよ。
それを毎回やってるとめんどくさいんで、それができるのはこれですね。
これも追加だけじゃなくて、
更新も対応してて、それもなんだろう、
LLMが判断せずともこのデータベースが勝手にこれは更新ならみたいなのを判断して、
昔のやつを更新してくれるっていう感じになってるんで、
このアプリケーション自体はスラックとかいろんなものと連携できるんで、
ここにこのスラックの議論内容を覚えておいてみたいな感じで言ったら、
それが一つの記憶として記録されることもあるし、
これが三つに分けたほうがいいなみたいな感じだったら三つに分けて記憶されることもある。
で、最近追加した機能がよくあるやつなんですけど、
このグラフっていうやつで。
スピーカー 1
メモリー機能に追加したやつね。
ですです。
なんか見たことあるな。
で、これはこのグラフの中、記憶の中からエンティティと呼ばれる何かを取るんですね。
スピーカー 2
例えばこれは人物のこと言ってるだろう。
これはプロジェクトのことを言ってる。
これは何かのサービスのことを言ってるなみたいな。
こうなったら、この山田さんっていう人はこのDACDBっていう技術のことを使っているし、
このシェパードっていうやつを山田さんは担当しているし、
シェパードはDACDBっていうのも使ってるらしいみたいな感じが、
自動的に関係グラフが構築されるっていうやつが最近のあれですね。
で、これ何が見てムフフってなるだけじゃんってなるかもしれないですけど、
これもメモリ自体の関連として返すことによって、
田中さんって引っ張ったら、田中さんはGRPCってやつを使ってて、
田中さんは何とかっていうプロジェクトを担当して、
田中さんは何とかっていうライブラリーを使ってるみたいなのが依存情報として返されるので、
エージェントはそれも見たいんだったらさらに見ることができるみたいな感じですね。
多分記憶を使えば使うほど面白いグラフが出来上がってるかなと思ってやった感じですね。
スピーカー 1
メモリってスキル図とどう使い分けるんですか?
スピーカー 2
スキル図は基本的に記憶されないじゃないですか。
スピーカー 1
記憶されないけど効果は一緒じゃないですか。
何かしたい時に、何かアクションを起こしたい時に守ってほしいこととかをスキル図に入れておけるじゃないですか。
それってメモリに覚えてもらうと一緒な感じがするんですけど。
スピーカー 2
例えばさっきの一般的なやつはユーザーの思考とか、ユーザーはどういうことが好きとか、
ユーザーは今まで何をしていたのかとか、
そういうのをメモリっていうのに書き込みますね。
クロードコードもデフォルトでメモリっていう機能は補ってて、
それはファイルに何かを書き込むっていう感じですね。
スキルは何らかの手順を記したものなんだけど、
メモリはもっと一般的な記憶なんで、
このユーザーは日本語を話すみたいなことが書かれてますね。
このユーザーの名前はミチルダらしいみたいな。
このユーザーの名前はミチルダだみたいなのって、どのスキルに書かれるべきなんだみたいな。
スピーカー 1
なるほど。
スピーカー 2
スキルは何か手順を書いたものなんで、
もし全部で覚えておいてほしい事項だったら、
全部のスキルに、ちなみにこのユーザーの名前はミチルダですみたいな感じで書いておく必要があるっていう感じですね。
例えば今日のスラックのすごい長い100ぐらいそれあるメッセージがあったとしたら、
これの議論内容を覚えておいてって言った時に、スキルだとどうやるんだろうっていう。
スピーカー 1
この流れを踏まえてほにほにしてみたいなこととかじゃないですか。
スピーカー 2
なるほど。
これってその時点で使いたいわけじゃないんですよね。
記憶しててほしい。
だからいつか関連ある時に勝手にその記憶からゲットしてほしいみたいな感じですね。
めっちゃ長いスリルの中で、
うちのチームではZライブラリーを使うみたいな意思決定がされたら、
このプロジェクトではZライブラリーを使うらしいみたいなことを覚えておいて、
それで全然違う日とかに進めてる時に、
そういえばこのプロジェクトはZライブラリー使ってるからこうだみたいなのを
AIエージェントが自発的に記憶の中から引き出してきて使うみたいな感じですね。
スピーカー 1
なるほど。
スピーカー 2
クロードMDとか、あれに書いてるやつのリッチバージョンですね。
あれは常に読み込まれるけど、
例えばこのユーザーはZライブラリーを使ってるみたいなのって、
常に読み込まれなくてもいいみたいな。
スピーカー 1
必要ある時にだけ指出せばいい。
なるほど。
ちょうどクロードMDと何が違うんですかって聞こうと思ってました。
音声入力普及の課題と未来
スピーカー 2
ですね。
スピーカー 1
似て非なる用途のものがいっぱいある。
スピーカー 2
そうなんですよ。
私も個人でこういうメモリーサービスをSaaSで契約してて、
それは何か、この間も言ったけど、
スピーカー 2
オープンクローっていうAIのボットがあるんですけど、
うちには予算4体ぐらいいるんですけど、
その4体に全部同じメモリーサービスに接続させてて、
どいつから話しても、このゲーム気になるから覚えておいてみたいこと言ったら、
このメモリーサービスに記録してくれて、
なるほど。
どいつからでも参照できるみたいな。
それの手元で動くバージョンですね。
温泉入力から遠いところに来たもの。
スピーカー 1
だいぶ遠いところに来ました。
スピーカー 2
30分。
温泉入力がどんだけ市民権を得てるのか謎ですね。
ツイッターに現れるようなAI強者というか、
AI大好きたちが言ってるのか、
それとも普通に使ってるようなのか。
普通にあんまりAI関係なく、
iOSの温泉入力とか、
普通にうちの親とか絶対あれ使った方が楽だろって思うけど、
なんであんなに温泉入力って使われないのかな。
日本だと。
スピーカー 1
そうね、一人で喋るのちょっと恥ずかしいから。
スピーカー 2
最初のAirPodsも変じゃなかった。
耳からうどん出てるみたいな。
みんな温泉入力当たるようになれば。
スピーカー 1
歩きスマホとかちょっと減りそうですけどね。
スピーカー 2
確かにね。
スピーカー 1
イヤホンしてたらそこに話せばいけるから。
スピーカー 2
確かに確かに。
スピーカー 1
これからも。
少なくとも早くオフィスで恥ずかしげもなく入力したい。
スピーカー 2
確かに。
でもあたかもミーティングをしてるふりをすればいいの。
カメラで自分のでっかい顔。
スピーカー 1
一人だけみたいな。
スピーカー 2
そうじゃん。
それを作ればいいんだ。
なんかミーティングしてるように見えない。
スピーカー 1
いらん機能すぎる。
まとめとフィードバックのお願い
スピーカー 2
そうだ。
スピーカー 1
でもだいたいさ、何とかあかんとかしてみたいなことを言ってるからさ。
スピーカー 2
ミチュラさんってそういう系なんだなみたいな。
スピーカー 1
どういう系?
スピーカー 2
こいつめっちゃ作業の指示してる。
スピーカー 1
人にやらせてばっかり。
スピーカー 2
なんでもっと一般的になるといいですね。
スピーカー 1
そうですね。
音声入力こういうシーンで使って便利だよっていう
リプスのある人はお便りを送ってください。
スピーカー 2
お願いします。
スピーカー 1
感想・質問・フィードバックは
XのハッシュタグマジカルFM全部小文字
または概要欄のお便りフォームまでお寄せください。
Spotifyのベルマークを押すと更新通知が届きますので
そちらもお願いします。
ありがとうございます。
ありがとうございました。
28:46

コメント

スクロール