「TimeTreeラヂオ」はカレンダーシェアアプリTimeTreeを運営する私たちメンバーが、ふだんの仕事に関係することもそうでないことも、だいたい15分でひとつのテーマを話しきるインターネットラジオ番組です。
この放送はTimeTreeエンジニアによるテックなお話をお届けする #TimeTreeTechTalk です。
今回は「音声入力のはなし」についてCTO Scottが雑談しました!
◎お便りお待ちしています!
https://forms.gle/hB76jJpQoD3feFzp9
◎TimeTree Company Deck(会社案内資料)
https://bit.ly/3IyEEWt
◎一緒に働く仲間を募集しています!(採用応募ページ)
https://bit.ly/3MyqZjE
番組の感想・コメント・ご要望はハッシュタグ #TimeTreeラヂオ でつぶやいてください!
サマリー
音声入力技術の進化と利便性が取り上げられています。特に、スラックやGmailの用途に応じたプロンプトの活用や、音声からプログラミングコードへの変換機能について語られています。リモートワークの中で、音声入力を効率的に利用する方法が紹介されています。さらに、音声入力技術の進化が会議やコミュニケーションに与える影響について考察し、特にミュートークの導入が提案されています。また、音声入力が個人やマーケティングにどのように役立つかにも触れています。
音声入力の利点
スタートしました。
はい、TimeTreeTechTalk、始めていきたいと思います。
よろしくお願いします。
はい、お願いします。
今日は、私、スコットと、スコット1人でいいのかな、スティーブもいるから2人ですかね。
今日はゆるい、雑談会になるかなと思います。
何話しましょうか。
最近、コロナ以降ずっとなんですけど、リモートワークで、家でずっと仕事してるという感じなんですけど、
誰もいないんでですね、こういった語弊があるかもしれない。
変なこと言っても誰も聞いてくれないんで、好き勝手にしゃべれるっていうのがあって、
最近色々ですね、仕事で音声入力っていうのをずっと試してて、便利だなと思ってますという感じで、
IOSとかでも音声入力あると思うんですけど、結構精度良くて普通に使えるレベルになってきたなと思ってて、
キーボードをぺちぺち打たなくても、スラックの返信なら全部これでOKぐらいの感じでいける。
ちょっと修正するときありますけどね、丸とかついちゃって、変な感じになっちゃうときあるんで、
そういうのは修正するんですけど、だいたい入力はこれでOKなんですけど、
最近ですね、スーパーウィスパーっていうアプリがあって、
それは音声入力に対してAIで事前にプロンプトを入力しておいて、
その入力を変換したテキストをペーストしてくれるみたいなアプリなんですけど、
それがだいたいいくらだっけな、スーパーウィスパー。
なんか高そう。
どれぐらいだったっけ、8ドルぐらいだったと思うんですけどね。
8ドル、安い。
月8ドル、8.49ドルですね。
月8ドルなんで、いいかと思って課金して使ってるんですけど、
これ何がいいかっていうと、
あれですよ、普通に音声入力するのも便利なんですけど、
そこにAIでプロンプトかませるみたいなのがよくて、
例えばスラックがアクティブになってるときはちょっとカジュアルめに直すとか、
僕だとしゃべるときに、スラックだとよくびっくりマークいっぱいつけるんですけど、
マツビに元気よくびっくりマークをつけてくださいみたいな感じでプロンプトを書いておくと、
スラックの返信するときだけびっくりマークがついて、
Gmailとかのときだけはちょっと真面目なトーンになることができるようになってます。
そこがすげえ便利で、
あと特に自然言語だと別にそれでいいんですけど、
それをRubyに直してくれるとかっていうこともできるんですよね。
ここからファイル読み込んで何とかしてループを回すみたいなことを言ったら、
それをRubyに直してくれるみたいなのもあって、
コードをいろいろ切り替えるとプロンプトが全部切り替えられるんですけど、
そこがすげえ便利で面白いなと思って、
まだ全然使いこなせてはいないんですけど。
AIと音声入力の進化
その交互からRubyのコードに起こしてくれるってことですか。
そうそうそうそう。だから例えばですけど、
スラ、ドキュメント、ダウンロードなんとかかんとかかんとかってファイルを読み込んで、
それはCSVだからパースして何列目をプリントするみたいなのを言うと、
それをRubyのコードに直してくれるんですよ。
かしこい。
あとどうしても長いこと喋ってるとえーっととかいうのが入るんですけど、
そういうフィーラーを消してとかそういうのも全然できるんで、
そういうところがすぐ便利でいいですね。
なんか音声入力って結構最近僕も体感で指数関数的に良くなってますよね、クオリティ。
どのサービスも。
そうですね。なんかもともとずっと研究はされてて、
音声入力はやっぱりその良くなってきてはいると思うんですけど、
特にそうですよね、やっぱりAIとかが話題になっていこう、
めちゃくちゃ使われるようになったんじゃないですかね、多分。
僕も普段だとあのノーション。
ノーションのAIノートテイクを最近ずっと使ってて、
メモ取ることが減りましたね。
そうですよ、喋りかけるだけでまとめてくれますもんね。
そうだしミーティングの議事録とかも複数人で話していても、
普通にもう話者分離は当たり前にできるし、
細かいニュアンスとかだいたい正確に起こしてくれるし。
そうなんですよ、めちゃくちゃ便利。
うん、うん。
なるほどね、それをでも開発にまで生かすっていうのすごいですね。
そうそうそう、なんかそういう使い方が、
サンプルだと確かPythonだったんですけど、
そういうのがやりにできるってあって、
これ便利そうと思って使ってはいるんですけど、
最近はむしろ生成AIがコードをいっぱい書くみたいな方向性になっているから、
ちょっとどうなのみたいなところはあるかもしれないですけど、
簡単なスクリプトを書くだけだったら、
口で言うと書けるみたいなところは面白いしですね。
なるほど。
僕ちょっとガジェットとして自作キーボードとかやってるんですけど、
キーボードあんま使わなくなるっていうね、
ちょっとどうなんですかっていう問題はあります。
どうなんですかっていうか、
自分で作って楽しんでる分にはいいんですけど、
作ったもん使わないっていう問題はありますね。
せっかくこだわりのキーボードを。
そう、音声入力ボタンだけある。
一発で押せるようにショートカットセット押しちゃうと、
そこだけめっちゃ押してる。
やば。
むしろそのボタンだけのキーボードでいいんじゃないかっていう。
録音ボタン設定みたいな。
なんかスコットの体感的に精度はどうなんですか。
開発、コードの生成までいっちゃうと結構精度問題があって、
結局人間の目を通さないと、
ダブルチェックしないとダメみたいなところもあるじゃないですか。
体感っていうか、みんなから聞いてる的劇みたいになっちゃうんですけど、
やっぱりチェックは必要だなっていうところと、
大規模な開発だとまだちょっとみたいなことはあるのかなっていうところ。
例えばフルスクラッチでゼロから何か作るんだったら圧倒的にスピード速いと思うんですけど、
あるところを超えたところから人間がやったほうがいいというか、
より細かく指示をしないといけないとかっていう話になってきたり、
ちょっと最近話題になったAIの性能が、
多分使われるモデルとか使用量とかの問題で勝手に切り替えられて性能が劣化しちゃうとか、
そういう問題とかもあったりして、
ちょっと不安定さはまだ人気になってくるから、
多分そのAPIの制限とか、性能劣化したみたいな話はちょっと人に聞いてはいて、
Xで見たりはしていて、
そういうのがあると、
まだこれだけで開発してますというにはちょっと厳しいかなっていうのもあるし、
やっぱり大規模ならではの問題はあって、
まだ解決はされてないのかなっていう感覚がある。
でもこれも時間の問題かなとも思いますし、
とはいえまだかなみたいな。
もう少しやっぱり小さいタスクを完璧にこなすみたいなのだったり、
小さいタスクを大量にこなすみたいなのはやっぱりすごい上手そうですけど、
複雑なでかいタスクを一言二言でいい感じにこなすというわけにはまだまだ全然いかないので、
リモートワークとデバイス
めちゃめちゃ細かい指示を出すっていうんですかね、
そういう能力はまだ求められるのかなというのと、
エンジニア的に言うと、
出てきたものをチェックできる能力っていうのは要求されるんだろうなみたいなところは思っているところですね。
なんか事前のメモで送ってくれてたけど、
保育園の送り迎えとかで思いついたタスク、温泉入浴してるとか?
そうそうそう、そうなんですよ。
だから保育園の送り迎えで歩いてるときに、
外出てるときに限って重要なことを思いついたり、
忘れてたみたいなのあるじゃないですか。
だからそういうときにiPhoneのリマインダーとかメモ帳を起動して、
音声でビャーって入力して、忘れないようにしておいて、
で、戻ってきてから処理するみたいな。
そういうのをポチポチポチポチってスワイプでも遅いんで、
横断歩道渡りながらでもできますから、温泉入浴だと。
危ないなー、スコットブツブツ。
スマホに向かってブツブツ喋ってるのにやってきてから歩いてるんですけど、
非常にそれは危険なんですけど、まだ口だけだから使ってるの。
目使ってないから。
そうか、じゃあその延長でもう1個メモで見たけど、
オフィスで恥ずかしくて使えないっていうのはあるけど、
周りの目を気にして使いづらいみたいなのはまだあるっすね。
そうですね、別にそんな恥ずかしいこと言ってるわけじゃないけど、
パソコンに向かってブツブツ喋ってるとまだちょっと頭おかしいなみたいな感じになっちゃうんで。
でもそういう意味で言うと、今はなんか、なんですか、
イヤホンで通話してるから手ぶらでなんかブラブラ喋ってる人ってよく街中で見ますけど、
増えてますよね。
そう、なんか別に変じゃないなっていう、
あー、なんかそう電話して通話してるんだろうなみたいなのは思うようにはなったので、
なんかオフィスでパソコンに向かって喋る人間がそのうち大丈夫になるんすかね。
まあね、慣れとか慣習とか文化ですからね、こういうのね。
そうですよね。
そう、だからちょっとまだ恥ずかしいから、
ちょっと前リモートとかで、
オンライン会議で外で聞こえたらまずいから防音マスクみたいなつけるみたいなのがあって、
それで探してて面白かったのが、ミュートークっていうガジェットがあって、
これやばいだろ。
これ見た目がめちゃくちゃ、
詳細は概要欄のリンクに貼っていただけると思うんですけど、
なんか音声だけでこれを伝えるのはむずいんですけど、
あれですね、
習慣されるときのハンニバルレクターみたいな感じですかね。
そうそうそうそう、
高速群みたいなやつをつけると外に声が漏れない、
大騒ぎしても家族に怒られないっていうのがあるんですけど、
これにVRゴーグルをかけると本当にもうなんか、
ダメっていうか重大な犯罪人みたいな感じですよね。
スーパーパワーを持ってるから高速しないといけないみたいな人間になってて、
めっちゃ見た目が面白いんですけど、
これでヘッドホンなんかつけちゃったらね、
もうやばいですよね。
五感全部塞がれたみたいな。
それでちょっとオフィスで仕事したら面白いかなと思って、
やるためにこのミュートークを買うかどうかはすごい悩んでます。
一番は価格ですね。
これってもう市販されてるんですか?
Amazonに売ってますよ。
プロトタイプ、あ、売ってるんだ。
あ、売ってるわ、本当だ。
これね、3000円ぐらいだったら間違いなく買ってましたね。
これ高いなあ。
でもまあまあそれも納得できるぐらいのいろいろ構造があるんですけど、
でもこの見た目だけでいいから、見た目だけパクった3000円のやつがある。
まあでもそれはいろいろ権利とかでしょうかね。
もうバージョン的には2まであるじゃないですか。
そう、2まで出てるんですよ。
なんか需要的にはあれなんですかね、
YouTuberとかの、自宅で配信とかしてる人が大声出しても大丈夫なようにみたいなのを、
もうニーズの一つであるみたいですね。
自宅にいて、周りに家族がいて、急な何か電話とかテレカンみたいなときに使える。
まあでもいかんせん見た目面白すぎるから。
見た目はちょっとね、これ女性が使ってる絵とかも出てますけど、
うーん、なるほどね。
いいと思いますよ。
なんかちょっと前にダイソンでこういうデバイス出たじゃないですか。
ああ、なんかありましたね。なんだっけ、あの…
空気清浄機がついてる。
空気清浄機だっけ。ありましたね。ヘッドホンみたいなのがついてる、ここに。
音声入力の導入と便利さ
うちのとこにね。
荒れみがありますね。
荒れみがあります、確かに荒れみがある。
これはでもスコット買うでしょう、きっと。
買ったらそうですね、ちょっとインタビューでもしてもらおうかな。
その格好のまま。声聞こえないかもしれないけど。
でも掛け起こしはちゃんとできてるっていう。
そう、掛け起こしはちゃんとできてます。
これ、多いな。いいじゃないですか。
ちょっとぜひレビューして、レビュー回も撮れるから買ってください。
レビュー回も撮れるから。
そうですね、これでも撮れ高に対してちょっとコストが高いな。
まあね。音声入力。
音声入力ってなんか社内では話題になってたりするんですか、まだ?
なんなんだろう。
ちょっとでもあんまり誰も言ってないかもしれないですね。
ちょっと前になんかカンファレンスで使ってるみたいなのは社内で共有したことがあって。
もともと最近とかだともうMeetにも入ってると思うんですけど、
会議の議事録アプリなんですけど、
それをカンファレンスで使うっていう。
音声入力の実用性と未来予測
カンファレンスでそのままスマホポって置いとくと文字起こししてくれるんですよね。
で、それでサマリーとかも作ってくれるんで、
なんかこうギータセッションのことを思い出すのには便利っていう感じだったり。
あと英語に対応してるんで海外のカンファレンスとかで、
しゃべってると単語がわかんないんだけど文字起こしされるとわかる感じだったりするんで、僕は。
その字幕みたいな感じで見ながら話し聞いたりとかするのにはすごい便利でしたね。
そういうね、ライトの使い方はすごいイメージ湧くしすぐ使えそうですよね。
そうですね。個人で使うの、音声入力として普通にテキスト編集で使うのは、
そうですね、それこそ最初に話したように精度上がってきたから最初、
最近実用的になったのかなって感じですかね。
チャットGPTとかも最近音声で入力して、
違うとかいう感じで答えて直してもらったりとかしてますし、
そういうのがこれから実際使えるようになっていくんだろうなっていうところと、
そうなってくるとそれぞれの人間がそれぞれのコンテキストで話すので防音マスクが必要になるだろうという未来予測だけしておきます。
確かにね、絶対そうなりますよね。
社内エチケットとしてミュートークをつけるっていう未来。
どうですか、オフィスの全員がデスクに向かってしゃべってるんだけどミュートークをつけてる。
やばいなー。
ディストピア感がすごい。
でもそうなっていくのかもしれないですね。
一つの未来予想として。
キーボードで文字を打つっていうのが結構レトロになっていくのか。
本当に正確な場合はやっぱりキーボードの方がいいと思うんですけどね。
本当に雑で意図が伝わればいい。
まさにチャットみたいなもんだったりすれば全然音声でいい感じはします。
ちょっと音声入力初心者として、まずこれから始めてみるのがいいよっていうのはなんかあります?
それこそiOSとかmacOSとかの音声入力ボタンあるじゃないですか、F5。
あれを使うのがいいんじゃないですかね。
優秀ですか?
結構優秀ですよ。
iPhoneとかでもね。
そうそう、iPhoneでも使えるんで、
iPhoneだとキーボードの多分右下にマイクボタンがあると思うんですけど、
もうそれを押して、あと日本語と英語の変換だけはあるんで、
それだけ正しく選択すれば全然普通に入力できる。
そういうのってどうやってやるんですか?変換とかって?
変換はね、勝手にしてくれるから、しゃべればそのコンテキストで。
だから固有単語とかちょっと弱いですね。
辞書登録とかしておくと多分いいかもしれないです。
なるほどね、そういうカスタマイザーが必要。
あと絵文字とかどうするんですか?
なんか音声入力って僕、イメージとして結構淡白な文章になりやすいっていう気がする。
それはあるかも、絵文字はやってないなあんまり。
それこそ最初に話したスーパービスパーとかで、
あの祭りにビックリマークいっぱいつけてとかそういうのでフォローしてます。
僕ね。
絵文字つけるとちょっとなんかこうこびてるんじゃないかって思う世代のオジなので。
なるほどね。
じゃあなんか双方向のコミュニケーションというより、
自分で完結するもので音声入力が結構適してると。
そうですね、スラックとかだと絵文字だけ手入力することはある。
なるほどね。
それってどうなんだ。
なるほどね。
そうそう。
変換と改容とかもなんか不得意なイメージがある?
確かにそうですね、そういうのもあるからちょっとなんか
体裁とかそういうのを整えるのはあれ、いまいちかも。
そういう意味で言うと一番何もせずに使えるのはそれこそ生成AIへのメッセージ。
こうこうこういうのをやりたくてみたいなのを語ってやると、
そのままやると生成AI自体がそのままいい感じに解釈してくれるんで。
そういうのは何もせずに便利ですけど、
コミュニケーションとかの場合気使うところはキーボードっていうか、
これまで通り細かく直すみたいなのはやったほうが良さそうな感じしますよね。
自分へのメモとかだと全然いいんで、
やりやすいのは自分へのメモかもしれないですね。
なるほど。なかなか取り入れてみたくなってくるな。
ぜひ。これでみんなでミュートークをつけるっていうことにしたい。
一般的にしましょう。
まずは社内不況から。
そうそうそうそう。全員がミュートークをつけてるのが当たり前の社会にしていけばいい。
恥ずかしくない。
さっき未来予想っていう話も出てきましたけど、
開発でいうとどういう未来がありそうですかね。
音声入力で最初の指示をするみたいなのはあるかもしれないですね。
こういうアプリを作りたいとかだったり、
こういう事情でこういうのを修正したいとかっていうのをテキストで入れるのよりも、
雑談と音声入力の可能性
言葉で喋っちゃって、それをせせらぎ側に解釈させてとかっていうのはあるかもしれないですよね。
それこそ、せせらぎ側がより複雑なタスクをこなせるようになってくれば、
そういうのも簡単になるかもしれないし、
逆に人間が言葉で丁寧に説明して歩み寄る側になるかもしれない。
なりそう。
時々仕事とかでもテキストでやってるよりも、
音声をちょっと1回ミーティングして5分くらいで解決するみたいなのがあると思うんですけど、
AIに5分くらい話しかけて。
確かに確かに。なるほど。
壁打ち相手みたいな。
マスク書とかも提供しながら、そういうテキスト以外のメディア、
メディアって言ったらいいのかな、チャンネルで説明するみたいなのは全然増えそうですよね。
結局AI側に人間が歩み寄るっていうと、
ちょっとシーマンみたいな、昔シーマンっていうゲームがあったんですけど。
懐かしい。
懐かしいな。
解釈できないとシーマンが怒り出すんで、人間側が丁寧に喋るようになるっていう。
そうですよね。あれまさにマイクに話しかけてね。
そうそうそう。精度が悪かった。当時特に音声とか精度が悪かったから。
人間側が歩み寄るっていう。
いいですね。
側の可能性も欠けておきます。
じゃあちょっとまた買ったら教えてください、ミーティング。
買ったら連絡します。買ったらつけてミーティングしましょう。
やば。
楽しみ。
ありがとうございます。
今日はそんな雑談で大丈夫ですか?
はい、雑談でした。
音声入力楽しいよという話と、みんなでミュートークをつけようという啓発動画でした。
動画じゃないわ、ポッドキャストでした。
次回はミュートーク付きで。
そうそう、次回は全員ミュートーク付きで喋る。
絵もちょっと配信に載せて。
写真載せるか。
載せたい。
OK、じゃあちょっと軽く締めて終わりにしましょう。
はい。
じゃあ今回はこんな感じの雑談会でしたけど、音声入力便利だよという話と、
音声入力とAIを組み合わせるとさらにいろいろできるかもねみたいな話でした。
皆さんもぜひミュートークは別として、スーパーウィスパーぐらいは試しても面白いと思うのでぜひやってみてください。
はい、ではでは。
ありがとうございます。
21:43
コメント
スクロール