スタートしました。
はい、TimeTreeTechTalk、始めていきたいと思います。
よろしくお願いします。
はい、お願いします。
今日は、私、スコットと、スコット1人でいいのかな、スティーブもいるから2人ですかね。
今日はゆるい、雑談会になるかなと思います。
何話しましょうか。
最近、コロナ以降ずっとなんですけど、リモートワークで、家でずっと仕事してるという感じなんですけど、
誰もいないんでですね、こういった語弊があるかもしれない。
変なこと言っても誰も聞いてくれないんで、好き勝手にしゃべれるっていうのがあって、
最近色々ですね、仕事で音声入力っていうのをずっと試してて、便利だなと思ってますという感じで、
IOSとかでも音声入力あると思うんですけど、結構精度良くて普通に使えるレベルになってきたなと思ってて、
キーボードをぺちぺち打たなくても、スラックの返信なら全部これでOKぐらいの感じでいける。
ちょっと修正するときありますけどね、丸とかついちゃって、変な感じになっちゃうときあるんで、
そういうのは修正するんですけど、だいたい入力はこれでOKなんですけど、
最近ですね、スーパーウィスパーっていうアプリがあって、
それは音声入力に対してAIで事前にプロンプトを入力しておいて、
その入力を変換したテキストをペーストしてくれるみたいなアプリなんですけど、
それがだいたいいくらだっけな、スーパーウィスパー。
なんか高そう。
どれぐらいだったっけ、8ドルぐらいだったと思うんですけどね。
8ドル、安い。
月8ドル、8.49ドルですね。
月8ドルなんで、いいかと思って課金して使ってるんですけど、
これ何がいいかっていうと、
あれですよ、普通に音声入力するのも便利なんですけど、
そこにAIでプロンプトかませるみたいなのがよくて、
例えばスラックがアクティブになってるときはちょっとカジュアルめに直すとか、
僕だとしゃべるときに、スラックだとよくびっくりマークいっぱいつけるんですけど、
マツビに元気よくびっくりマークをつけてくださいみたいな感じでプロンプトを書いておくと、
スラックの返信するときだけびっくりマークがついて、
Gmailとかのときだけはちょっと真面目なトーンになることができるようになってます。
そこがすげえ便利で、
あと特に自然言語だと別にそれでいいんですけど、
それをRubyに直してくれるとかっていうこともできるんですよね。
ここからファイル読み込んで何とかしてループを回すみたいなことを言ったら、
それをRubyに直してくれるみたいなのもあって、
コードをいろいろ切り替えるとプロンプトが全部切り替えられるんですけど、
そこがすげえ便利で面白いなと思って、
まだ全然使いこなせてはいないんですけど。
その交互からRubyのコードに起こしてくれるってことですか。
そうそうそうそう。だから例えばですけど、
スラ、ドキュメント、ダウンロードなんとかかんとかかんとかってファイルを読み込んで、
それはCSVだからパースして何列目をプリントするみたいなのを言うと、
それをRubyのコードに直してくれるんですよ。
かしこい。
あとどうしても長いこと喋ってるとえーっととかいうのが入るんですけど、
そういうフィーラーを消してとかそういうのも全然できるんで、
そういうところがすぐ便利でいいですね。
なんか音声入力って結構最近僕も体感で指数関数的に良くなってますよね、クオリティ。
どのサービスも。
そうですね。なんかもともとずっと研究はされてて、
音声入力はやっぱりその良くなってきてはいると思うんですけど、
特にそうですよね、やっぱりAIとかが話題になっていこう、
めちゃくちゃ使われるようになったんじゃないですかね、多分。
僕も普段だとあのノーション。
ノーションのAIノートテイクを最近ずっと使ってて、
メモ取ることが減りましたね。
そうですよ、喋りかけるだけでまとめてくれますもんね。
そうだしミーティングの議事録とかも複数人で話していても、
普通にもう話者分離は当たり前にできるし、
細かいニュアンスとかだいたい正確に起こしてくれるし。
そうなんですよ、めちゃくちゃ便利。
うん、うん。
なるほどね、それをでも開発にまで生かすっていうのすごいですね。
そうそうそう、なんかそういう使い方が、
サンプルだと確かPythonだったんですけど、
そういうのがやりにできるってあって、
これ便利そうと思って使ってはいるんですけど、
最近はむしろ生成AIがコードをいっぱい書くみたいな方向性になっているから、
ちょっとどうなのみたいなところはあるかもしれないですけど、
簡単なスクリプトを書くだけだったら、
口で言うと書けるみたいなところは面白いしですね。
なるほど。
僕ちょっとガジェットとして自作キーボードとかやってるんですけど、
キーボードあんま使わなくなるっていうね、
ちょっとどうなんですかっていう問題はあります。
どうなんですかっていうか、
自分で作って楽しんでる分にはいいんですけど、
作ったもん使わないっていう問題はありますね。
せっかくこだわりのキーボードを。
そう、音声入力ボタンだけある。
一発で押せるようにショートカットセット押しちゃうと、
そこだけめっちゃ押してる。
やば。
むしろそのボタンだけのキーボードでいいんじゃないかっていう。
録音ボタン設定みたいな。
なんかスコットの体感的に精度はどうなんですか。
開発、コードの生成までいっちゃうと結構精度問題があって、
結局人間の目を通さないと、
ダブルチェックしないとダメみたいなところもあるじゃないですか。
体感っていうか、みんなから聞いてる的劇みたいになっちゃうんですけど、
やっぱりチェックは必要だなっていうところと、
大規模な開発だとまだちょっとみたいなことはあるのかなっていうところ。
例えばフルスクラッチでゼロから何か作るんだったら圧倒的にスピード速いと思うんですけど、
あるところを超えたところから人間がやったほうがいいというか、
より細かく指示をしないといけないとかっていう話になってきたり、
ちょっと最近話題になったAIの性能が、
多分使われるモデルとか使用量とかの問題で勝手に切り替えられて性能が劣化しちゃうとか、
そういう問題とかもあったりして、
ちょっと不安定さはまだ人気になってくるから、
多分そのAPIの制限とか、性能劣化したみたいな話はちょっと人に聞いてはいて、
Xで見たりはしていて、
そういうのがあると、
まだこれだけで開発してますというにはちょっと厳しいかなっていうのもあるし、
やっぱり大規模ならではの問題はあって、
まだ解決はされてないのかなっていう感覚がある。
でもこれも時間の問題かなとも思いますし、
とはいえまだかなみたいな。
もう少しやっぱり小さいタスクを完璧にこなすみたいなのだったり、
小さいタスクを大量にこなすみたいなのはやっぱりすごい上手そうですけど、
複雑なでかいタスクを一言二言でいい感じにこなすというわけにはまだまだ全然いかないので、
めちゃめちゃ細かい指示を出すっていうんですかね、
そういう能力はまだ求められるのかなというのと、
エンジニア的に言うと、
出てきたものをチェックできる能力っていうのは要求されるんだろうなみたいなところは思っているところですね。
なんか事前のメモで送ってくれてたけど、
保育園の送り迎えとかで思いついたタスク、温泉入浴してるとか?
そうそうそう、そうなんですよ。
だから保育園の送り迎えで歩いてるときに、
外出てるときに限って重要なことを思いついたり、
忘れてたみたいなのあるじゃないですか。
だからそういうときにiPhoneのリマインダーとかメモ帳を起動して、
音声でビャーって入力して、忘れないようにしておいて、
で、戻ってきてから処理するみたいな。
そういうのをポチポチポチポチってスワイプでも遅いんで、
横断歩道渡りながらでもできますから、温泉入浴だと。
危ないなー、スコットブツブツ。
スマホに向かってブツブツ喋ってるのにやってきてから歩いてるんですけど、
非常にそれは危険なんですけど、まだ口だけだから使ってるの。
目使ってないから。
そうか、じゃあその延長でもう1個メモで見たけど、
オフィスで恥ずかしくて使えないっていうのはあるけど、
周りの目を気にして使いづらいみたいなのはまだあるっすね。
そうですね、別にそんな恥ずかしいこと言ってるわけじゃないけど、
パソコンに向かってブツブツ喋ってるとまだちょっと頭おかしいなみたいな感じになっちゃうんで。
でもそういう意味で言うと、今はなんか、なんですか、
イヤホンで通話してるから手ぶらでなんかブラブラ喋ってる人ってよく街中で見ますけど、
増えてますよね。
そう、なんか別に変じゃないなっていう、
あー、なんかそう電話して通話してるんだろうなみたいなのは思うようにはなったので、
なんかオフィスでパソコンに向かって喋る人間がそのうち大丈夫になるんすかね。
まあね、慣れとか慣習とか文化ですからね、こういうのね。
そうですよね。
そう、だからちょっとまだ恥ずかしいから、
ちょっと前リモートとかで、
オンライン会議で外で聞こえたらまずいから防音マスクみたいなつけるみたいなのがあって、
それで探してて面白かったのが、ミュートークっていうガジェットがあって、
これやばいだろ。
これ見た目がめちゃくちゃ、
詳細は概要欄のリンクに貼っていただけると思うんですけど、
なんか音声だけでこれを伝えるのはむずいんですけど、
あれですね、
習慣されるときのハンニバルレクターみたいな感じですかね。
そうそうそうそう、
高速群みたいなやつをつけると外に声が漏れない、
大騒ぎしても家族に怒られないっていうのがあるんですけど、
これにVRゴーグルをかけると本当にもうなんか、
ダメっていうか重大な犯罪人みたいな感じですよね。
スーパーパワーを持ってるから高速しないといけないみたいな人間になってて、
めっちゃ見た目が面白いんですけど、
これでヘッドホンなんかつけちゃったらね、
もうやばいですよね。
五感全部塞がれたみたいな。
それでちょっとオフィスで仕事したら面白いかなと思って、
やるためにこのミュートークを買うかどうかはすごい悩んでます。
一番は価格ですね。
これってもう市販されてるんですか?
Amazonに売ってますよ。
プロトタイプ、あ、売ってるんだ。
あ、売ってるわ、本当だ。
これね、3000円ぐらいだったら間違いなく買ってましたね。
これ高いなあ。
でもまあまあそれも納得できるぐらいのいろいろ構造があるんですけど、
でもこの見た目だけでいいから、見た目だけパクった3000円のやつがある。
まあでもそれはいろいろ権利とかでしょうかね。
もうバージョン的には2まであるじゃないですか。
そう、2まで出てるんですよ。
なんか需要的にはあれなんですかね、
YouTuberとかの、自宅で配信とかしてる人が大声出しても大丈夫なようにみたいなのを、
もうニーズの一つであるみたいですね。
自宅にいて、周りに家族がいて、急な何か電話とかテレカンみたいなときに使える。
まあでもいかんせん見た目面白すぎるから。
見た目はちょっとね、これ女性が使ってる絵とかも出てますけど、
うーん、なるほどね。
いいと思いますよ。
なんかちょっと前にダイソンでこういうデバイス出たじゃないですか。
ああ、なんかありましたね。なんだっけ、あの…
空気清浄機がついてる。
空気清浄機だっけ。ありましたね。ヘッドホンみたいなのがついてる、ここに。
カンファレンスでそのままスマホポって置いとくと文字起こししてくれるんですよね。
で、それでサマリーとかも作ってくれるんで、
なんかこうギータセッションのことを思い出すのには便利っていう感じだったり。
あと英語に対応してるんで海外のカンファレンスとかで、
しゃべってると単語がわかんないんだけど文字起こしされるとわかる感じだったりするんで、僕は。
その字幕みたいな感じで見ながら話し聞いたりとかするのにはすごい便利でしたね。
そういうね、ライトの使い方はすごいイメージ湧くしすぐ使えそうですよね。
そうですね。個人で使うの、音声入力として普通にテキスト編集で使うのは、
そうですね、それこそ最初に話したように精度上がってきたから最初、
最近実用的になったのかなって感じですかね。
チャットGPTとかも最近音声で入力して、
違うとかいう感じで答えて直してもらったりとかしてますし、
そういうのがこれから実際使えるようになっていくんだろうなっていうところと、
そうなってくるとそれぞれの人間がそれぞれのコンテキストで話すので防音マスクが必要になるだろうという未来予測だけしておきます。
確かにね、絶対そうなりますよね。
社内エチケットとしてミュートークをつけるっていう未来。
どうですか、オフィスの全員がデスクに向かってしゃべってるんだけどミュートークをつけてる。
やばいなー。
ディストピア感がすごい。
でもそうなっていくのかもしれないですね。
一つの未来予想として。
キーボードで文字を打つっていうのが結構レトロになっていくのか。
本当に正確な場合はやっぱりキーボードの方がいいと思うんですけどね。
本当に雑で意図が伝わればいい。
まさにチャットみたいなもんだったりすれば全然音声でいい感じはします。
ちょっと音声入力初心者として、まずこれから始めてみるのがいいよっていうのはなんかあります?
それこそiOSとかmacOSとかの音声入力ボタンあるじゃないですか、F5。
あれを使うのがいいんじゃないですかね。
優秀ですか?
結構優秀ですよ。
iPhoneとかでもね。
そうそう、iPhoneでも使えるんで、
iPhoneだとキーボードの多分右下にマイクボタンがあると思うんですけど、
もうそれを押して、あと日本語と英語の変換だけはあるんで、
それだけ正しく選択すれば全然普通に入力できる。
そういうのってどうやってやるんですか?変換とかって?
変換はね、勝手にしてくれるから、しゃべればそのコンテキストで。
だから固有単語とかちょっと弱いですね。
辞書登録とかしておくと多分いいかもしれないです。
なるほどね、そういうカスタマイザーが必要。
あと絵文字とかどうするんですか?
なんか音声入力って僕、イメージとして結構淡白な文章になりやすいっていう気がする。
それはあるかも、絵文字はやってないなあんまり。
それこそ最初に話したスーパービスパーとかで、
あの祭りにビックリマークいっぱいつけてとかそういうのでフォローしてます。
僕ね。
絵文字つけるとちょっとなんかこうこびてるんじゃないかって思う世代のオジなので。
なるほどね。
じゃあなんか双方向のコミュニケーションというより、
自分で完結するもので音声入力が結構適してると。
そうですね、スラックとかだと絵文字だけ手入力することはある。
なるほどね。
それってどうなんだ。
なるほどね。
そうそう。
変換と改容とかもなんか不得意なイメージがある?
確かにそうですね、そういうのもあるからちょっとなんか
体裁とかそういうのを整えるのはあれ、いまいちかも。
そういう意味で言うと一番何もせずに使えるのはそれこそ生成AIへのメッセージ。
こうこうこういうのをやりたくてみたいなのを語ってやると、
そのままやると生成AI自体がそのままいい感じに解釈してくれるんで。
そういうのは何もせずに便利ですけど、
コミュニケーションとかの場合気使うところはキーボードっていうか、
これまで通り細かく直すみたいなのはやったほうが良さそうな感じしますよね。
自分へのメモとかだと全然いいんで、
やりやすいのは自分へのメモかもしれないですね。
なるほど。なかなか取り入れてみたくなってくるな。
ぜひ。これでみんなでミュートークをつけるっていうことにしたい。
一般的にしましょう。
まずは社内不況から。
そうそうそうそう。全員がミュートークをつけてるのが当たり前の社会にしていけばいい。
恥ずかしくない。
さっき未来予想っていう話も出てきましたけど、
開発でいうとどういう未来がありそうですかね。
音声入力で最初の指示をするみたいなのはあるかもしれないですね。
こういうアプリを作りたいとかだったり、
こういう事情でこういうのを修正したいとかっていうのをテキストで入れるのよりも、