-
-
仕事だったらスーパービスパーを家だったら使って。
スピーカー 1
使ってますね。
結構スーパービスパーって何だろう。
普通の文字起こしだったら結構なんかこれは賢いってあんまならない文字起こしじゃないですか。
その入力をスラックとかやるんじゃなくてまあなんかLLMの入力とかにするっていう。
そうですね。LLMの入力にするとかその文章を書くときの下書きとしてブオーって話すみたいな。
なるほど。そのまま何か他人に見せるものでは。
そうですね。それは無理かも。
なんかそれが何かアクアとかアクアボイスとかなんかタイプでその何か一歩進んだところで何かいい感じになるっていう。
スピーカー 1
そうですね。なんかアクはもう全然フィラーとかはちょっと残るなっていう感じなんですけど、
タイプレスはマジで全てをいい感じにしてくれますね。
その過剰書きにするとか構造化するとかも勝手に読みやすい形にしてくれます。
タイプレスはなんかもう音声、そうですね。文字起こしというかなんか音声入力ですね。あれはもう。
そうね。なんかその発音した言葉をテキストに変換するのもやってくれるし、
スピーカー 1
なんかその英語の文章を選択して割り当てたショートカットでこれ翻訳してとか言ったら翻訳もしてくれるし。
スピーカー 2
私はiOSでもほとんど家ではタイプレスを入力に使ってるんですけど、
本当にこれ、例えばこないだあったのは英語でフィードバックを送りたいなみたいな時に製品のね。
その時にタイプレスでフィードバックフォームめっちゃ入力するじゃないですか。
スピーカー 2
日本語でこういうことができたらいいなみたいな。わーって入力してパッて入るじゃないですか。
で、そしたら次の画面に右下になんか選択ボタンみたいなのがあるんでポチってそれを押してこれでこれを英語に翻訳してって言ったらバッて翻訳されるんで。
あ、そうなの?え、そんなんできんの?自分もタイプレスiPhoneも入れたが、別に選択とかしなくても指示できるっていう感じなんですか?
なんか右下にその選択のショートカットみたいなのがあるんですよ。なんか今音声入力したやつの。
スピーカー 1
へー。
スピーカー 2
タイプレス1.0でめっちゃ変わりましたね。タイプレスはね、オンボーディングがめんどくさいっていう。
そうね、毎回全てをやらせられる。
はやなーって。なんとかチョコレート。
スピーカー 2
そうそう、なんか買い物リストみたいなの作って箇条書きの体験させられるんだよね。
スピーカー 1
そう。なんか1回目は結構これめっちゃオンボーディングにもなるしええやんってなったけど、なんか毎回バージョンアップの度にやらされるから。
スピーカー 2
スキップはどうせないよねあれ。
うん、ちょっと飽きてきた。本当は右下になんか出てきた。
へー、編集するために話すっていう。すごいね。
スピーカー 2
そう、なんでもうタイプレスは、なんか他のってチャットインターフェースが多いじゃないですか、AI。
これはなんか音声がインターフェースのなんかAIだなっていう感じですね。
スピーカー 1
そうですね。
なんかMacアプリとかだったら文字起こしモードとAIに聞くモードがあって、今の天気何とかをこうAIにこうパッてFNのスペースとかかな。やったら聞けるんで、もう本当にそうなってきてる。
なんでただの文字起こしサービスだったらちょっとこの先どうなるのかなって感じだけど、なんか音声インターフェースLLMだとしたらめっちゃ便利やんっていう感じですね。
なんかタイプレスの入力をiPhoneで有効にしたらめっちゃでっかい面取られるじゃないですか。
なんかあれでかすぎるなーって思ってたけど、こういうボタンを押したかったからでかいのかってなりました。
AIに支持するすべて。
スピーカー 2
Siriがそうなってくれればいいんじゃない?
本当だよ。
まあSiriがね、ジェミンギンになるっていう噂がありますけどね。
だから結構家で長文を音声で入れたりとかするんですけど、だから外でLINEの返信とかめっちゃだるになりました。
これは文字で指で打つのだるって。
確かに。フリックもね、限度があるからさすがに言葉には立てない。
いや、言葉早ーってなるから。
しかもLLMの入力源でめっちゃいいんですよね、その音声入力は。
スピーカー 2
なんか表記揺れとかちょっと漢字の変換とかおかしくても別に問題ないから。
私最近休みの日、夕方ぐらいまで布団で横になってiPhoneでバイブコーディングしてたら朝から夕方までそうなってるっていう。
ずっとタイプレスで喋ってるってこと。
怖い。怖い休日です。
スピーカー 2
なんでだよ。楽しいです。
もうちょっとオフィスでもやりやすくなるといいんだけどな。
そうよね。だから今後外のシェアラウンジみたいなコワーキングでも喋ってもいいゾーンというか、機陣に見られないゾーンが欲しい。
通話スペースみたいなところではあるのかな。
スピーカー 1
やっぱフォンブース的なところにこもって喋りまくるしかないのかな。
最近私これも実装したんですよね、音声入力を。
会社の前に話したアプリケーションに。
スピーカー 2
結構自分で実装してみると面白ってはなりますね。
どの辺が面白かったんですか。
結局ウィスパーみたいなライブラリを使って入力した音声をライブラリに渡して文字にするんですけど、
スピーカー 2
そのままやると後ろがうるさかったりするとそれも拾っちゃうみたいなのがあって、
それでどこに音の加減を決めるかみたいなのをいい感じに設定する必要があったりとか、
最初の300ミリセックで環境のノイズを測定してそれを加減に動的に設定するみたいなやつをやったんですけど、
スピーカー 2
そしたら利用者の人から、これって最初喋ったやつ無くなります?みたいなこと言われて、
そんな押してすぐ喋れているんだと思って、その機能を無くす羽目になったりとか。
あとは普通に文字起こしした後に、これLLMに投げてるんですけど、
スピーカー 2
その時に普通のLLMだと10秒くらいかかるんで、おっせーなみたいな体験になっちゃうんで、
ジェミニのフラッシュライトみたいなやつだと2秒しないくらいで返ってくるし、
どうしても文字起こししたデータは結構文字起こししましたねって感じのデータなんだけど、
LLMにかますだけですごい綺麗な感じになってきたりするんで、そことか面白かったです。
自分も喋った音声の46%カットされて半分くらいになったんで、おばさんにフィードバックしました。
だいぶマシになりました?まだ試してない?
そうね、その後そんな長い文章打ってないかも。
結構ね感動しますね。
よくあるピルコンポーネントみたいな、Aquaとかで話してたら下にFnを押して出るじゃないですか。
あれをこんなに自分のやつでもできるんだみたいな。
便利だ。
そうですね。
めっちゃ設定、めっちゃモードがありますよね。
スーパーウィスパーを使ってる社内の人からモードを選べるようにしたいみたいな。
モードは例えば普通にLLMに入力するから適当でいいから早くていいみたいな、ボイストゥーテキストみたいなやつから、
スラックとかに貼り付ける前提だからちょっと遅くてもいいから、過剰書きとかもちゃんといい感じに整形してほしいみたいなのを設定できるんですよね。
さっき言ったジェメギのモデルを自分でもっと遅くて賢いやつとかにできたり、
あとはプロンプトを自分で修正できたり、
あとはコンテキストをどんだけ入れるかっていうやつで選んだテキストの内容を入れるかとか、
選択したテキストの内容を入れるかとかクリップボードの内容を見るかとか、
あと今アクティブなアプリの情報を送るかどうかとかそういうのを選べるようになってますね。
すごい充実の設定機能。
あともう辞書登録がよく使う言葉が事前に登録してありがたいですね。
そうですね。これの辞書登録のめっちゃいいところは、
エージェントが追加できるっていう。
どういうこと?
エージェントが追加削除できる。
そうそう。
それも難しいですね。たどり着くのが。
このデスクトップアプリで何かうまくいかなかった時に、
今はおばさんに直接質問が来がちなんですけど、
実はクロードコードに質問すればだいたい解決されるっていうのがやっぱ難しいんだよな。
でも今日1個成功しましたね。
自己解決した人いました?
そうそう。このアプリ内にもうエージェントタブみたいなのを追加して、
その中を開いたら何にも意識することなくクロードコードが勝手に立ち上がるみたいなやつをやったんですけど、
そしたらその人はスケジュールを作成してくださいみたいな自然に頼んでてスケジュールができてたんだよ。
素晴らしい。
確かにこのアプリケーションの中のエージェントだったら、
こいつを理解してるような気がするっていう。
なんかやっぱ出来上がったアプリケーションで、でもクローズドで使ってるやつだと、
これクロードコードに聞いてわかるのかってなっちゃうんだよな。
確かにね。それ分かるようにしてるんですよね。
分かるように?
分かるようにしています。
聞いてもらえればいいんだけど、もう分かるわけないんだろうっていう。
そうなのよ。
これもう機能が、デスクトップアプリに機能が増えすぎて。
増えすぎて?
もう8機能もありますね。
デスクトップアプリっていうのはちょっと何回目だっけ?
ちょっと前に喋ったやつだから、詳細はそっちを聞いて欲しいんですけど。
第何回かだけ。
220回だ。
社内AI活用の生産性爆増しデスクトップアプリ。
安全なmcpサーバーを公開したかっただけなのに。
だけなのに。
だけなのに。
気づいたらね、音声入力とか。
最初は音声入力とかを別アプリにしようと思って、
みちゃらさんにアプリの名前何にしようかなみたいな話とかしてて、
オウムがいいんじゃね?みたいな。
生き物の名前で喋りそうなやつがいいんじゃね?みたいな。
私もそれで作り始めたんですけど、
みんなインストールしてくれなさそうだなみたいな。
すでにあるやつにインテグレーションした方がいいかもなみたいな。
あとUIがすでにあるんで、いい感じに作ってくれるんですよ、設定とか。
最初からしたら何このダッセーアプリケーションみたいな。
そうなのよ。
本当のスーパーアプリになってきた。
最近はね、前に記憶できるって言いましたっけ?
言ってないね。
あんまりこの機能、あんまりわかってないんだよ。
多分便利って言ってる人はいるけど、
私もあんまり何が便利なのかよくわかってないんですけど。
創造主なのに。
そうそう。
でもね、全然私よりね、今は皆さんの方が使いこなしてて、
そういうこともできるんですね、みたいな感じになってるから、それは面白いですね。
何メモリ機能って。
ちょっと見せていいですか?
うん。
うん。
リスナーの人は見えないからね。頑張って説明してないと。
ちょっとMIDのリンクを。
メモリっていうのは、AIエージェントが出てから結構言われるやつじゃないですか。
簡単に言うとそのAIエージェントの記憶ですね。
なんでこんなもの保持しておくかというと、
AIエージェントっていうのは基本的には起動するたびにも真っさらになります。
記憶が。なくなります。
なんでそれを保存しておく外部のいい感じのところが必要なんですよ。
で、これ覚えておいてって言ったときに、
それをいい感じにして記憶にするっていうのがまず一つ機能としてあるんですね。
で、全部追加するだったらちょっと大変なんですよ。
例えば、ミチルダが一番好きな果物は柿です、みたいな。
果物ね、柿ですって言ったときに、
分かりましたと。で、記憶にあるじゃないですか。
で、1ヶ月後に、やっぱ私が一番好きなのは梨です、みたいに言ったときに、
梨って新しいの追加するんじゃなくて、前の柿っていうやつの記憶を更新してほしいんですよ。
で、まぁそんな感じでその、
例えば記憶を引き出すときに、果物って登録したけど、フルーツって検索、
ミチルダが一番好きなフルーツってなんだっけって検索したときに引っかかってほしい。
ですよね。意味的に近いものを引っ張りたいっていうのもあるんですよ。
それを毎回やってるとめんどくさいんで、それができるのはこれですね。
これも追加だけじゃなくて、
更新も対応してて、それもなんだろう、
LLMが判断せずともこのデータベースが勝手にこれは更新ならみたいなのを判断して、
昔のやつを更新してくれるっていう感じになってるんで、
このアプリケーション自体はスラックとかいろんなものと連携できるんで、
ここにこのスラックの議論内容を覚えておいてみたいな感じで言ったら、
それが一つの記憶として記録されることもあるし、
これが三つに分けたほうがいいなみたいな感じだったら三つに分けて記憶されることもある。
で、最近追加した機能がよくあるやつなんですけど、
このグラフっていうやつで。
メモリー機能に追加したやつね。
ですです。
なんか見たことあるな。
で、これはこのグラフの中、記憶の中からエンティティと呼ばれる何かを取るんですね。
例えばこれは人物のこと言ってるだろう。
これはプロジェクトのことを言ってる。
これは何かのサービスのことを言ってるなみたいな。
こうなったら、この山田さんっていう人はこのDACDBっていう技術のことを使っているし、
このシェパードっていうやつを山田さんは担当しているし、
シェパードはDACDBっていうのも使ってるらしいみたいな感じが、
自動的に関係グラフが構築されるっていうやつが最近のあれですね。
で、これ何が見てムフフってなるだけじゃんってなるかもしれないですけど、
これもメモリ自体の関連として返すことによって、
田中さんって引っ張ったら、田中さんはGRPCってやつを使ってて、
田中さんは何とかっていうプロジェクトを担当して、
田中さんは何とかっていうライブラリーを使ってるみたいなのが依存情報として返されるので、
エージェントはそれも見たいんだったらさらに見ることができるみたいな感じですね。
多分記憶を使えば使うほど面白いグラフが出来上がってるかなと思ってやった感じですね。
メモリってスキル図とどう使い分けるんですか?
スキル図は基本的に記憶されないじゃないですか。
記憶されないけど効果は一緒じゃないですか。
何かしたい時に、何かアクションを起こしたい時に守ってほしいこととかをスキル図に入れておけるじゃないですか。
それってメモリに覚えてもらうと一緒な感じがするんですけど。
例えばさっきの一般的なやつはユーザーの思考とか、ユーザーはどういうことが好きとか、
ユーザーは今まで何をしていたのかとか、
そういうのをメモリっていうのに書き込みますね。
クロードコードもデフォルトでメモリっていう機能は補ってて、
それはファイルに何かを書き込むっていう感じですね。
スキルは何らかの手順を記したものなんだけど、
メモリはもっと一般的な記憶なんで、
このユーザーは日本語を話すみたいなことが書かれてますね。
このユーザーの名前はミチルダらしいみたいな。
このユーザーの名前はミチルダだみたいなのって、どのスキルに書かれるべきなんだみたいな。
なるほど。
スキルは何か手順を書いたものなんで、
もし全部で覚えておいてほしい事項だったら、
全部のスキルに、ちなみにこのユーザーの名前はミチルダですみたいな感じで書いておく必要があるっていう感じですね。
例えば今日のスラックのすごい長い100ぐらいそれあるメッセージがあったとしたら、
これの議論内容を覚えておいてって言った時に、スキルだとどうやるんだろうっていう。
この流れを踏まえてほにほにしてみたいなこととかじゃないですか。
なるほど。
これってその時点で使いたいわけじゃないんですよね。
記憶しててほしい。
だからいつか関連ある時に勝手にその記憶からゲットしてほしいみたいな感じですね。
めっちゃ長いスリルの中で、
うちのチームではZライブラリーを使うみたいな意思決定がされたら、
このプロジェクトではZライブラリーを使うらしいみたいなことを覚えておいて、
それで全然違う日とかに進めてる時に、
そういえばこのプロジェクトはZライブラリー使ってるからこうだみたいなのを
AIエージェントが自発的に記憶の中から引き出してきて使うみたいな感じですね。
なるほど。
クロードMDとか、あれに書いてるやつのリッチバージョンですね。
あれは常に読み込まれるけど、
例えばこのユーザーはZライブラリーを使ってるみたいなのって、
常に読み込まれなくてもいいみたいな。
必要ある時にだけ指出せばいい。
なるほど。
ちょうどクロードMDと何が違うんですかって聞こうと思ってました。