1. 耳で学ぶAI、ロボシンク
  2. #42【インタビュー】AI文字起..
2024-10-30 38:01

#42【インタビュー】AI文字起こしアプリ「無限もじおこし」開発者のにょすさんにお話しを伺いました

無限文字起こし iOSページ:

https://apple.co/4fkj4mJ


✍️内容

AIを使った文字起こしアプリ「無限もじおこし」の開発者にょすさんにお話しを伺いました。

アプリ開発に至った経緯、開発の裏話しなど深掘った話しを聞けました。


そして、にょすさんが普段どのようなAIツールを使っているかという事も伺ってきました!


「耳で学ぶAI、ロボシンク」ではChatGPTやGemini、Claudeなど生成AIを初心者向けに分かりやすく解説します。

👨‍💻パーソナリティ: 矢野哲平

「AIを分かりやすく、楽しく」をコンセプトにポッドキャストやnoteでAI情報を発信。株式会社root c代表取締役。福岡出身。

◎note
https://bit.ly/3LvtP91

◎X: 矢野哲平
https://bit.ly/3Tx6maM

サマリー

今回のエピソードでは、AI文字起こしアプリ「無限文字起こし」の開発者であるにょすさんにインタビューが行われ、アプリの特徴や開発の経緯、ビジネスモデルに関する詳細が語られます。彼は独自の技術とマーケティング戦略を駆使し、時間無制限で無料の文字起こしを実現しています。インタビューでは、アプリの開発過程やサブスクリプションプラン、ユーザーの利用シーンについても詳しく紹介されています。加えて、文字起こしの品質向上に向けた取り組みや生成AIの技術進化についても触れられています。さらに、今後のアップデートについての意欲が語られ、より便利なツールへの進化が期待されています。

インタビューの概要
みなさんこんにちは、ロボシンクの矢野 哲平です。この番組は、耳で学ぶAIをコンセプトに、初心者・中級者向けにAIを分かりやすく解説する番組です。
今回のテーマは、インタビュー回【AI文字起こしアプリ 無限文字起こし開発者のにょすさんにお話しを伺いました】について話していきます。
はい、ということで今日はインタビュー回になります。 AIアプリ開発者のにょすさんにお話を伺いました。
AIを使った文字起こしアプリに、無限文字起こしというアプリがあります。 こちらを開発されている方で、以前から一度お話を伺ってみたいと思っていました。
今回、インタビューする機会をいただいたので、いろいろと話を聞いてきました。 現役のアプリ開発者の方が、どういった経緯でAIアプリを開発するに至ったのか、
そしてどういった技術を使っているのかという、聞ける機会はなかなかないので非常に勉強になりました。
あとは普段どういった形でAIを活用されているのかということも伺うことができました。 それでは早速ですが本編どうぞ。
本日はインタビュー会ということで、アプリ開発者のにょすさんにお越しいただきました。 よろしくお願いします。
よろしくお願いします。
はい、よろしくお願いします。それでは簡単に自己紹介をお願いしてよろしいでしょうか。
はい、無限文字起こしというアプリを今月リリースいたしました。 様々な生成AI関連の個人開発をしております。
にょすと申します。本日はよろしくお願いします。
よろしくお願いします。
いやもう以前からですね、ちょっとにょすさんには是非インタビューをしたいと思ってたので、本当にありがとうございます。
ありがとうございます。
もともとアプリを開発されてる仕事をされてるんですか。
そうですね。モバイルアプリの専門ではなくて、どちらかというとウェブアプリのもっと裏側の部分がメインですね。
はい、なのでバックエンドと呼ばれるような裏側のロジックとか、そういうところを開発したりするのがメインでやってます。
なるほど。そしたら本業はそのバックエンドというか、ウェブアプリを開発されてて、個人開発でiOSのアプリを開発されてるということなんですね。
そうですね。
わかりました。にょすさんはですね、LLM、生成AIの技術を使ったアプリケーションをいろいろ開発されてるんですけど、
もともとその生成AIの技術をアプリで使おう、アプリで開発しようと思ったきっかけみたいな何かあるんですか。
去年の夏にそのきっかけがありまして、きっかけはVision Proなんですけど、Apple Vision Proが去年の5月か6月くらいにこういうのを作ってますみたいな感じでリリースされたタイミングがありまして、
そのタイミングでVision Proに可能性を感じたんですね。たださすがにそもそもアプリも開発したことはそのときなくて。
そうなんですね。
はい、そうなんですよ。もちろんSwift自体も経験がなかったので、ちょっとそのVision Proをいきなり開発する、Vision Proのアプリを開発するっていうハードルがすごいあったので、
まず第一歩としてモバイルアプリを作ろうと思ったっていうのが実はきっかけになってます。
そうなんですね。そうするとその本業で触られてるプログラミング言語って何になるんですか。
Pythonですね。
Pythonで。で、そこをSwiftを書いてiOSのアプリを作るようになったということなんですね。
そうです。はい。
それではですね、実際にNiosさんが開発されているアプリについていろいろ伺っていきたいと思います。
最近ちょっと冒頭でもですね、お話を伺いましたけども、最近新しいアプリをリリースされたんですよね。
はい、無限文字起こしというアプリをリリースしました。
無限文字起こし。もうダイレクトなネーミングなんですけど、無限に文字起こしをできるアプリっていう感じなんですか。
そうですね。コンセプトというかキャッチコピーとして歌っているのは、時間無制限で無料で文字起こしができる文字起こしアプリっていう形で歌ってます。
私もですね、ちょっと使わせてもらったんですけど、何というかですね、まずデザインというか使いやすさ、すごいUIがいいですよね。
ありがとうございます。
無限文字起こしのアプリってデザインもニョッさんがされてるんですか。
そうですね。全てデザインも含めて一人でやってはいて、アイデアの構想とかそういう部分は妻と話し合いながら、これだとちょっと使いにくいんじゃないかとか、
そういうユーザーフィードバックもらったり、アイデアの壁打ち合いでは妻で、ただ基本的にデザインとアプリケーションの構築とか、あとはその後のマーケティング部分とかに関しては一人でいろいろ勤めてます。
そうなんですね。私ですね、ニョッさんが開発されているアプリ、無限文字起こしもそうなんですけど、他のアプリもちょっと触ってみたんですけど、
かなりデザインがすごく使いやすくて見やすいので、別でデザイナーの方と一緒に組んで開発されてるって思ってました。
なるほど。ありがとうございます。実はちょっと僕のバックグラウンドにも影響してまして、もともと最初からエンジニアとして働いてるわけではなくて、
ウェブディレクターっていうような職種で3年くらい働いてた時があって、そこからエンジニアに転職したっていう経緯があるんですけど、そのウェブディレクターの時代に新しい機能とかを企画したり、
デザインも含めて企画して、それをちゃんと開発でサービスインできるようにディレクションしていくっていう動きをしていたので、結構そのデザインでどういうデザインが使い心地がいいかとか、そういうのを非常に研究した時期がありまして、そのおそらく経験が生きて今につながってるのかなっていうふうに思ってます。
私も初めて無限文字起こしを触った時に、かなり使いやすくて、これこんなに練りに練られてるなって思ってて、開発しているアプリの設計のこだわりとか思想とかがビシビシアプリから伝わってきてて、すごい使いやすいなって思ってました。
ありがとうございます。実は結構作り直しはしてまして、5回くらいは多分作り直したんですね。無限文字起こしの画面のデザインを作っては壊して、作っては壊してっていうのを繰り返して、やっと納得がいくものができて、今に至るっていう感じで、結構あそこにたどり着くまでにはすごい時間がかかったっていうのはあります。
そういう開発秘話というか苦労があったんですね。私、無限文字起こしちょっと今手元のアプリでしているんですけど、ちょっと具体的な機能について伺いたいと思うんですけど、無限文字起こしっていうことは、スマホで私が何か喋ると、それがどんどん文字起こしをされていくっていうものですよね。
そうですね。
これが無限に文字起こしできるっていうことなんですか?
そうです。無料で時間も全く制限なく使えるっていう。他の文字起こしツールとかを多分使っている方と、ちょっとどういうこと?なんか怪しいんじゃないの?っていうふうに思われるかもしれないんですけど、結構そういうチャレンジな取り組みを今回しました。
無限文字起こしって聞いて、無限で文字起こしできるんだ、値段いくらなんだろうって見たときに、値段が無料で無限文字起こしできるんだってなったときに、これビジネスモデルどうなってるんだろうって最初率直に思ったんですね。ここら辺のその何かロジックというかどういった感じになってるんですか?
ありがとうございます。ビジネスその趣旨部分のところに関してで言うと、簡単に言うとですね、アプリ内の広告収入と実際に文字起こしをして、このアプリを運用していくランニングコストが広告収入の方が高い状態っていうのを今回作れたかなっていうふうに思っていて、
広告収入と言っても、結構このアプリだとバナー広告で下にちょこんと広告が出てくるだけなんですね。
そうですね。かなり小さい広告ですよね。
そうですね。ただ、この広告でもある程度文字起こしのランニングコストをちゃんと賄える形に落とし込めたっていうのが一つあって、ここに結構こだわりを今回詰め込んだっていう形ですね。
なるほど。ありがとうございます。ということは一旦整理をすると、APIで文字起こしをされてるってことですよね。
で、通常APIは使った分だけお金が発生する。それが開発者の方で言うコストになると思うんですけど、それよりも広告収入が上回るような形でアプリ全体を設計されたということなんですか。
そうですね。この文字起こしのこれまでのコストの部分で言うと、そもそもですけど、文字起こしって当たり前な間隔値として文字起こしを利用するためには月額だいたい1000円から1500円くらい払って、かつ時間制限があるっていうのが一般的かなと思います。
月、今月は何十時間みたいな感じでパックがあって、それを1000円、1500円でやるっていう形なんですけど、そのコストの内訳としてあるのが、まず文字起こしの技術を開発するための研究開発、言ってしまえば専門性を持った人の人件費みたいなところとかですね。
それと実際に文字起こしをするために必要となるサーバー代、ランニングコストみたいなところがかかっていて、あとマーケティングプロモーションとかにかかるお金っていうのが込み込みで、それを含めてコストとなって、ちゃんとそれが時間制限を設けることで、そのコストよりもちゃんと高い収入が入ってくるようなっていう設計があるんですけど、
自分自身がやっている今回のアプローチとしては、そもそも個人開発なので人件費もかからないっていうところがまずありまして、マーケティングとかそういうところも一旦まだしてないので0円。
最後に文字起こしのランニングコストっていうところなんですけど、ここが結構今回の肝かなと思っていて、Googleが提供したGeminiの1.5Flashっていうモデルがあるんですけど、こちらのモデルがマルチモーダルなモデルって呼ばれている音声のファイルもインプットとして渡すことができるテキストだけではなくてですね、っていうモデルになっておりまして、
これをうまく使うと音声の文字起こしができるっていうことがまず気づいたんですね。今年の8月くらいにこのGemini 1.5Flashのモデルの価格が大幅に下がったっていうタイミングがありまして、
大幅に下がりまして、これをちゃんと計算すると、このFlashのモデルを使って文字起こしをすると、従来WhisperっていうOpenAIが提供しているような音声認識APIがあって、それがすごい精度良くて僕はずっと使ってたんですけど、
そのモデルよりも50分の1くらいのコストで文字起こしができて、かつ程度も同等化、うまくやれば高い文字起こし品質も実現できるっていうことを発見しまして。
おだしょー 発見した時ってどんな感じだったんですか?うわーみたいな感じですか?
りなたむ うわーですね。ずっと一日中言ってました。これを武器にちょっと革命を起こせるんじゃないかっていうか。
おだしょー そうですよね。文字起こし系とかで言うと、やっぱりOpenAIのWhisper、僕も使ってたんですけど、結構それが第一候補というかに上がってきてて、50分の1それ気づいて、そこからさらにこれでビジネスモデルというか収益モデルを確立しようってなったのがすごいですよね。
りなたむ そうですね。ちょっとそこから結構こだわりまして、どういう文字起こしアプリとして打ち出していくのがいいのかなっていうふうに思ったときに、シンプルに特定の分野に限るのではなくて、シンプルな文字起こしっていう形でカテゴライズせずにまず提供しようっていうふうに思ったのと、
あと、やっぱり個人で戦っていくには他の会社さんとかだと結構資金力もあるし、やっぱりプロモーション、マーケティング的な部分で戦っていくのかなり大変なので、そこを時間制限がないっていう形と、あと無料でできるっていうこの2つを軸にちょっと対抗していこうというかっていうふうに思いまして、
ビジネスモデルの革新
まずそこで戦略というかアプリの骨組みというか、そこが決まったって感じですね。
すごいですよね。ノートでビジネスモデルというか収益モデル、Geminiの1.5 Flash、かなりコストが安いと。これで行こうみたいなノートの記事だったかなって拝見したときに、そういう手法があるかって、ちょっと僕も雷に打たれましたもんね。
本当ですか。
結構そのいろいろAIのAPI、OpenAIとかのAPIを使って、いろいろなサービスとか開発されている企業さんも多いと思うんですけど、ユーザーが増えれば増えるほど、APIの利用料金が増えて結構赤字になっちゃう。でもたくさんユーザー集めるのがまず第一命題だからっていう会社が多いと思うんですけど、それとは全くちょっと逆の発想で、ユーザーを集めてもちゃんとしっかり収益も取れる。で、そこでアクセルを一気に踏んだ感じですよね。
そうですね。そこが結構開発していこうっていうふうに思えたきっかけというか、開発しようって思うまでの時間ってちょっと空いてまして、結構綿密にコスト計算というか、それって本当にコスト合うのかなとかっていうところは非常に計算して。
で、何回やってもそこのコストは広告収入よりも下回るっていう形で結論が出たので、よしという感じで、これはスケールしても大丈夫だというふうにちょっと決断したっていう感じですね。
すごいですよね、本当。ジェミニの価格の値下げがあったのが8月で、でリリースされたのが確か9月でしたっけ?
10月の5日ですね。
実質開発期間は1ヶ月ちょっとぐらいってことですか?
そうです。1ヶ月9月の、本当に9月の初めから進めまして、9月の終わりにはもう開発は終わっていて、あとは審査でちょっと1週間くらい時間がかかったっていう感じなんですけど、開発期間としては本当に1ヶ月っていう感じで。
早いですよね。しかもにょしさんは本業があって、それとは別で開発されたってことですよね。
そうですね。なので、毎朝開発したり土日開発したり、夜開発したりっていう感じで詰め込みました。
分かりました。ありがとうございます。あれですよね、無限文字おこしはもちろん無料でも使えるけど、サブスクプランみたいなのも用意されてるんですよね。
そうですね。広告が表示されてしまうっていうところで、広告を表示にするという機能があるのと、あと音声ファイルをアップロードして、インポートですね。音声ファイルをインポートして、これを文字おこしするっていう機能もサブスクリプションを契約すると使えるようになります。
ということは、無限文字おこしで録音した音声だけじゃなくて、他で録音した音声というのを引っ張ってきて、そこを無限文字おこしで文字おこしができるっていう認識でいいんですか。
そうですね。例えば10時間くらいあるすごい長い音声ファイルとかも、月額今500円という形で提供させてもらっているんですけど、時間制限は全くなく10時間でも100時間でも全部文字おこしすることができるっていう形になっているので、結構お買い得かなと思ってます。
ものすごくお買い得ですよね。だっていろいろ文字おこしのサービスってあって、基本無料で利用できる枠っていうのも少しあったりとかして、サブスクになると一気に1000円とか2000円とかになってくるんですけど、500円で広告なしで、さらに10時間でも100時間でもOKっていう。
そうです。
これももう綿密に計算されて。
そうですね。これも綿密に計算して問題ないかなっていうところですね。ちなみに裏側というか、500円以上使うためには何時間分の文字おこしをする必要があるのかみたいなところで言うと、512時間。
512時間の文字おこしをすると500円分の元が取れるっていう形になるので、そこまで使う人もいるかもしれないですし、それは全然大歓迎なんですけど、多分大部分の人はそこまではしないかなと思っているので、問題なく運営できるかなというふうに思ってます。
そんな裏側の話まで聞いちゃっていいんですか。512時間ぐらいが大体。
512時間、はい。
これがいいですよね。アプリの中にユーザーからのアンケートフォームがあったりとかして、ユーザーからのフィードバックを募る場所とかもあるんですけど、ユーザーの方っていうのはどういった用途で使われている方が多いんですか。
結構多様というか、多様ですけど、やはり多いのは会議の文字起こしっていう話もありますし、あとは英語のスピーチ練習とかそういう用途もありますね。
それは英語で喋った内容を英語で文字起こししてくれるっていう使い方で。
そうですね。スピーチ練習とかリスニング側でも使ってるっていう声は聞いたりしますね。
私もですね、無限文字起こし使わせてもらってるんですけど、私はだいたい散歩中に頭の中身とか吐き出したいときに無限文字起こしつけて、で、あとはもう散歩しながらどんどん一人ごと、ちょっと旗から見るとなんか怪しい人なんですけど、一人ごとを言ってそれを文字起こしにテキスト化してもらうみたいな使い方をしてます。
そうですね。結構僕自身もアイデア発散というか、そういう思考をテキスト化してちゃんと流れないようにする、とどめておくっていう形で使っていて、で、結構今回一つこだわったというかうまくできたなっていうポイントとしては、文字起こしの箱というか、文字起こし、今回の無限文字起こしってタイトルがついて、
で、その中に複数の文字起こしがどんどん羅列されていくというか、どんどん追加できていくっていう形になってるんですね。なので、箱、まず箱を作成して、この中に文字起こしをどんどんどんどん追加していくっていう、そういう仕組みにしてるんですけど、こうすると特定のジャンルのまず箱を作って、で、その中でそれに関連する内容をどんどん追加していく。
それ、時間が例えば翌日にふと閃いたっていうときに、そこの中に追加していくっていうこともできたりするんで、すごいそこの部分はうまく設計できたらっていうふうに感じてます。
これ、僕も触れようと思ってました。これすごく便利ですよね。まずですね、音声を文字起こししたときに自動でタイトルが決まるんですよね。
はい、そうですね。
サブスクリプションプランの特徴
で、一旦それでストップすると文字起こしの内容が文字起こしされて、じゃあ午後また改めて会議始めましょうかってなったときに、同じ箱の中でその会議の文字起こしを管理できて、最終的にユーザーの判断でその文字起こしした内容を午前と午後でつなげたりすることもできるので、これすごく便利だなと思いました。
ありがとうございます。まさにちょっとそういう用途とかもいろいろ考えたりして、そういう形式にしました。
ありがとうございます。ちょっといろいろ僕も無限文字起こしは使ってて、冒頭でもちょっといろいろ話したんですけど、かなりアプリに対してこだわってるというか、なんか設計思想みたいなのをひしひしと感じたんですけど、いろいろ他にもこだわってるポイントってあるんじゃないですか。
実はいろいろありまして、例えばアプリのUI部分でこだわったところとしては、今回のこの無限文字起こしって下にタブがないんですね。
確かにないですね。
さらに下にタブが存在してしまうと、実際に見れる画面っていうのがどんどん狭くなってしまうっていうところがあったりするのと、あとやはりこのタブがあるといろんなページが出てくるので、やはりシンプルさがちょっとなくなってしまう。
その分、機能拡張しやすいっていう部分はあったりするんですけど、そこのトレードオフがありつつも、一つのシングルページをまず起点として、ホーム画面として、そこからいろいろなページに遷移できるっていう、そういうところをちょっと採用しまして。
これが結構難しかったというか、一つのページからちゃんとすべてのページにたどり着けられるような設計にするっていうのは、なかなか難しいんですね。
そこが、例えばホーム画面に配置できるボタンっていうのは、スペース的に限られてしまうとかっていうのがあったりするので、じゃあ何のボタンが最低限必要なのかっていう、必要な機能のみを絞り込むっていうことも結構こだわる必要があったので、そこがすごいシンプルさにもつながったのかなっていうふうに思っていて、こだわってよかったなと思います。
そうですよね。ちょうど無限文字起こしのアプリを開いてるんですけど、かなりシンプルですよね。もう録音する、どこから録音したらいいんだろうとか、迷う必要ないぐらいですね。録音ボタンがパッとあって、ここから録音するんだっていうのはすぐわかるし、デザインがすごくシンプルですよね。
ありがとうございます。
あと使ってみて思ったんですけど、かなり音声の文字起こしの品質っていうのも高いですよね。
ありがとうございます。そこもプロンプトで結構こだわった部分ではあって、やはりジェミニも文字起こしの精度高いんですけど、完全ではないっていうのがあるんですね。
例えば、沈黙が長いと謎の言葉、ピーピーっていう言葉が含まれてしまうとか、空白が、半角スペースみたいなのが結構出力されてしまうとか、いろいろなジェミニ特有の使用というか挙動がありまして、
そこをうまく吸収して、ちゃんと読みやすい文字起こしにするっていうのが結構自分の中でこだわりとしてあったので、もちろん苦闘点をつけるっていう話もそうですし、
アーとかエーとか、そういう継ぎ目の言葉というか、不要な言葉、フィラー語って言ったりするんですけど、そういう言葉を意図的に削除するというか、そういう部分の後処理的な整形を結構心がけて丁寧にやったっていうこともあって、やはり結構文字起こしの品質がすごい高いっていうような声をありがたいことにいろいろいただくので、こだわってよかったなと思います。
僕も1ユーザーとして同じような感想を抱いています。アノーとかエーとかフィラー語っていうんですかね、それを発して文字起こしをするんですけど、そういうのも綺麗に整形されたテキストが上がってくるので、そこら辺もストレスなく使えるように設計されてるんだなって思ってました。
ありがとうございます。
そうすると、無限文字起こしっていろいろサービスが他にもアプリとかですね、あると思うんですけど、結構、生成AIの技術の進化に伴って文字起こしのサービスっていうのもどんどん進化していくと思うんですけど、そこら辺はにょすさんとしてはどのように捉えてますか。
そうですね。やっぱりこれから技術が進化していくので、文字起こしの変質はまず間違いなく上がると思いますし、同様にコストもどんどん下がっていくと思います。
おそらくiPhoneであればiOSの中に文字起こしの技術っていうのは多分出てきて、それによっておそらくデバイスの中で無料で文字起こしできるみたいな感じで、どんどん多分なっていく未来はあるんだろうなと思っています。
そうなってきたときに個人的に大事だなと思っているのは、やはり使いやすさっていうところかなと思っていて、無料であることはある程度前提としていく中で、その中でやっぱりこっちのアプリのほうが便利だから、使いやすいから使いたいっていうふうに選ばれるような、どちらかというとUI UXの部分。
そっちに今後は競合優位性というか差別化的なところがシフトしていくのかなというふうには思っていて、今回の無限文字起こしに関しては文字起こしの変質、さっきこだわったとは言ってはいるんですけど、やはり元々の大元のモデル、GeminiはGoogleが提供していて、自分自身にはモデルを開発する技術も時間もお金もないっていうのがあるので、
そういう文字起こし部分に関しては正直諦めるというか、Googleに完全に依存という形、お任せするという形にして、自分自身はその技術を使ってより使いやすいっていう方向を追求していこうかなというふうに思っています。
ありがとうございます。いろいろ開発の裏話とか聞けて、とても参考になるテンションが上がるお話いただきました。ありがとうございます。
次に、にょしさんが普段どういった形で生成AIを使われているのかっていうのもすごく興味があるので伺いたいんですけども、まずメインで使っているAIのサービスとかってありますか。
僕はカーソルというやつを使ってます。
AI技術の進化と今後
エンジニアの人は結構使っている人最近増えてきたんじゃないかなと思っているんですけど、
コードを書くエディターの中に生成AIが組み込まれている感じのやつですね。あれを使って最近はずっと開発をしてます。
ありがとうございます。私自身はエンジニアではないんですけど、実はカーソルを触ってて、時々コードを書く機会があるのでカーソルを触ってみたんですけど、あれもあれで結構衝撃的ですよね。
衝撃的ですね。正直一番使っているサービスですね、本当に。チャットGPTとかクロードとかいろいろ触ってますけど、やはりもう使っている利用量としては段違いで僕はカーソルがナンバーワンですね。
ちょっとリスナーの方にカーソルについて説明すると、プログラミングとかコードを書くエディターになるんですけど、画面の右側にチャット画面みたいなのを起こすことができて、
このコードをどういった処理を書きたいとか、このコードを説明してとか、チャットGPTのモデルとかクロードとか、あとそれこそはジェミニとかですね、選択してペアプログラミングしてるみたいな感じでできるんですよね。
そうですね、はい。
ということはその無限文字起こしでSwiftで書かれてると思うんですけど、それももうカーソルを使って書かれてるということで。
そうですね、もう結構任せっきりに正直なっていて、
おそらく8割くらいはコード生成したんじゃないかなっていう感じではあるんですけど、やはりそういう全部コード生成でうまくいくなんてことはなくて、
やはり自分自身がちゃんと技術を知っていないといけないですし、エラーが出た時に解決するとか、そういう時とかに結構勉強を求められるので、
まだ自分も頑張らないといけないっていう感じではありますけど、でもかなりの部分をカーソルに助けてもらってます。
ちなみにカーソルで使われてるモデルって何にされてますか?
僕はクロード3.5ソネットを使ってはいるんですけど、ただ結構O1ミニも使ってまして、あれの使い分けをやってる感じですね。
特にクロードソネットがやはり全般的に安心感があるというか、いいコードを生成してくれる感覚があるんですけど、
ただアプリ特有のロジックがすごい絡み合ってる場合とか、そういう場合にちょっとソネットだとうまくいかない時がまあまああるんですね。
そういう時にO1ミニ使うと、結構そのロジックをちゃんと紐解いてくれて、このロジックを踏まえてこういうコードを実装した方がいいよっていう感じで、
無限文字起こしの機能
割といい提案をしてくれるっていう感覚があるので、基本的にはソネットですけど、特定のアプリ開発の終盤とかに差し掛かってくるタイミングでは、結構O1ミニの活躍が増してくるっていう。
ありがとうございます。カーソル以外とかで他で何か使われてるAIってありますか?
そうですね。チャットGPTのアドバンスドボイスモード、最近といっても2、3ヶ月前とかですかね、リアルタイムに会話できる音声モードがあるんですけど、
これを使ってアプリのユーザーインタビューみたいなことはしたりしてます。例えば、無限文字起こしというアプリを開発してまして、時間無制限で無料で使えるアプリです。
UIはこういう感じで、こういう感じで録音して文字起こしていきますみたいな情報を伝えて、それを踏まえてこのアプリを使いそうな人になりきって、
今からインタビューに答えてくださいっていう形でロールプレイをしまして、それを踏まえて対話形式でやっていくと、結構実際に誰か本当に人にインタビューしているかのような感じで、
いろんな話を聞けたりするので、より手触り感があるというか、自分の中で真剣に受け止められるというか、そこはすごい使ってますね。
その使い方はちょっと目から鱗ですね。ユーザーインタビューのロールプレイの相手役としてAIとどんどん対話を重ねていくっていう感じですよね。
そうですね。なので、このアプリどこで知ったのとか、どういう時に使っているのとか、あとはこのアプリ使っててすごい嬉しかったこととか、最高だなって思った時ってどういう時とかっていうのを結構具体的に話してもらうようにすると、
自分自身のアプリを開発していく中で、やはりどういう使われ方するかなっていうのを想定しながら開発してるんですけど、そういう時の引き出しがかなり広がるかなっていう感覚があって、すごい良い使い方だなと個人的には思ってます。
AIと音声で対話することで仮想ユーザーの解像度をどんどん上げていくみたいなイメージなんですかね。
そうですね。
のしさんはアプリ開発の場面で使ってますけど、結構このユーザーの解像度を上げる仕事っていうのは、いろんな業種にも応用効く内容ですよね。
そうですね。はい、効くと思います。これまでテキスト上でもユーザーインタビューみたいなことはできたんですけど、ユーザーインタビューやはりやっていく中で、結構ポイントというか、本当にそのユーザーをイメージできるかっていうのは一つポイントかなと思っていて、
臨場感というか、本当にそう思ってそうっていうふうに自分自身が思えるかどうかで、それを無意識的に取り入れるか取り入れないかっていう変わってくる感覚が自分の中にはありまして、そういう意味でテキストでもできるんですけど、音声だとよりリアルな声として自分自身が受け止められるので、ユーザーインタビューがちゃんと前向きに。
こういう声があったから、この機能は大事なんだっていうふうに自分自身が思えるような感覚っていうのを作れていけるっていう意味で、面白い使い方かなと思ってます。
自分じゃもう全然思いつかなかった使い方なので、もう目から鱗です。
ありがとうございます。
ありがとうございます。それではですね、最後ににょっさんのほうから告知があればお願いします。
はい。無限文字起こしというアプリを10月頭からリリースして、時間無制限で無料という形でリリースしましたが、今後はその時間無制限とか無料とかそういう価値だけではなくて、もっと便利に文字起こしツールとしての使い勝手という部分でも磨きをかけていこうかなというふうに思ってます。
具体的には今はないんですけど、議事録でやはり和写を分離して文字起こしをしたいっていう和写分離の機能とかを今後実装していこうというふうに思っているのと、あと文字起こしした内容をベースに生成AIを使ってまた別なアウトプットを出す。
例えば議事録の要約を出してもらうとか、そういうアイデアをもとに企画書とかにフォーマットを整えてもらうとか、そういう形で文字起こしをベースに生成AIを活用したアウトプットっていうのを簡単にできるような、実現できるような機能っていうのをアプリ内で実装しようかなというふうに思っていて。
もちろん無料で使い放題なので、ぜひ使ってほしいですし、今後のアプリの使い勝手っていうところも改善予定ですので、ぜひいろいろと使ってもらえると嬉しいなと思ってます。
ありがとうございます。無限文字起こしのユーザーとして楽しみです、今後が。
ありがとうございます。
はい、いろいろありがとうございました。本日はインタビュー会ということでアプリ開発者のヨシさんにお越しいただきました。本日はありがとうございました。
ありがとうございました。
今後のアップデートと展望
はい、ということでインタビュー会いかがだったでしょうか。アプリの開発秘話や普段どのようにAIを活用しているのかということを伺いました。
無限文字起こしのiOSのリンクは概要欄に記載をしておきます。ぜひチェックしてみてください。
無限文字起こし、名前通りですね。無限に文字起こしができてしまうという、すごいアプリですよね。今後のアップデートも楽しみです。
番組ではこのように耳で学べるAIを毎週発信しています。通勤中や家事の合間にAI情報キャッチアップできます。
毎週水曜朝に更新していますので、ぜひフォローをお願いします。
お相手はロボシンクの矢野てっぺいでした。また次の配信でお会いしましょう。
38:01

コメント

スクロール