Amicalの導入と特徴
こんにちは、AI駆動開発部の日常へようこそ。このポッドキャストは、日々AI駆動開発を行う、
事業家の山本とエンジニアの阿部が、AI駆動開発のリアルを緩く語り合う番組です。
はい、では本日もよろしくお願いします。
よろしくお願いします。
じゃあ、今日ちょっと話したいのが、Amicalっていうサービスですね。
はい、について話せたらと思っております。
阿部ちゃんはもう使ってる?
いやもう毎日僕は使ってます。
家でずっと特に喋りまくってますね。
ちょっと結構、AI駆動開発していくと、結構AIとのやりとりが増えると思うんですけれども、
結構便利なんで、ぜひちょっと紹介できたらなというふうに思っておりました。
Amicalってじゃあ何っていう話なんですけど、
一番有名なんだったら、アクアボイスとかですかね。
うんうん、そうだね。
多分有名な、一番よく最初の方に1年前くらいかな、登場してよく聞いてたと思うけど。
うんうんうん、そうですよね。
アクアボイスとかあると思うんですけど、文字起こし、
アクアボイスは結構上限があって、それ以降はサブスクで課金しないとできないみたいな感じで、
Amicalは完全に無料なのかな、無料で使えて、
モデルもいくつか選べるみたいな感じなんですけど、
それだと結構精度高いよね。
めちゃくちゃ精度高いっすね。
ちゃんと、たとえばアクアボイスを使って、
アクアボイスを使って、
アクアボイスを使って、
アクアボイスを使って、
アクアボイスを使って、
めちゃくちゃ精度高いっすね。
ちゃんと、たとえば、
エンジニアの仕事をしていると、IT用語は英語であることが多いんだけど、
それが勝手にあたかないならずに、吉野に変換してくれるから。
いいっすよね。アクアボイスも結構良かったけど、やっぱ
お金払うのかどうかみたいな話がついて回るっていう感じだったもんね。
このアミカル自体はオープンソースのリアルタイムの翻訳というか、
文字起こしサービスみたいな感じなんで、結構いいなっていうふうに思ってます。
たまにアミカルクラウド自体が挙動が不安定なときも、
一応、パソコンに、自分のPCにローカルLMをダウンロードして、
ウィスパーとかをダウンロードして、それを使うみたいな使い方もできるみたいな感じになってるんで、
アミカルクラウドがちょっと調子悪いときはそっちにモデル切り替えて使うみたいなので、
十分実用に足りそうだなみたいな感じがあると思ってます。
ウィスパーの活用
これ結構なんか、いいよねというか、これOSSで出してくれてるの結構すごくない?
これもウィスパーをベースにしてるのかな、アミカルクラウド自体も。
ウィスパーをベースにOSSにしちゃっていいんだろうか、みたいな。
ウィスパーは別にOSSじゃないと思ってたからさ。
そういうこと?
なんか、いいんだと思って。ありがたいけどね、僕らからすれば。
けど、一応パワードバイウィスパーって書いてるんよね、そのGitHubのほう行くと。
そうなんだ。
あれだね、ウィスパー自体もMITライセンス?
そうなんだ。
だからウィスパーを使うこと自体OKで、パワードバイウィスパーっていうふうに
ちゃんと分かりやすいところに書いてたら、それを使ってもいいよっていうライセンスになるのかな。
ウィスパーはオープンAIのモデル、オープンソースのモデルみたいな形で、
アミカルクラウド自体がそれをよくラップして、使いやすいアプリケーションにOSSでしてくれてるみたいな。
そうそうそう、そういう立ち位置になるのかなっていうふうに思ってます。
なので結構ここをちゃんと理解することで、自分たちのサービスとしても使えるような可能性があるなってすごい思ってますね。
なかなかこの精度を出せるのすごいよね。
アミカルクラウドを僕最初使ってたけど、やっぱり日本時間における深夜帯に特に文字化けとか、
よくわからない言語になりがちなことが多くて、ちょっと困ってたかな。
僕はウィスパーラージV3ターボっていうローカルにダウンロードして、ローカルLLMみたいな形で実行されるやつを今使ってるんだけど、
それだと基本的にもう安定して、自分のパソコンのスペックに依存するとは思うんだけど、
それなりにすぐ翻訳というかテキストを起こしてくれるし、文字化けみたいな問題は起きなくなったから、
最初は多分アミカルクラウドから始めて、ちょっと困るなとかったら別のローカルモデルを選んでいくと使いやすいんじゃないかなって。
俺はちょっと逆というか、ローカルのウィスパーラージとか入れると、まずちょっと遅いよねっていうところと、
あと精度がちょっと悪いなって感じることが多くてですね。
もしかしたらだからちょっとユーザーの環境とか使ってるPCスペックとか、入れるマイクの精度とかもそうですけど、
なんかその辺によってちょっとなんか変わるのかもしれないですね。
左右されるかもね。参考までに僕はMac miniのM4チップを使ってて、メモリは24GBのやつを積んでるような。
俺はメモリ16GBでMacBook Airですね、のM4ですね。
ちょっとその辺で若干の違いがあるのかもしれないね。
あるのかもしれないね、もしかしたら。
まあちょっとそんな感じのアミカル、本当に超便利なんで、
便利な機能とユーザーの利用法
インストール方法はGitHubかアミカルの公式かわかんないけど、
のホームページはこの概要欄に貼っとこうと思うんですけど、
そこから普通にダウンロードボタンがあるんで、
ダウンロードボタンを押したらGitHubの最新のバージョンのページに行くので、
MacのApple Siliconだったらこれだよとか、Intel使ってるのはこれだよとか、
Windowsはこれだよみたいな感じで書いてるんで、それをダウンロードして開くだけみたいな感じですね。
なので超使いやすい。
一応Apple SiliconがM1、M2、M3って書いてるんですけど、M4も一応使えてるんで、
まあなんか問題ないのかなっていう風に思ってるっていう感じですね。
これはマジでいいよね。
なんか結構音声入力、日本語でこんくらいの精度出せるんだったら本当に、
例えば俺らで言うとさ、キッチンとか飲食店向けでっていうところで今やろうとしていってるけど、
キッチンにマイクを置いといてとか、そういうこともできそうだなとか思ったりとか。
だからアレクサを自分たちで作っていけるみたいなイメージはすごく巻きやすくなったよね。
そう、厨房用のアレクサみたいなのを作って、そこから色々頼めるみたいなことをするみたいなところとか可能性としてありそうだなとか、
結構これを使うだけで可能性って色々サービス開発という観点でもあるなっていう風に思ったんで、
すごい良いですよね。
なんかアミカル自体はオープンコードと比べてめっちゃ開発が活発かみたいなところで言われると、
そんななのかなっていう感じなんですけど、
使ってるユーザーは結構いるのかな?
そうじゃないか。
なんか出てきたの最近なのかなって俺は、知ったのが僕は最近ってだけだけど。
はいはいはい。
ユーザーは結構、Xとか見てるとみんなアミカルアミカルって言ってるから、
多いんじゃないかなって思ってるけど。
あとね、今朝気づいたアミカルの機能で、ボキャブラリーっていうのが、
もともとボキャブラリー自体は僕知ってたんですけど、それは何かと言うと、
辞書機能やね。
辞書機能で、例えば日本語の特殊な言葉とかを変換うまくしてくれないときはそこに登録しておくと、
きれいに変換してくれるようになるって言うんだけど、
僕は一個一個の単語に対してこれはこれみたいな設定を全部してたんだけど、
なんか見てたXの投稿で、あれなんだよね、もう指示として、
テキストで処理結果には必ず句読点を入れてくださいみたいな指示を与え、
ボキャブラリーとしてそれを登録するだけで、
吉田に解釈して、ちゃんと句読点入れてくれたっていう使い方をしてる人がいて、
ちょっと試してみたいな。
へー、なるほどね。
そういうのもあるみたいな。
結構だから柔軟性あるな。
プロっぽっ的に使えるんだ。
あ、そうそうそうそう。
へー、面白いねそれは。
ちょっとそれも試してみたいなと。
ぜひヤマちゃんも試してもらいたいな。
なんかあと、なんかけどね、それにちょっと類似した機能っぽいなっていうのがあって、
なんかアルファ版として、アルファって書いてるからアルファ版なんだと思うんやけど、
なんかそっちかもしんない、そっちのフォーマッティングっていうやつが、
フィクテーションっていう項目にフォーマッティングっていうのがあって。
あるね、なんかフォーマッティングって。
まだ使ったことない。
そうそう。
そう、これがまさにその苦闘展が云々かんだみたいな。
って書いてるから、
なんかそっちなのかもしんない、その人が言ってるのが。
でもね、なんかスクショで見たらまあまあボキャブラリーのところに関してだから、
たぶん現時点ではそれで代用できてるけど、
たぶんちゃんと公式としてはフォーマットっていうのを作っていく予定なのかな。
これトグルでオンオフするだけみたいな感じだから。
あ、ほんと。
だからなんかもしかしたらその人がやったタイミングと、
このフォーマッティングが追加されたタイミングが一緒だったみたいなのがあるかもしれない。
可能性としてはもしかしたら。
音声入力の利便性
けどやっぱAI駆動開発してると文字の入力量がやっぱ半端ないから、
ここが効率化されるっていうのはすごくいいですよね。
ここ1年ってタイピング速度を劇的に向上したなって実感するぐらい、
うたされてるからね、もう会話するのに。
その得たコーディングスキルとかタイピングスキルを手放さないといけないっていうね。
じゃないともうね、追いつかないよなーみたいなのがあるからね。
まあ楽だからね、話した方。
あと楽。あと僕とか家でやるときは、
お皿洗いながら指示出してるときあるもん。
そういう、手が使えるからこそ同時に何かできるっていうのもあるから、
音声入力できるといいよねって。
なるほどね、確かに。
あと細かいコンテキスト。
うつだったら完全に正規化されてるというか、
うつって言われると綺麗な文章になってると思うけど、
それだと伝わんないニュアンスみたいなのを口だと使いやすかったりとかもあるから、
まあいいかもしれない。
逆にたまに僕は上手く自分の中で整理されてない中で喋ろうとして、
結構詰まっちゃうときがあったり。
最初慣れてないと、上手く文字起こししてもらうための文章を
なんとなく整理してから言わないと結構ぐちゃってなっちゃうから。
僕は最初、意外と慣れるのは最初ちょっと抵抗感あった。
だからたぶん聞いてる方も意外と最初始めてみて、
でもやっぱ文字で打った方が早いかもって思う瞬間はあるかもしれないけど、
なんかそこは捉えてやってもらうと意外とすんなり慣れて
使いこなせるようになるんじゃないかなーなんて思って。
本当にこのアミカルいいですよね。
ちょっとけどサービスとしてもいい示唆を与えてくれるってところが
あざますって感じですね。
そんな感じで、ちょっと今日は本当にアミカルの話っていうだけなんで、
超短い感じにはなるかもしれないですけれども、
以上がアミカルの紹介となりました。
開発の進化と未来
最近ちょっとずつこういうOSSで便利なのが増えてきてるから
本当にいいですよね。
なんかいろいろ自分で作りたいなって思うときも、
なんかやっててこう不便だからみたいな、
ちょっと待ってるとすぐ出てきて、
もう作んなくてよかったみたいなのが多いから、
自分たちの開発に専念して世界が進化するのを待つっていうのがいいんじゃないかなみたいな、
最近の。
開発の方はもう誰かが勝手に進化させてくれてるから、
俺たちは飲食業界を進化させるのに注力したほうがいい。
最近ずっと口酸っぱく言ってるけど、
やっぱ自分たちでやってたら自分たちの課題を解決したくなるみたいな。
結局それは、もうすでにあるとかもね、結構あるしね。
あるからね、そうなんですよね。
この辺が、もう本当に開発分野に関しては、
どんどんどんどん出てくるっていう感じですよね、マジで。
そう。
いやー、まあいいですね。
いいのか悪いのかって言おうとしたけど、
まあいいことだけだな、
いいことだけだなって思う。
いやー、まあそんな感じで。
ちょっと最近、オープンクローとかね、結構話題になってますね。
うん。
まあしてるから、あの辺もなんか読み解くと面白そうなんで。
うんうんうん、そうだね。
うん。
まあ仕組みはそんなに何か、
なんか、
なんか、
なんか、
なんか、
なんか、
まあ仕組みはそんなになんか難しくなさそうっていう感じで、
ただ、
開発量がすごいのかな、開発量というか。
開発量。
あとやっぱり、山ちゃんがいつも言ってるけど、
接点が増えるというか、連携を一段落強くするだけで、
ユーザーの驚きというか、
何でしょう、体験できることはガッと広がるから。
うんうんうん。
そういうのを僕らもやっていきたいねって。
うんうんうん、そうだね本当に。
あの、デビンを初めて使った時の驚きみたいなね、
スラックから呼び出せるみたいな。
スラックからAI呼び出せるのは衝撃だったよね。
コード変えてくれるよみたいな。
うん。
ね、みたいな。
まあだから、オープンクローも、
まあそれで言うと、デビンもそう変わらないことをしてるんだけど、
オープンクローはさらにそこからPCを操作させるみたいなところまで、
なんか、やっちゃったみたいな。
本当にチキンレースみたいなね、
以前の話した、
常駐で録音してくれるみたいな、
何だったっけ、ペンダント?
はいはいはい。
何だったっけ、何ペンダントだったっけ。
リミットレスペンダントだっけ。
ああ、リミットレスペンダントか。
リミットレスペンダントとかもそうやけど、
ずっと録音されるってどうなのみたいな。
PC全部触らせる時に、
なんかちょっとこうチキンレースとか、
これ倫理的にとか、
常識的に嫌がるんじゃない、みんなみたいな。
なんかそういうのを突破してるのが話題に上りやすい、
じゃあ上りやすいけど、
じゃあそれが果たして、
実用的にまでいくかみたいなのって言うと、
リミットレスは多分、
まあそこそこ実用的なところまではいってると思うけど、
オープンクローはいろいろなんかね、
結構セキュリティ的にされてるんだけど、
心配なところはまだまだあるけどっていう、
とはいえ、
まあそういうふうに人、
人間がこう想定してる枷みたいなのを取り払ってみると、
全然見える世界が違うから。
違うみたいなね。
僕らもなんかそういうのが。
常識的にね。
常識的にね。
常識的にね。
常識的にね。
常識的にね。
そういうのが。
常識は疑っていきたいなっていうふうに思います。
そうだね。
まあまあそんな感じで、
はい、じゃあ今日は以上にできればと思います。
はい。
はい、じゃあ本日もありがとうございました。
はい、ありがとうございました。
本日もAI駆動開発部の日常をお聞きいただきありがとうございました。
いかがでしたでしょうか。
今回の話題はAmicalっていう、
音声をリアルタイムで文字起こししてくれるサービスについてでした。
まあこんな感じで、
もしこんなこと話してほしいよとか、
気になるトピックあれば、
ぜひお便りいただけると嬉しいです。
このPodcastを気に入ってくれた方は、
いいねやフォロー、高評価ぜひお願いいたします。
それではまた次回もお楽しみください。
バイバイ。