1. rel.ax
  2. #8 AIが奏でる音楽、書くコー..
2023-09-16 18:20

#8 AIが奏でる音楽、書くコード、描く画像、そして仏教ボット

bbz
bbz
Host

ポッドキャスト第8回目の紹介

## AIによる音楽生成
- ステイブルオーディオという音声系のAIがリリースされた。
- 簡単なテキストを入力すると高品質な音楽を作ることができる。
- 音楽としては高品質であり、BGMとして使用できる。

## マイクロソフトのCopilot
- マイクロソフトが提供するCopilotは、AIがプログラミングのソースコードを生成するサービスである。
- 企業向けのサービスであり、著作権の侵害リスクについてマイクロソフトが責任を負うことを発表した。

## 自然言語でのプログラミング
- オープンインタープリターという自然言語でプログラミングができるオープンソースツールが登場した。
- インターネットにアクセスし、外部ライブラリーを利用することができる。## 画像生成AIの進化
- アニメートリフという画像生成AIが進化し、自然な動きを表現することができるようになった。
- 技術の進化が早く、今後の発展が期待される。

## 仏教の領典を学習したAIBot
- 仏教の領典を学習させたAIBotが開発された。
- GPTをファインチューンさせることで、キャラクター性を持ったボットを作成することが容易になった。## AdobeのFirefly
- Adobeの画像生成AIであるFireflyが公式リリースされた。
- 商用利用が可能になり、フォトショップとの連携も可能になった。

※ タイトルや概要は AI にて生成させています。

放送で紹介されたニュースへのリンク

https://ainewsdev.substack.com/p/weekly-ai-news-8


その他

Adobe、無料ですぐ使える画像生成AI『Firefly』ウェブ版提供開始。Photoshopの「生成塗りつぶし」「生成拡張」も。権利クリア画像で学習 https://www.techno-edge.net/article/2023/09/13/1904.html


サマリー

AIの音声生成技術で高品質な音楽が作られるステイブルオーディオと、MicrosoftのCopilotによる著作権リスク解消が話題となっています。また、オープンインタープリターやアニメートリフなどの新たなAI技術の進化も注目されています。AIが奏でる音楽や書くコード、描く画像、そして仏教ボットも注目されています。

00:10
はい、というわけで始まりました。今回第8回目のリラックスです。
この放送リラックスは、旬なAI関連の話題を取り上げ、bbzこと私、ババア殿と、セコンことタテノがニュースについてつらつらと話すポッドキャストでございます。
AXで暮らしにひらめきを、ビジョンにサービス体験や組織づくりを行っているKU AIスタジオの提供で行っています。
なお、この放送で取り上げるニュースのピックアップは、AIを用いて集計しています。
はい、ということで今回はですね、特に機械音声を使わずに肉声でしゃべってみました。はい、セコンさんよろしくお願いします。
よろしくお願いします。肉声音声、久しぶりのね、ババゾノさんの声からのスタートということで。
そうですね、ちょっといろいろ使いたいものがあったんですけど、別の音声を流そうかなと思って、オープニングをあえて肉声で始めてみましたというところですね。
早速いきますか、今週のニュース。そうですね、また今週一週間、大量のニュースがありますので、ちょっと見ていきたいと思います。
はい、じゃあまず早速ですね、今度は音声系のAIの話なんですけれども、
音楽生成AIの登場
ステイブルオーディオというものがリリースされました。
割と簡単なテキストを入力すると、高品質な音楽を作れると、そういったものになってますね。
いやすごいですよね、これ。ババゾノさんとかも早速生成してみたとは思うんですけど、かなりのそれっぽい音楽が作れてしまうっていう。
いや、そうなんですよ。いわゆる人の声、ボーカルとかは出ないんですけど、音楽としてはすごく高クオリティなものが、簡単な自然言語を打つだけで生成できるっていう、めちゃくちゃすごくて。
さっきあえて肉声のスタートをしたのは、これで生成した音源を聞かせようというコンタクトがありましてですね、ちょっと生成したものを実際に流してみたいと思います。
で、多分ポッドキャストで聞かれるとBGMが被るかもしれないのであれなんですが、ご用意してください。ちょっと流してみます。
単純にAIでプロンプト、授業ぐらい入れただけでこんなのができます。みたいな感じですね。
これ、どういう文章で作ったかというと、実際は英語で書いてるんですけど、ドラムとラップボーカルのセッションを作っていっただけで、このクオリティのものができるんですよね。すごいですよね。
そうですよね。本当にテキストでちょっと入力するだけで、イメージする感じの音楽が作れる。
かつ今回のモデル、結構すごいなって思ったのは、そのモデルで音楽を生成した後、だいたいステーブルディフィジョン、イメージ画像を生成するモデルとかもそうなんですけど、生成したばっかりだと、なんとなくの音楽、なんとなくのイラストっていうのはできてるんですけど、
それをさらにクオリティを上げるっていう後段の処理というか、そこのクオリティを上げるように復元するっていうやり方をやったときに、今までのこういう音楽生成の生成AIって、結構ノイズが混じって聞いていても、まあ音楽にはなってるんだけど、少しザーとか、ちょっと音楽、音のクオリティが低いなみたいなところはあったんですけど、
今回のモデルは、そこの音のクオリティを今までのモデルよりもだいぶ高品質に、普通にBGMとして流していても、それなりに耐えるくらいのところの高品質のものを生成できるっていうところもすごいなと思っておりますね。
いや、本当におっしゃる通りで、結構こういうの出ると、音楽に詳しいわけじゃないんですけど、作ったりするんですけど、めちゃめちゃ今回の本当にノイズがないというか、きれいな音で、生成できる長さとかはまだそんなに長くはないんですけど、ちょっとしたこういうポッドキャストで使ってみるとか、めちゃくちゃ良い音が広がりそうだなっていうので、非常に今週盛り上がっていた感じですね。
そうですね。簡単に使えるんで、皆さん興味ある方はぜひちょっと使ってみるといいと思います。
Copilotによる著作権リスク解消
今はですね、そういった音楽の話の次はですね、これはすごく大きな話だと思うんですけど、企業向けのMicrosoftが提供しているCopilotっていうサービスですね。
これで、著作権の侵害リスクとかそういうのがあった場合は、Microsoftが責任を負うぞというような発表をしたというものすごいニュースがありましたね。
そうですね。なんかとりわけエンジニア界隈だと、このGitHub CopilotっていうプログラミングのフォースコードをAIが訂正してくれるっていう技術を広く使っている。
我々その工夫カンパニー、工夫AIスタジオでも結構積極導入をして使っていたりはするんですけど、やっぱり導入の障壁の一つが、それが生成AIが生成したソースコードが実はもう第三者のソースコードに著作権的にまずいレベルで被っていて問題になったらどうするんだっていうのはいろんな各所で聞かれていた話だったんですけど、
今回の部分はこれをクリアにできる、そこの部分をMicrosoftが顧客の肩代わりをしてくれるみたいなところはすごく安心して導入に踏み込めるっていうところなのかなと思っていて、そういうところですごく起用導入が進みそうな対策発表だったなというのがすごい業界がザワザワっとした感じでしたよね。
そうですね。先ほども言及だった通り、我々も結構このAIツールは活用していくぞっていうスタンスを持っているものの、やっぱりどうしても懸念点とか出てくるんですが、そこが何かあったらこっちが持つねっていう発布してくれたおかげで、多分結構進むんじゃないかなと思っていて、それはMicrosoftのこの前のめりさっていうのもすごい表してるなっていう感じですね。
そうですね。やっぱりMicrosoftって僕らWindowsを使っていたりしますけど、一番やっぱり収益として大きいのは2B向けのサービスなんで、2B向けのお客さんがどういうふうにそれを信頼して使ってくれるかみたいなところで、結構これってすごく場合によっては本当に何十億何百億何千億とMicrosoftがお金を払ってしまうことになりかねないような話ではあるんですけど、そこを結構大きく決断して進めているっていうところのその強さ、アグレッシブさみたいなところは非常に感じますよね。
そうですね。多分、ファイト導入は結構進むんじゃないかなと個人的には思っておりますね。というのが結構大きなニュースでしたというところで。
次はですね、これも特に本当にエンジニア界隈ですごい騒がれてはいるんですけど、オープンインタープリターという自然言語でプログラミングができるオープンソースツールというのが出て、結構みんな使って遊んでいるという状況になりますね。
そうですね。チャットGPTのウェブ版のチャットGPT4とかでは、一昔前はコードインタープリター、今だとデータ何でしたっけ?なんとかなんとか。
アドバンストデータアナリシスだったかな。確かそんな感じだったと思います。
アドバンストデータアナリシスっていう、そのチャットGPTがソースコードを生成してくれるっていう機能は、ちょっと前に1、2ヶ月前についてそれも非常に話題になったんですけど、
今回のものはこのローカルで動かせる、自分のパソコン、自分のサーバーで動かせるっていうのが非常に大きくてですね。
これが自分の手元で動かせると何ができるかっていうと、このチャットGPTのアドバンストデータアナリシスとかソースコードを生成して実行してくればするんですけど、
インターネットにある情報へのアクセスとかができなかったり、一部その外部ライブラリっていうそのプログラミングの機能を拡張しやすくなるようなものの利用ができなかったっていうものが、
今回だとそういう外側のインターネットを通していろいろな情報を落としてきたり、その外部ライブラリっていうプログラミングがより何かをやりやすくするっていうものも、
結構自動でインストールとかをしてやってくれるっていうところが、かなりそのできる幅が広がるみたいなところがあったりしていて、非常に界隈で話題になったりしましたよね。
そうですね。やっぱり元々そのチャットGPTの機能でもいろいろできてはいたんですけど、
例えばその画像を読み取るときに、読み取りはするんだけど日本語には対応してないとか、
対応するにはインターネット系で新しい何かを取ってこないといけないとかでなかなかできなかった部分もあるんですが、
そこがかなりインターネットへのアクセスができることによって様々なことができるようになって、
いろんな活用で検索していただけるといろんな記事が出てくると思うので、詳細は見ていただければと思うんですけど、
僕自身も結構すごい楽しみに見てる感じですね。
そうですね。この辺の技術が発達すると本当にテキストで指示をするだけで、
例えばウェブ上から画像データを全部取ってきてこんな風に加工してみたいなのを日本語で書くだけで、
それが完了してしまうみたいなことが普通に容易に起こり得るなっていうのを思わせるテクノロジーだったんで、非常に進化が楽しみですよね。
そうですね。今割とはしゃいでるというかエンジニアが多いですけど、
エンジニア以外の方もすごく使いやすいツールになっていくんだろうなということで期待してます。
続いて、これも結構大きな話なのかなと思うんですけど、画像生成AI、アニメートリフっていうのが進化しましたよと。
何がすごいかというと、AIで生成した動画なのかなっていうのが自然な形で、
ぐらつきとかちらつきとかそういうのがない感じで、自然な一連性を持った動きを表現することができるのが出てきたのが今週話題ですかね。
そうですね。実はちょっとアニメートリフの話をする前に、今週話題っていうところが実は話題のように見えるんですけど、
これデータソース実は一つだったりしまして、今これAIの話題自動で取ってきてるんですけど、
AIの話題のユニーク性っていうのをドメインごとに判定していったりするんですけど、
ドメインは全部別のURLのドメインなんですけど、ただホスティングしてる先が違うので、
ただ話題になったように見えてしまうというので、やたら取り上げられてしまったっていうのがあるんですけど、
ちょっとポッドキャストは伝わりづらい話題をしてしまったんですけど、
AIが奏でる音楽、書くコード、描く画像の進化
このアニメートリフはさっき馬場園さんが言った通り、本当に正面を向いている画像と右を向いている画像を2つを用意すると、
表面から右を向くみたいなところをフレーム補完しながら自然な形でレンダリング勝手に生成AIが作ってくれるっていうところが、
かなり高品質まで達したぞっていうところで非常に話題になっていまして、
結構このアニメートリフがやはりAIの進化早いなって思うのは、
このアニメートリフっていうプロジェクトができてからまだたった3ヶ月ぐらいなんですよね。
3ヶ月ぐらいでここまでだいぶ初期からするとクオリティが上がったっていうのも、
本当に最近の生成AI、昨年ステーブルディフィジョンっていうものが登場して、
ステーブルディフィジョン周りの進化っていうのも非常に早いですし、
今回のこのアニメートリフっていうものもできてから本当に短期間で、
ここまでクオリティ上がるんだみたいなところまで来たので、
本当にまた3ヶ月後、半年後ってなると、またどんどんどんどんすごい勢いで進化が必ずしていくんだろうなみたいな思わせられて、
すごいみたいなところはインパクトとしてありましたね。
そうですね。やっぱりまだできて間もない技術というか、論野ではありますが、
発展いてじるしくて、多分また来年になると全然違ったクオリティが出てくるんだろうなっていう。
自分なんかは特にこういう画像生成とか、業務であんまり使うこともないし、個人でもやらないんですけど、
こういうのって見てるだけでも楽しいものなので、すごい今後の発展が楽しみだなっていうところですね。
次も個人的には非常に謎ではあるんですが、
仏教ボットについて
仏教の領典を学習させてAIボットが悩みに応える診断ボットが開発されたっていうのが、
非常になぜかニュースで取り上げられておりましたというところですね。
そうですね。こういうネタはすごく一般受けバズりやすいみたいなところはあるんだろうなと思っていて、
テクニカルな部分ですごいというよりかは、やっぱり発想の面白さとかっていうところで、
インターネット上で非常に話題になったんだろうなというところはあって、
今回のところっていわゆる仏陀ボットみたいな、いわゆる仏的な感じの方々が残したような言葉を非常にシミュレート、エミュレートして、
DPTが回答してくれるみたいな感じのものだったりはすごいするんですけど、
今回すごく内容の面白さっていうのをさておき、技術的にやっぱり面白いなって思ったのは、
このGPTをファインチューンさせたようなんですよね。GPTってオープンAIが提供している。
そうすると何がすごいかというと、実はオープンAIが提供しているもののファインチューンっていう、
要するにこういうキャラクター付けをしてくださいねみたいなもので、
今だと簡単にAPIを叩くことによって、エンジニアの方だったらすごく簡単にそれができるみたいなことがあって、
今までファインチューンっていうとやっぱりある程度機械学習とか少し詳しくなって、
こういうふうにやるとファインチューンできるんだよっていうのを知らないとできなかったところなんですけど、
今だとある意味APIを叩くだけで今回作られたようないろいろなキャラクター性を持ったボットみたいなものも非常に作りやすくなったなみたいなところで、
いわゆる本当にツールとして手が届きやすくなったっていう最近のGPT-4やGPT-3.5の機能拡張によって、
どんどんツールとしての使い方っていうのも上がってるなみたいなのを感じさせる出来事だったなと思いましたね。
そうですね。特にこのボットというか仕組み自体は結構3代目なのかな。
割と前から作られていて、そのバージョンの変遷とかも後でPodcastとかのリンク先は載せるんですけど、
たどってもらうと見れるので、そういったところも見てみると楽しいかなと思いますので、良ければぜひというところですね。
そうですね。
AIのピックアップのニュースとしてはこのぐらいなんですが、個人的にちょっと面白いなというか、
ぜひちょっとこれ言っといたほうがいいかなというものがいくつかあったので取り上げると、
Adobeですね。画像とかPhotoshopとかで有名なAdobeさんがFireflyっていう画像生成AIですね。
もともとベータ版とかに出してたのが公式リリースされたっていうのがすごく大きな話題になってますね。
そうですね。こちらはベータ版の頃から結構使われている方が多かったりしたんですけど、
やっぱりポイントは2つで、1つは商用利用可能っていうところで、
今までは商用利用ができなかったんですけど、商用で使っていいよっていうところかつ、
Adobeが学習している写真データ等々はちゃんとAdobeがライセンスを持っている、提携しているものなので、
問題なく使っていいよっていうある程度のお墨付けが得られたっていうところで、
生成AIがより法的にクリアな形で使いやすくなったっていうのが1つ目の大きいところかなと。
もう1つはやっぱりPhotoshopの中で使えるようになったっていうのは、
普段使い慣れているツールの中で生成AIの活用が進むっていうのは、
本当に毎日Photoshopを使っている方にとっては、
当たり前の場所に生成AIで途端に仕事が便利になるぞみたいな感じの機能でも場合によってはあったりするんで、
そういうところで非常にインパクトが強いような、
ベータ版から正式リリースみたいなところだったかなと思っています。
まさにおっしゃる通りで、僕自身は他にも画像生成のAIはあって、
所要利用の話はあるんですけど、そんなに相当違いがあるのかなって思ってたんですけど、
やっぱり先ほどあったみたいにツールとして使いやすくなっている、
Photoshopと組み合わせてっていうところが非常に刺さるみたいで、
よく使っている人には本当にリアルにこっちの方が使いやすいっていう声を
僕は個人的に聞いたりしていたので、すごいことだったかなと思って眺めていたというところですね。
なるほど、なるほど。
はい、では今週まだまだニュースはいっぱいあるんですが、
時間的にそろそろ20分くらいになりますので、今週はこれで終わろうかなと思います。
また来週も同様にですね、1週間分のニュースピックアップしていきますので、
また次の放送をお楽しみにということで、ではまた来週お会いしましょう。さよなら。
さよなら。
18:20

コメント

スクロール