1. rel.ax
  2. #2 生成AIの無限の可能性:音..
2023-08-05 22:26

#2 生成AIの無限の可能性:音楽、画像、ソースコードの創造から、中国の技術力の台頭まで

ポッドキャスト第2回目の紹介

AIに関連する最新のニュースについて話し合われました。

AIニュースに疲れている人々のために、リラックスして聞けるコンテンツとして配信されています。

この放送は工夫AIスタジオが運営しています。

参加者は、BBZ(ババゾノ)さんとセコンさんの2人です。

会議の内容は、先週と同様に、AIが自動的に1週間分のニュースをピックアップし、まとめたものを中心に話し合うというものでした。

以下、会議で話し合われたトピックの要点です。


1. 楽天グループとオープンAIの競合発表

- 楽天とオープンAIが協業することが発表された。

- 具体的な詳細は不明だが、楽天のCEOとオープンAIのCEOが登場し、協力関係をアピールした。

- 大手企業がAIを活用する動きが増えている。

2. ChatGPTのコードインタプリターの話題

- ChatGPTのコードインタプリターが注目されている。

- コードインタプリターは革新的な機能であり、多様な使い方がされている。

- 生成AIの使い勝手が向上しており、話題が続いている。

3. 日本語と英語のバイリンガルな大規模言語モデルの公開

- リンナというモデルが日本語と英語のバイリンガルに対応して公開された。

- モデルの学習データには、英語56%、日本語33%、ソースコード11%が含まれている。

- マルチモーダルな学習手法が取り入れられており、さまざまな応用が期待される。

4. フォトショップの生成拡張機能の追加

- フォトショップに画像の生成拡張機能が追加された。

- テキストから音楽を生成するオーディオクラフトも公開された。

- 生成AIの活用範囲が広がり、実用的な音楽や効果音が作成できるようになった。

5. 中国のテクノロジー企業のAI市場への参入

- 中国のテクノロジー企業が独自のAIを開発し、AI市場が活性化している。

- 中国の技術力が高まっており、国内でのAIの発展が進んでいる。

6. NTTデータの生成AIを活用したシステム開発手法

- NTTデータが生成AIを活用したシステム開発手法を全技術者に展開する計画を発表した。

- 要件定義からテストコードやソースコードの生成が可能になることが期待されている。

トピックの要点です。AIの活用範囲が広がり、様々な業界での応用が進んでいることがわかります。今後の動向に注目です。 ※ タイトルや概要は AI にて生成させています。

放送で紹介されたニュースへのリンク

https://ainewsdev.substack.com/p/weekly-ai-news-2

サマリー

最近のAIニュースについて広くお話していきます。中国の技術力の台頭から、音楽やソースコードの生成AIの進化まで、生成AIの無限の可能性について考察しています。このコンテンツはリラックスして聞くことができます。

ニュースの紹介
スピーカー 2
皆さん、こんにちは。この放送では、最近の AI ニュースについて広くお話をしていきます。
日々、AI ニュースを見るのはしんどいなあ、という方に向けて、リラックスして聞いてもらえるコンテンツになっています。
この放送は、KU-AIスタジオが運営しています。
ということで、いきなり前回と変わったオープニングになったんですけれども、
リラックス第2回目を放送したいと思います。よろしくお願いします。
スピーカー 1
よろしくお願いします。
スピーカー 2
今日もですね、先週と同じく、私、bbzことババゾノと、あともう一人セコンさんですね。
この2人でお送りしていきたいと思います。
内容としては、先週と変わらずですね、AI が自動的にここ1週間、7月28日から8月4日ですね。
1週間分のニュースを自動的にピックアップして、まとめたものを中心に緩くお話ししていくというコンテンツになっております。
よろしくお願いします。
よろしくお願いします。
では、割と時間もなくなってくるので、早速ニュースを紹介していこうかなと思います。
楽天とオープンAIの競合発表
スピーカー 2
では、まず1つ目ですね、これ結構大きなニュースになったと思うんですけれども、
あの楽天グループとオープンAIが競合発表と、これはすごい、詳細はわからないんですけど、すごいニュースでしたね、こちらは。
スピーカー 1
そうですね、なんかやっぱりすごいキャッチーな話題だなと思っていて、なんかいろいろニュースサイトがたくさん取り上げたりしていたので、ご存知の方もいると思うんですけど、
結構中身としてはオープンAIと楽天協業するようで、そこの楽天のあれにサムがCEO、オープンAIのCEOが登場して、よろしくねみたいな感じの話をしたっていう内容がほとんどで、
具体的にこうだみたいなところはほとんど書かれてはなかったんですけど、なんかこういうキャッチーな話があると、楽天もオープンAI、すごい本気で取り組むんだとか、
社内外からもすごくインパクトがある発表だったなみたいなところもあるので、なので、なんかこう詳しい話というよりかは、いろんな大手のところがそういうAIを当たり前に使っていくぞみたいなところとかを徐々に言い出しているなという感じですよね。
スピーカー 2
そうですね。オープンAI、サムアルトマン氏が、前ソフトバンクの孫さんとか話したようなことも聞いていたので、ソフトバンクとかとひょっとしてやるのかなと思ったら楽天だったっていうのと、
あとソフトバンクはソフトバンクで、マイクロソフトと協業をするっていうようなこともニュースになったりしていて、やっぱあちこち動いているんだなっていう感じですよね。
スピーカー 1
そうですね。ソフトバンクとかデータセンター向けの事業とかもたくさんやってるんで、そういうところではマイクロソフトと一緒になって、Azure含めた、Azureって裏側でオープンAIのテクノロジーを使っている部分もいくつもあると思うんですけど、
そういうところでいろいろ日本の大きな会社と海外のAIをやっている大きな会社とっていうのが、どんどんどんどん最近その体系が形になってきてるよなというのが話題としてありましたね。
スピーカー 2
そうですよね。AIってわりと英語がベースになって学習をしたりするので、こういう協業で日本語コンテンツというか学習データが増えて、より使いやすくなるといいななんて思ったりしますね。
スピーカー 1
日本人にとってはその辺のところがさらに使いやすくなると、今どうしても英語のほうが精度がいろいろ高いというところが、日本語でもよくなるとか、日本語でもより小さな計算機のリソースで早く処理ができるようになるみたいなところがどんどん実現されていくのかなと思うので、その辺は期待ですね。
スピーカー 2
はい、ちょっとまだ情報は詳しくは出てないですけども、今後に期待ということで、次に行きたいと思います。2つ目ですね、AIがピックアップしたのであれなんですけど、先週に引き続いてChatGPTのコードインタプリター、これが流行ってるよねっていうようなニュースがいまだに継続して続いているっていうところですね。
スピーカー 1
そうですね、これってやっぱりコードインタプリターがいかに結構革新的な機能だったかっていうところにもなるのかなと思っていて、だいたいニュースって話題性があるものっていうのはパパッと出てきてっていう感じなんですけど、コードインタプリターってやっぱりChatGPTに今まで物事を聞くって返してもらうっていうところから、さらにコードの生成とかも含めて実行できるっていう、またそこの機能としての使い勝手が1段階も2段階も上がっていくっていうところが、
本当に短期の話題があるものでパッと終わるのではなく、結構何週間分もその話題が続いてるっていうのは、やっぱり本当に今までになかった価値を提供できるような機能だからなと改めて思ったところですね。
スピーカー 2
そうですね、やっぱり記事としてまとめちゃうと同じコードインタプリターすごいよねっていう話なんですけど、個別の記事を見ていくと、コードを書かずにデータ分析をしたよとか、Excelの面倒な計算をしてもらったよとか、いろんな使い方がされていて、多様化して一般化していきつつあるのかなっていうようなところですね。
スピーカー 1
そうですね、多分このPodcastのインクとかには貼ってあると思うんですけどね、この例えばコードインタプリターで画像編集してみるみたいなのも、画像編集できるのみたいなのも実際コードインタプリター裏側でPythonを動かしているので、プログラミング言語がこっちが自然言語でこうしてくれって指示したものに対して、別に画像編集っていうのもPython側のプログラミングの裏側の方で勝手にできてしまうみたいなところもあったりして、すごくその使い勝手の広がりみたいなものの、
エグザンプルがまた今週もたくさん出ていたなという感じですね。
スピーカー 2
はい、なのでひょっとしたら来週もまた出てくるかもしれませんが、その時は新しい発見がまたあるかもしれませんねということで、こちらは終わって次に行きたいと思います。
AIの可能性とバイリンガルな大規模言語モデル
スピーカー 2
3つ目ですが、これも一部界隈ではワイワイ言っていたんですけど、日本語と英語のバイリンガルを対応した大規模言語モデルがオープンソースで公開されましたと。
具体的に言うとLinnaっていうモデルですけども、これもなかなか衝撃的なものでしたね。
スピーカー 1
そうですね、Linna社は結構この大規模言語モデルってたくさん公開してきてるんですけど、今回のはその日本語のみならずバイリンガルで2つの言語、日本語と英語を学習して、かつその記事によると英語56%、日本語33%、ソースコード11%っていうこのソースコードも学習データにある程度混ぜてるっていうのもすごい面白いなみたいに思った感じでしたね。
スピーカー 2
しかも今回はいわゆるマルチモーナルもある程度対応できるっていうようなものになってそうですね。
スピーカー 1
マルチリンガルだとそのミニGPT4みたいなものがちょっと以前出たりしたんですけど、その手法を取り入れて結構その画像と言葉とセットにして、例えば東京タワーを撮った写真をその画像エンベッティングっていうその特徴量に変換して文字の中に差し込んで送ることによって、それに対してこの写真で写ってるものは何ですかみたいな問い合わせに対して答えられるっていうことができるようになってきたんですよね。
で、これよくそのマルチモーナルって言われる何か別のものと別のものをうまく学習させることによって同じ空間表現をすることによって同じ空間表現っていうことはつまり事前言語でこう問い合わせても画像についての情報を知ることができるみたいなことができるようになっているので、そこの部分をこのLinnaの新しく出たモデルは結構いち早く取り込んで実用的なものとして公開されてるっていうのもすごく面白いなと思ってますね。
はい、なので単純にこのZGPT以外日本語が使えるっていうところ以外にもすごく夢が広がってくる内容だなっていうところですね。
そうですね、本当に画像と組み合わせてっていうところで使い勝手っていうのがまた一段階広がると思うので、そういう意味でもすごくいろいろな取り組みをされているそのバイリンガルなLLMだなとすごくデータとして衝撃的でしたね。
スピーカー 2
あと若干マニアックというわけではないんですけど、話だと学習データが一部オープンソースというかファブリックに配布できないものがあったので、取り急ぎ修正して即座に新しいものを出したっていうスピード感もすごく好印象な形でしたね、Linna社にとってリリースの速さというか。
スピーカー 1
そうですね、もう指摘が入って、あれこれって本当はライセンス的に無事なんじゃないって言ったらすぐそのモデルを取り下げて広報を行って、その後またすぐに時間を置かずちゃんと新しくそのモデルを取り外してライセンス的に問題がないっていうところのモデルにして出すっていう、そのスピードの速さ、対応の速さや、なんかあと対応の紳士さみたいなところでもすごく好対応だったなみたいなところは外側から見ていても感じたところでしたね。
スピーカー 2
そうですよね、こういったモデルを使うときのライセンスってどうなるんだろうって気になるので、すごく今後もなんか安心して使っていけるなっていうような印象を持ってますと。
Linnaについてはこのぐらいにして次に行きたいと思います。
では次はですね、Photoshop、みんな大好きAdobeさんのPhotoshopなんですけれども、画像の編集で生成拡張機能ができたというところですね。
これも他の確か画像生成でもできたところもあったと思うんですけど、AdobeさんでもPhotoshopさんでもできるようになったと。
何かっていうと単純な画像を1枚撮って、それを範囲を広げて、本来は撮影していない場所を創造して作ってくれて、それが本当に撮ったかのような綺麗な画像で拡張される、そういう機能ができたっていうところですよね。
スピーカー 1
そうですね、ポイントは一つはそもそもAdobeってこういう機能、Adobe Fireflyっていう試験的なものに対して、そもそも出していたっていうところはあったんですけど、これがPhotoshopに乗ったっていうのはやっぱり普段使いのツールに乗ってきたっていうのはすごく使い勝手の上ではめちゃくちゃ便利なところで、
やっぱり別のツールを使ってそれでやるっていうよりは、日々当たり前に使っているものに生成AIが対応するっていうと、使い勝手としては非常に高くなったなっていうのがありますよね。
結構この生成系の本当に塗りつぶしツールって今回呼ばれているものとかは、本当に皆さんデモとかでも多分使えたりすると思うので、使ってみると、このデモだとカメレオンの顔写真を元に周りの背景を引き伸ばして、裏側にプロンプトでビーチとかって入れると、カメレオンの顔で裏側には砂浜と海がみたいなところだったりとか、
いろいろAIがその背景ってどんな感じだったんだろうっていうのを予想して作るっていうのとともに、自分が入力したプロンプトに合わせてそのテイストに合ったものを生成してくれるみたいな感じの機能なので、非常に画像編集っていうのがよりAIの力でやりやすくなったよなっていうのは、すごい分かりやすくPhotoshopに組み込まれていったので、すごい面白い機能だなと思ってます。
スピーカー 2
おだしょー そうですね。このPhotoshop、業務で使われている方も多いと思うんですけど、ちょっとこの縦横引き変えたいんだよなみたいなところとか、すごく使われそうだなっていうので、多分業界的にもすごく便利に時短になっていくんじゃないかなっていうところですかね。
おだしょー ですね。では、こちらは試せる方もいると思うので、ご確認いただければと思います。続いては、ざっくりとしたタイトルになってしまうんですが、中国のテクノロジー企業が独自のAIを開発、AI市場が活性化、急成長してますよっていうようなニュースが上がっていますと。
内容はいろいろあると思うんですけど、中国って割と特殊な環境というか、ガバナンスがかなり効いている国なので、シャットCPTとかが使えなかったと思うんですけど、そういうのもあって、国内で国内用のAIができているっていうふうな認識をしてるんですけど、そんな感じですかね。
スピーカー 1
おだしょー そうですね。いわゆる中国、もともとそもそもバイデューだとかテンセントとかアリババとか、今はTikTok運営してるような、もともとバイトダンス、これはちょっと旧社名ですけど、みたいなところがかなりテクノロジー、今までもオープンソースでいろいろなモデルっていうのを出していて、実際中国の技術力って非常にロフトウェア産業においてはかなり高い部分があったりしたので、本当に同じようにそこの部分を生成型AIのところに応用して、
生成AIの進化と中国の技術力
スピーカー 1
実際、この話の中ではチャットGPT並みとは書いてあって、どこまで本当かっていうのはあったりするんですけど、本当に外側の外資の部分のモデルを作るのでではなく、自国の中である意味統制が取れたような生成AIを作るっていうところは、前々から言われていたところなので、ここの部分で実際にそれが形になってきたよっていうところと、それに合わせて中国国内、ある意味中国ってインターネットではGreat Firewallっていう外側と内側の両方を分けて扱ってるっていうところが、
内側の中国内資の企業がすごく成長しやすい。日本だとどうしてもオープンAIと協業みたいなことに話としてなってしまうんですけど、中国の場合はそういう外側の外資と繋がることが難しいっていうので、内側の内資の企業がどんどん成長しやすい環境でもあったりするので、そういうところも含めて結構中国国内では動きが非常に盛んになってきたのかなと思います。
スピーカー 2
まさにそうですよね。大きな企業としてもそうだと思うんですけど、一般的にオープンソースで公開されている大規模言語モデルの学習ソースで、英語の次に結構中国語が多いモデルがあったりとか、あと中国で再発されたOSSのプロダクトとか、結構よく見かけるので、やっぱりすごく伸びてるんだなっていうのは追いかけてる身からしても実感するところですよね。
今後も要注目ということで、中国の新しいAI施設も見ていきたいと思います。
続いては、今度はFacebookのメタ社がオープンソースのAIツールAudioCraftっていうのを出してきましたよと。これもまたすごいものですよね。
スピーカー 1
すごいですね。これは本当にAudioCraft、MusicCraft、AudioGenみたいな感じのテキスト、文字列で入力したものを音楽に変換してくれるっていうもので、デモサイトとかを見ると分かりやすいんですけど、例えば何とか風レゲエとかって入力するとレゲエっぽいミュージックが生成されたりだとか、あとは最近はこういう大きい会社が出すモデルって取得にされちゃうことも多かったりするんですけど、
今回はそのモデルのソースコードとモデルのウェイト、そのデータともにオープンで公開されて、どんどんどんどん皆さん発展に寄与してくださいみたいなメタ社がそのメッセージを出しているので、そういう意味でも本当に音楽をテキストから生成できて割と実用的な音楽が作れちゃうっていうクオリティの高さ、それをある意味誰でも利活用しやすいような形で提供されたっていうところのインパクトと、両方がすごく大きな動きだったのかなと思ってます。
スピーカー 2
本当にそうですよね。実際にこのモデルをホストして自分で動かすっていうのは一定のハードルはあるものの、でも試せるようなスペースも用意されてますし、本当に何でしょうね、言葉を聞けばそれが音楽になる。単純な音楽にもなりますし、効果音みたいなものも作れたりするので、めちゃめちゃ用途が広がりそうだなっていうところですよね。
スピーカー 1
そうですよね。今までだと、今、BBZさんが効果音って言ってくれてましたけど、何かのちょっとした音楽っていうのを調べるっていうときに、今までだとね、素材サイトとかに行ってダウンロードみたいなことをしないと、ダウンロードしたのが自分の好みに合うかどうかみたいなのを選んでいくみたいなところも、自分のテキストの表現の方法で割とイメージする効果音が作れてしまうみたいなところとかも、かなり面白い分野だなと思ってますし、
まだこれが出たばっかりなので、ステープルディフィジョンとかと一緒でオープンなモデルが公開されると、こぞって研究だとか趣味でどんどんそのプロダクトを良くしていくっていう人たちが次々に現れると思うので、ここら辺も今のクオリティっていうのは今のリリース時点ではあるんですけど、また半年、1年後、このクオリティがどれだけ上がるんだみたいなところも非常に楽しみですよね。
スピーカー 2
おだしょー そうですね。やっぱりオープンソースの強みがそこにあって、今後どんな新しいプロダクト発展系が出てくるのかっていうのが結構目が離せないところではありますよね。
おだしょー ではでは、一応ニュースのトピックとしては大体AIが拾ってきたものはこの辺りなんですけども、追加で1つか2つぐらいちょっと我々のほうで気になったものを話してみようかなとは思うんですけど、そうですね、とりあえず大きそうなのはNTTデータさんが生成AIを使うシステム開発手法を全技術者に展開っていうような大きめのニュースがあったりしましたね。
スピーカー 1
おだしょー そうですね。僕自身すごく生成AIを活用して、とりわけ趣味のプロダクトコードとか、バリバリGPT4やコパイロットが生成したコードを使っていたりしますし、あとは最近、例えば生成AIが自動でテストコードや自動でソースコードを生成するみたいな技術のリサーチみたいなのもどんどん使われていったりしているので、そうすると本当にNTTデータさんがこういうふうにやり始めたじゃないですけど、
本当に要件定義をするとある程度のテストコードやソースコードが生成されて開発が進むみたいなのがほぼ確実に未来には来ると思っているので、そういうところをいち早くトライしながら何か開発をよりスムーズにできないかみたいなことにチャレンジとかをするんじゃないのかなと思っていて、すごく大きい企業さんがこういうのにトライするっていうのは非常に面白いなと思っていて、要注目ですよね。
スピーカー 2
そうですね。本当にNTTデータさんすごい人数いらっしゃいますし、芸術者としてもそうだし、発注者側からしてもメリットが非常にある展開なのだろうなって思いながら見ているので、今後の業界的な動きにちょっと要注意かなっていうところですかね。
あとはそうですね。どうしようかな。あと一つぐらいいけそうですね。生成系と面白ネタではないんですけど、ちょうど昨日ぐらいですかね。
ノートとかっていうサービスとかで有名な深津さんと幕さんという方が生成デザインダボかなっていうところを立ち上げて、昨日からTwitterじゃないですね。もうXですね。XでAI孔明っていうボットを作ったりだとか、あとは音声AI。
今日冒頭で流した音声とかもそこで作ったんですけど、人口の人の声をモデルにして自分だけの声モデルを作れるっていうサービスみたいな面白いAIサービスを作る会社ができたっていうのがつい昨日のことですかね。
スピーカー 1
そうですね。すごくプロモーションって意味ではまず面白いで目を引いてるんですけど、やっぱりフラディックスさん、深津さんやバスキュールの幕さんとかってやっぱりすごい昔からUX周りのことをしっかりとやられてきた方々なんで、本当にAIがどういう形で日々自分たちが使うようなデザインに落としていくのかみたいなこともさまざまな取り組みを行っていくのかなと思っていて、
すごくこの生成.AI社というかAIラボにはすごく興味を引かれますね。
スピーカー 2
本当にワクワクするというか、ちょっと月並みな表現ですけれども、目を離せないなっていう感じですよね。
時間もそろそろ20分ぐらい経ちましたので、放送としてはそろそろ終わりになってくるんですけども、今週まとめとすると引き続きチャットGPTの機能が使われてきてるぞっていうのと、
日本の企業が動き出している楽天グループとオープンAIが協業化していく間とか、あとは日本のモデル、リンナ社が出てきたりだとか、あとは中国の市場の成長みたいなところが大きなところですかね。
スピーカー 1
そうですね。マルチメディア系だとPhotoshopだったり、オーディオクラフトの音楽生成だったりっていうテキスト以外のところでも、いろんなAIの動きが引き続き盛んだなというのも今週のニュースから伺いましたね。
スピーカー 2
はい。この1週間でこれだけあるので、また来週もどれだけ出てくるのか楽しみですが、引き続き1週間トレンドっていきたいと思いますので、よければまた次週も聞いていただければと思います。
本日はご視聴いただきましてありがとうございました。
スピーカー 1
ありがとうございました。
22:26

コメント

スクロール