1. rel.ax
  2. #4 技術の進化と著作権の狭間..
2023-08-18 17:49

#4 技術の進化と著作権の狭間:AIの記事利用禁止、画像生成の議論、大規模言語モデルの倫理問題

bbz
bbz
Host

ポッドキャスト第4回目の紹介

- ニューヨーク・タイムズがAIの学習による記事や写真の利用を禁止し、著作権侵害の可能性が指摘されました。
- イラストレーターの新泉瑠衣さんの作品にAIを使った画像生成が指摘され、議論が起きました。
- 最近、日本語の大規模言語モデルが多数公開されており、その評価方法や倫理観についての議論が行われています。
- Amazonがカスタマーレビューを要約する機能を導入することを発表しました。

※ タイトルや概要は AI にて生成させています。

放送で紹介されたニュースへのリンク

https://ainewsdev.substack.com/p/weekly-ai-news-4


その他話題

Amazonが「大量のカスタマーレビューをAIが要約してまとめる機能」を導入することを発表


- https://gigazine.net/news/20230815-amazon-ai-review-summarize/

- https://ai-news.dev/links/zBhdVsQoi27j6AmG7

サマリー

ニューヨークタイムズはAIの学習による記事や写真の利用を禁止しており、著作権侵害の可能性が指摘されています。また、イラストレーターの新泉瑠衣さんの作品がAIによって生成された可能性が浮上しています。この件については、倫理観や大規模言語モデルの開発に関する議論が話題となっています。また、LLMの評価に関する議論や日本語モデルの公開についても話し合われています。

00:10
この放送、リラックスは、旬のAI関連の話題を取り上げ、bbzこと、ばばぞのと、セコンこと、縦のガツラツラと話す、ポッドキャストです。
このポッドキャストで話すネタは、AIで自動的に収集しています。ニュースへのリンクは、ポッドキャストの概要も記載します。
axで暮らしにひらめきを、オビジョンに、サービス体験な組織作りを行っている、工夫AIスタジオの提供で行っています。
はい、というわけで、いきなり機械音声でびっくりしたと思うんですけども、第4回目のリラックス収録を始めていきたいと思います。
ちなみに、今の音声なんですけど、バークっていうテキストを読み上げてくれるモデルがあるので、それを使ってちょっと作ってみましたっていう感じですね。これはニュースとは関係ないんですけど。
そうですね、なかなか機械音声っぽい感じだったんで、これからクオリティーをどう上げていくのか楽しみですね。
そうなんですよね。英語とかだとかなりもっと流暢にできるんですけど、日本語はまだまだだなっていう感じですね。
なるほど、なるほど。なんか面白い取り組みですね。
はい、ちょっとこういう小ネタも挟んでいきたいと思います。
はい。
今週ですね、また1週間のニュースを振り返っていきたいと思うんですけど、基本、さっきAIの音声がしゃべったように、AIでここ1週間の流行ってそうだなというニュースをピックアップしたのをお話ししていきますと。
今日お話しするのが、先週の11日から、昨日の17日かな、のもので収集されてますということで、早速話していきたいと思います。
AIの記事利用禁止、著作権侵害の指摘
まず1つは、トピックとしては、AIの学習による記事や写真の利用が禁止、著作権侵害の可能性が指摘されるっていうのが、ニューヨークタイムスだと思うんですけど、ここがちょっとそういった声明を出してましたねっていうのは大きなニュースですかね。
そうですね。なんか自分たちの情報はAIによって学習されたくないっていうところを結構明確に表明したみたいなところで、結構大手メディアサイトだと結構少ない例なのかなと思ってますね。
やっぱりどうしてもこのファブリックな情報だと、あまり収集されてしまいがちなところだと思うんですけど、そこはもうダメだよと明確に言ったっていうところですよね。
そうですね。結構今まではなんだかんだでそこの部分のクローリングみたいなのが許容されてきたみたいな中で、やっぱり今回の精製AIってある意味じゃあそこの部分が出している記事を丸々再現っていうのはなかなか確率的には難しいと思うんですけど、
かなりの確率でそこの部分がデータ元となって使われてしまう可能性があるっていうところに関して、やっぱり自分たちでデータを集めて公開して、自分たちで書いて公開しているっていうと、ある意味フリーライトじゃないですけど、そういうところにも見て取れるのでみたいなところで、結構表明したっていうところがやっぱり非常に珍しいというか大手サイトだとこういうことなかったと思って。
そうですよね。今後たぶん似たようなケースも出てくるのかなっていうのもあると思うんですけど、日本とかのメディアとかどうなるのかなっていうのはちょっと注目かなっていうところですかね。
そうですね。この話の続きで言うともうこのWebクローラーのところの話題とかを話したほうがなんか流れ的にいいんですかね。
そうですね。ちょうどさっき話にもあったように、オープンAIがインターネット上の情報を学習するためのBotですね。GoogleのBotとか有名だと思うんですけど、いろんなところを自動で周回して情報を取ってくるものをやりますよと。
その取られたくないやつはブロックする方法も書かれてはいるので、必要であればやってねっていうのでアナウンス出してたっていうのが今週ちょっと大きい、今週というかここ1週間で大きい話かなっていうところですよね。
そうですね。明確に禁止する方法みたいなところっていうのが今まで曖昧だったのかちょっとなかったのかわからないんですけど、結構一般的なロボットテキストに書くっていういわゆるWeb標準のやり方で対応できるよっていうところが公開されて、本当に自分たちの情報を取られたくないって思ってる人たちはそういう方法で明示的に拒否することができるようになったみたいなところが結構大きな話題になってましたね。
一方であれなんですよね、例えば学習されないっていうことはその学習の元となる情報にならないっていうことなので、例えば進化したJAT GPTとかに自分の会社の情報が全く出てこないとかっていうことにもなるんですよね。
そうですね。そういう感じでひょっとしたら差別化を図っていって、自分たちのところで大規模言語モデルを作っていくっていう動きになっていくのかもしれないですね。
ちょっとここ、客者さんの取り組みというか公約に公開されることはないと思うんですけど、どんな感じなのかなっていうのはどうこうみたいなところですね。
AI生成によるイラストの指摘
次の話題に行きたいんですが、これも割といろいろと騒ぎになっていたというわけではないんですけれども、画像生成AIを使ってるんじゃないかということで、イラストレーターの新泉瑠衣さんの作品にちょっと指摘が入ったが、ちゃんとしっかり自分で作ってたっていうのが結構物議をかもしたというか、
結構紛糾してたなっていうのが日本で起きる結構大きなニュースですよね。
そうですね。スレイヤーズとかのイラストで有名な方なんですけど、なかなか普段と違った絵柄で同人誌を書くみたいなことをやってこうしたら、そもそもそれって生成AIが作ったんじゃないの?みたいなことを疑問を投げかけられるみたいなことが起きてしまっていて、
そこのところってなかなか難しいというか、普段と全然違ったことをある意味挑戦としてやると、いや、これって生成AIなんじゃみたいなところから言われてしまうっていうのは、なかなかやってきて、世の中いろいろな議論が巻き起こってるなっていうところの一例ですよね。
そうですね。特に実際にイラストを書いてる方であれば、割とちゃんと書いてるんだなって判断できるのかなって、ここは全くイラストを書かないからわからないんですけど、多分あると思うんですけど、端から見たら正直わからないっていうのが正直なところで、今回のケースだとちゃんとその制作過程とかを公開されたことによって、使ってないよっていうのはわかったと思うんですけど、
今後使ったか使ってないかっていうのを判断するのはなかなか難しい問題なので、多分今後似たようなケースが出てくるんじゃないかなっていうところではありますよね。
そうですね。ぱっと見やっぱりどんどんそこの部分っていうのが作ったのか作らないのかわからなくなっていく。いわゆる画像生成AIの標準的なものは多分どんどん画像のウォーターマークって言われるような、その画像自体がAIが生成したかどうかっていう電子透かしみたいなものを入れていくっていうところは標準的にはどんどん行われていくのかなとは思いながらも、やっぱりツールを使う。
自分がそもそもそういうツールを使わずにダイレクトに使ったら、そういうものを通さず出力できるみたいなことができていってしまうので、本当にそこの部分の判別っていうのは難しくなっていく中で、いろいろこういう感じのある意味話題になるみたいなことっていうのは今後もたくさん出てくる中で、みんなのリテラシーみたいなのがどんどんどんどん上がっていって、
それは良いことなのか悪いことなのかみたいなところとかの議論が今後もどんどんされていくのかなみたいに感じますよね。
そうですね。そういったそのAIに関する倫理観というか価値観というかっていうところも今週たまたまピックアップされてたっていうところがありまして、やっぱりそのAIっていうのは、
何でしょうね、パッと聞いただけでは中身がどうなっているかわからない、なんか危ないんじゃないかっていうところもあって、実際まあそのすごいいろんなことができるんですけど、じゃあどういうふうに人間によっていい形を取るんだろうか、これを考えるのが大事なんじゃないかというような話が結構最近頻繁に出ているなっていうところですよね。
そうですよね。
やっぱり何ですかね、できることいっぱいあって、特に最近だと流行っている大規模言語モデルと言われるLLM、ChatGPとかですね、とかを使うと、今はできなくなっているはずなんですけど、例えば爆弾の作り方を教えてくれって言って、機械的にはそれ別に教えるのはいいんだけど、人間の倫理的に良くないよねっていうようなところの線引きとかですよね。
そこがまあどういうふうにやっていくのがいいのかっていうのがかなり今後の課題かなっていうとですね。
そうですよね。倫理的にやっていくとどうだみたいな、いわゆるそのね、人間にとってこういう出力をしてほしいっていうような学習が進んでいきながらも、逆にそうするとその倫理観ってやっぱり国とか文化とか地域によって違ったりっていうのはある中で、じゃあ多様性を生むようなAIをどういうふうに作っていったらいいんだろうみたいな、やっぱり結構いろんな話題がすごく短期間でされてるなっていうところがあるんで、
やっぱりそういう意味でも今後のAIの進化の過程っていうところのプロセスを今自分たちはリアルタイムで考えながら見れるっていうところは、良い意味で言うとすごく考えようがあるなみたいなところがあって面白いですよね。
そうですね。こういった倫理観というか規制というかっていうのも大事である一方で開発の手は止まってほしくないなっていう思いもあり、そうこうしてるとまた新しい大規模言語モデル日本製のものが出てきたっていうのも今週の話題としてありますね。
先週も確か紹介したような気もするんですけど、今週も出てきましたっていうことで、今回のやつはJapanese Stable LMα7Bですかね。こちら、Stability AIっていう先週もちょっと言ったかもしれないですね、ところから出ている日本語のモデルですね。
なので、今までやっぱりどうしても英語が強くて、英語の応答はいいんだけど日本語はちょっと弱いっていうのがよくあるあるだったんですけど、このモデルは結構日本語の応答がいいぞということで、なかなかホーマスティックな話題ではないですけども、なってたなっていうところですよね。
LLMの評価についての議論
そうですね。で、今回ここの部分のその多分確か公開された記事元とかにあったのは、じゃあどういうふうにその今後LLMをことを性能評価していくんだみたいなことも書かれていて、やっぱり既存のベンチマークってある意味LLMっていうよりかその前のある意味タスク特化型の何かに関して性能評価を図るみたいなベンチマークモデルが多かったんですけど、やっぱりLLMの評価っていう観点の切り口だと、それだけではやっぱり足りないなみたいなところからどういう芯でどういう性能を評価していくのかっていうのが多かったんですけど、やっぱりLLMの評価っていう観点の切り口だと、それだけではやっぱり足りないなみたいなところからどういう
評価をしていくと最適なLLMっていうのが測れるんだっけみたいなところが書かれていたりだとか、最近だとそういう関連の論文とかも徐々に出てくるようになっていて、やっぱり今こういうふうに日本語でも様々な学習されたLLMのモデルっていうのが本当にこの1、2ヶ月たくさん出てきた中で、どういう観点でそのLLMを評価するんだみたいなところの切り口も新たにどんどん議論されているなっていうところが、最近がそのLLMを公開したぞっていうだけじゃなくて、
それに対してどういうふうにそれは良いモデルなのかっていうところを図っていくのかっていうところとかも、様々な議論が始まっているなっていうところが面白いなと思っていますね。
一口に同じような性能といっても、こっちの点では片方が強い、そうじゃない点でいうともう片方が強いとか、一つの指標で単一の性能を測れないというか、いろんな切り口を見ていかないとなっていうところですよね。特に言語の強さなんていうのは多分顕著なところだと思うんですけど。
あとはその学習の手法のやり方でやっぱり同じようなモデルと同じようなデータソースを使っていても、やっぱりこの学習のさせ方によってだいぶ変わってくるなみたいなところが、いろいろな会社さんがこういう形で日本語モデルとかを公開しているとすごく見えてきて、そういうところでは研究対象としても本当に今後より良いLLMを作っていくにはどうしたらいいんだろうみたいなところでも、本当に最近たくさん出ているっていうのは非常に良いことだなと思っていますね。
ですね。今日のAIのピックアップからは漏れてるんですけど、今週これ以外にも日本語のモデルが2つも出ていて、もうなんなんだこれはって言うんですけど、LINE社さんが出したものとか東京大学の松尾研究室さんが出したものとかあるんですけど、特にLINEさんの出しているものとかは独自のデータを使っていて結構面白い応答するようになっているっていうのがあるので、そういったところを見るのも楽しみですね、今後。
そうですよね。やっぱりそういう形の、さっきはいろいろ話しましたけど、データセットにもよってもやっぱり表現ってだいぶ違うなっていうのは、LINEさんが出しているモデルの出力を見ててもすごく感じるところありますよね。
そうですよね。やっぱりなんて言うんでしょうね。例えば極端な話ですけど、フォーマルな会話だけを学習させたモデルだと多分有効性な感じになるんですけど、それがネットスラングみたいなのをバリバリ集めたものを学習してるんだったら、そういったカジュアルな会話もできるようになる。
もちろんそんな極端な応答することはなかなかないと思うんですけど、範囲内的に作っているものに関しては。そういった違いがデータの作り方とかによって全然違ってくるなっていうところですよね。
そうですね。BBZさんが公開されているゴザルモデルみたいなのを使うと、公開されているデータセットのモデルとかで学習させると、なんかそういう感じの、そもそもLLM自体がみんな表現がなんとかでゴザルみたいな感じに変わって、なかなか面白いよなみたいなところもありますよね。
そうなんですよね。性能は変わらないはずなんですけど、特徴が変わるだけで全然違ったものに見えるっていうようなところがあるので、今後のいわゆるベースモデルがどうなっていくかっていうのは結構楽しみですよね。
あとはニュースAIピックアップ以外からも一つぐらいちょっと話題に出そうかなとは思うんですけど、これもAmazon大手ECサイトのAmazonですけど、カスタマーレビューをAが要約してまとめる機能を導入するっていう発表があったのはちょっと大きいかなっていうところですよね。
そうですね。やっぱりこういう大きいサイトが実際の投稿されたユーザーさんのものっていうのをさまって出すみたいなところって大規模なECサイトでやられてる例っていうのはなかったのかなと思っていて、結構これがもしいい形でユーザーエクスペリエンスに貢献しているとすると、結構いろんな会社さんがこぞって、今まで全てのレビューっていうのはやっぱり見るの大変なんで、そこのところっていうのはある程度さまる。
あとはそのさまるって言ってもね、このデモの切り口だと、やっぱり文章をさまるっていうだけではなくて、それがどういう表現なのかみたいなのがある意味タグ付けじゃないですけど、こんな風にレビューとしては多いよみたいな感じの条件がわかると、みんなこういうレビューしてるんだっていうのが一瞬でわかったりみたいなところの、いわゆる本当に要約っていうところの要約だけじゃなくて、そのレビュー全体の特徴を表してるようなキーワード抽出みたいなところとか、いろんなものをセットにしてきっと出してくるとは思う。
そういう意味でどういう形でユーザー体験として提供されるのかっていうところは興味深いですよね。
そうですね、単純にその一ユーザーとしてもどういうレビューができるんだろうっていうのも楽しみですし、買うときのどういう風な体験の違いが出るんだろうっていうのですごい楽しみですね。他のサイトも多分今後似たようなものを出してくると思うんですけど、注目のニュースでしたというところですね。
大体もう20分ぐらいで今週のピックアップニュースは終わりになるんですけれども、また来週も同じく1週間分のニュースを伝えていこうと思いますので、今回は終わりますがまた来週も聞いていただければと思います。
また来週もよろしくお願いします。
はい、ではまた来週。さよなら。
さよなら。
17:49

コメント

スクロール