花粉症とエピソードの導入
はい、お願いします。
お願いします。
Osamuです。
Takumaです。
TECHNOTREK.fmは、ITフリーランスで海外MBA留学中のOsamuと、同じくITフリーランスのTakumaが、ガジェット仕事・暮らしについて話をするポッドキャストです。
実際に読んでおくんだけど、
はい、どうぞ。
なんて言うんだっけ、これ。
ExecutionじゃなくてExcuseなんだけど。
実行しちゃった。
花粉がすごすぎるんですよ。
なので途中でくしゃみしたら、編集で消せるかもしれないけど、被ってる時だと消しづらいんで。
くしゃみしたらすいませんって。
だんだん日本があったかくなってきて、花粉が増えてるらしいですがっていう話をしようと思ったから。
もうね、あったくなる前から花粉結構すごくて。
あ、そうなんだ。
どういうことって感じなんだけど。
雪降って寒いし、花粉も食らうしでもいいとこなしみたいな世界が1週間くらいあって。
今ようやくこの週末からあったかくなって、より爆撃的な花粉の量が家にいても、空気清浄機を2台回していても、薬を飲んでも、目が今も3分の1くらい見えてないんじゃないかって感じ。
自分、花粉症になったことがなくてですね。
いやー。
辛さがわかってあげられない。
次帰ってくるの7月だっけ。
うん。
7月まで花粉残っててくれたらな。
浴びせて差し上げたいけど。
直近こっちに遊びに来た友人の友人が、こっちは花粉症っぽい。
花粉症一応あるらしいんだけど、なんかのやつで。
ただ日本ほどひどくないから羨ましいって言ってて、確かにそういうベネフィットがあるのかと。
言ったかもしれないけど、本当に2,3,4月くらいだけ俺、日本脱出する人生にしようかなって思うくらい今年マジで辛くて。
本当。
海外移住そのためだけにあり、花粉対策っていう文脈だけでもありだろうみたいな。
よくサンフランシスコ行ったエンジニアの人とか、こっちには花粉がないから最高みたいなこと言ってる。
リビルドで話されてますよね。
リビルドとかそうそうそう。
蚊が出ないとか、サンフランシスコの方は。
オーストラリアぜひ2,3,4月は間違いなく花粉飲んでないので。
しかも夏だしね、暖かくて。
3月だけど雪降りましたからね、3月後半に。
今年は雪が多かったんですね。
多かったし、吹雪ぐらいの雪が一瞬で上がったけど。
でかい窓が、もう雪景色みたいな。
そのニュースをこちらでも届いているのですが、オーストラリア人は大歓喜で、スキー場の雪質がいいらしいって言って。
今年はたくさん行かれたらしいですね。
溶けちゃうと思うけど、3月下旬だと。
みんなニセコ市かり、白馬市かり、そのあたりに行った人が多いらしいですわ。
みんな日本をただのスキー場として捉えやがって。
そんなことない。
いろんな日本食だったり文化目的という、なかなか特に有意義があったりという。
AIによるコンテンツ生成の影響
ということで今回はお便りを紹介しつつ、それに対するアダコードを話していけたらと思うんですが、いつもお便りくださる柳木さん、あらため卑怯ラジオの記事さんからお便りをいただいております。
サマライズすると、AIによるコンテンツ生成が楽になったことを受けて、その学習元として、いろんなコンテンツを作ることができるようになったり、
サマライズすると、AIによるコンテンツ生成が楽になったことを受けて、その学習元として、今まで真摯にコンテンツに向き合ってきた企業とかクリエイターたちのテキストとか写真とか、それをベースにコンテンツの自動生成がされるようになってきた。
コンテンツが簡単に作れるようになって便利になったというベネフィットがありつつも、そういう対策をどうやって行っていくか、もし何かあったら教えてくださいというご質問をいただきまして、
その情報発信側のAIとの共存方法とか、上手な付き合い方みたいなのに対してしゃべれたらなと、本日は思いまして。
今のサマリは人間が王様がやっております。
あ、そうですか。
全然じゃない。
ジェネレーテッドは私です。
補足させていただくならば、柳寺さんたちのサイト、見たらめちゃくちゃPCで見やすいというかリッチになってびっくりしたんだけど、
お役立ち記事みたいなもの、各国秘境を旅しながら得た旅行のノウハウだったり、動物とかシーセンの生態とかも本当に一時情報的なものを記事に載せてらっしゃったり、
あと我々も一緒にやらせていただいた秘境ラジオでポッドキャストで配信してらっしゃって、音声、テキスト、あと写真動画あたりでいろんな情報を自ら足運んでとんでもないところに行かれて得た情報がAIに搾取されてるんじゃないかという話ですよね。
そうですね。AI、IC、それによって簡単にコンテンツを作ろうとしている人たち、インクルーディング我々でもあるので、逆に俺たちもコンテンツ作ることもあるから、学びをぜひ深めたいところであったので、しっかりちゃんと調べて、どうぞ、あんまり。
テクノトレック、このポッドキャストもAIが出てきた瞬間に、このポッドキャストの情報を食わせて何か作れないかなと思ったんだけど、雑多なポッドキャストすぎて、これ食わせてもAIが何かをできるとは思えなかったから、あまりクリエイター側の意識は得意なかったんだけど。
でも仕事でクライアントのコンテンツでちゃんとお金かけて作るものとか独自性のあるものってきっとあるでしょ。
あるあるある。
そういうのに対しては、プロテクションの方法を知っておくことは重要だなと。
そうだね。
ということで調べたと。
調べた、ちょっとバックグラウンド説明すると、私の今いる大学院は去年時点、今年はまだ出てないからというだけなので去年時点なんですが、生成AI系の関連の論文引用数世界3位という、一応大学にいるので、大学のデーザベースを駆使して。
そこで探したんだ。
でも一応オーストラリアの中に偏るやんけっていうのもあるので、Googleスカラーの中で一番Generative AIのコンテンツプロテクション系の引用数が一番多いものと、
大学のデータベースで一番ヒット率が高かったものと、あと一応日本に関連する内容を含んだものという3つを用意してみました私の方では。
なるほどです。
仕事やんけ。
仕事のアウトプットしよう。
MPAでこういうのをやっているとすぐ、ちゃんとリサーチした。
横のカテゴリーとかを気にして。
そう、世界的にこういう風な考えが今主流なんだなっていうのをリサーチすることができたので、そのあたりの紹介もまずたくまさんから後に補足があればと思うんですが、
ちょっとその論文の紹介から引き出していこうか。
はい。
はい。
なんか面白かったのは前提として柳井さんからの質問でどうやってAIと共存していくかうまく付き合っていくかみたいなのがあったんだけど、論文との論文も相似て共通していたのが、
こういうのに対して個人とか一会社が対応するというよりも政府がちゃんとどうやって適応していくべきかみたいな論点。
マクロのその法制さとかをしっかりやりましょうってアプローチが全部で、それは結構そうだよなと思うことがありました。
一番そのあたりの法制美で詳しく書いてあったのが、フィリップ・ハッカーさんって人が書いたRegulating Chat GPT and Other Language Generated AI Modelsっていう、
今Googleスカラーで引用が500近い、多分今世界で一番そのコンテンツプロテクションだと参照されている論文で、
ここに関してはその個社でやることはもう難しいから、規制の手段として事前に規制できること、開発段階の審査許可っていうのと、
事後、実際に社会的な問題が生じた後の罰則設定に対して書いている論文ですと。
多分そこそこ読んで面白いと思うので、詳しいところは読んでもらうとして、
さっきの事前の規制でいうと、技術的透明性、どうやったモデルを運用しているのか、
それにどういう技術的な進展が今後ないしは、ユーザー側でこういう損失が被る可能性があるみたいなところをちゃんと可視化させて、
提出させるみたいな要件とか、アルゴリズムのオーディットの監査を義務づけましょうという業界ガイドラインを作ることが今求められているんじゃないかというご提案だったりですとかですね。
アルゴリズムの監査ね。
いや、できるのかな。
あと、モデル開発とエンドユーザーの中で、実際モデル開発者側がリスクの全部を追って、ユーザー側が便宜だけを求めていきましょうというと、めちゃくちゃ中央集約的な考え方になるじゃないですか。
SNSで起きた誹謗中傷とかそういう発言の責任がSNS企業側にはないじゃないですか。
あくまでプラットフォームはプラットフォームであってみたいなのが現行のウェブサービスの法律だから。
それもそれでフェアだと思ってて、逆に権利が全部運営者に集約すると、それって独裁国家みたいな、今でいうXみたいな形になってしまうわけ。
Xどっちの責任持ってないか微妙だけど。
そう、見都合のいいところだけやってるからね、あいつら。
そういうリスクとベネフィットをどうやってエンドユーザーと事業提供者側で分配するかみたいなところが必要だよね、そういう設計が必要だよねっていう紹介をしていたり。
規制と保護の重要性
そういう制度系のお話をすごくたくさんしていて、ここに関して今、一番コンテンツプロテクションに関しては業界に注目が集まっているっていうのは面白かったし、そうだよなと俺も思うところではありますね。
これが世界的な一番引用されているやつで、性愛権に強い大学院のデータベースから引っ張ってきたものを次に紹介すると、この人はコアラさんって読むのかな。
コアラさんだったらめっちゃ面白いね。
オーストラリアのやつね。
コアラ・ミシャリーだったって読むのかな。
Protection of Publishers in the Age of Generative AIっていうもので、これどっちかっていうとアメリカよりもオーストラリアがEASとの関係性が深いから、
結構アメリカで起きたテクノロジー、EUが規制していくっていう流れはいろんなテクノロジー、AIに限らずあると思うんだけど、
そのEUの規制に対する良し悪しを論じている論文があり、特にそのAIアクト、EUがラージランゲージモデルに対してこういう法律を適応させようと思ってるっていう風にしてるやつが結構他と違いじゃねっていう話をしてるのがこの論文ですね。
いいっすね。
その批判は結構いろいろ面白くてですね、そもそもGenerative AIっていうモデルという概念に対して規制をすべきで、
割とチャットGPTがどうとかクロードがどうみたいな、個別のAIに対しての言及があって、これしたってしゃーないでしょっていう話をしていたり、
あと何だっけかな。
課題はいろいろ指摘されてたんだけど、最初にどうしたらいいかっていうと、
法律弁でデータガバナンスとか差別的な表現をなくすとか、セキュリティみたいなものは全部すべてに適応させることと、
高リスク用途に特化したっていうものに対してライセンスを義務付けて、そこに対してリスク管理の義務を課していきましょうと。
医療とか雇用とか、ビザみたいなのに関してで、
ハルシネーションが起きてしまったり、そこの中でコンテンツクリエイター側の何かを守るというよりも、
そこで作られた適当なものを参照にして適当なアウトプットを出さないようにするみたいなものだけど、
法律と制度の考察
法律用途に特化したものはライセンス制にしましょうよというのと、
開発者とデプロイヤー、モデルとアプリケーションとユーザー側で何をその情報として食ってるのか、何だったら与えていいのか、
与えたくないならロボットとテキストでクローリングやめましょうみたいなものをもうちょっとクリアに誰でも見れるようにする。
ここまではちゃんとクロールされて正しい情報ですよ。
ここからは過去の傾向から生成DIが考えましたよみたいな。
バリューチェーン上のすべての人たちがちゃんと生成されたコンテンツに対して監査できるようにするみたいな。
この3点をやったらどうすかっていうのがこの論文ですね。
さっきの一番上のフィリップ・ハッカーさんが言ってたよりもより具体的なクライテリアを設けましょうよみたいな。
特にEUのものに関して。
というのがこれで、さっさといくと最後3つ目なんですけど、
こういう系でどうしても英語の論文見つけると英語圏の問題しか使ってくれないから日本に対して言及してるのないかなと思って調べたら1個唯一あって。
アーサー・ダーマワーさんっていう人の。
簡単に言うとEUの法律ちょっと微妙やから日本のやつ参照にしようぜっていう論文が上がってて。
日本でコンテンツの引用困ってますっていうのに対して、
日本が実は世界的には結構優れた制度持ってるんじゃねっていう気になるという論文だったんだけど。
この論文の入りとしてはTDM、テキストデータマイニングにおいて、
いろんなデータ、大量のデータから類推することが不可欠。
それに対して自分のコンテンツは使わないでくれよとか、コンテンツの信頼性が低いよみたいなものに対してEUがさっきのAIアクトみたいなのをやったんだけど、
あんまり制度微妙じゃねっていうのはさっきの論文で話した通りなんだけど、
それに対して日本の2019年にあった著作権法の改定が意外と世界では評価がいいらしく、
なんか俺もそんな詳しいわけじゃないんだけど、ここで書かれてるので言うと、
日本では今、非教授的な目的であればテキストマイニングしても良いという規定になっているらしく、
著作物を楽しむ教授の目的ではない場合、そのテキストデータマイニングを許可しますよと。
いつだかあった漫画村みたいな。
ああいうのはダメだけど、より技術の発展にするんだったらデータ引用してもええで、というのが今の日本の法律だとなっており、
それが主には大体3つの例外として世界から注目されているらしく、
商用、非商用問わず、教授目的じゃなかったら使える、著作権者によるオプターアウトの制限がない、
コンテンツ保護の手法
何かアクセルするときに法律的な許可が必要なくアクセスができますよというものがこの日本の著作権法2019年に改定されたやつらしいのですが、
それが非教授目的っていうものに限ってちゃんと正しいデータを加わせることによってアウトプットが良くなるし、
それに対してさっきのどうしてもって時にはロボットテキストを用いた機械判読可能な方法で制限するっていうのが一番フェアなんじゃねっていうのが逆に世界で分かってるらしく、
今回の質問と逆的なトレンドなんだなって思ったのが面白かったので最後紹介しましたと。
言うのがこの論文3つぐらい、結構読まれてる論文を3つぐらい探したときのサマリーですね。
そのサマリーと、個社じゃなくて生徒でどうにかせい、その生徒はEUが頑張って使ってるが微妙、
それの生徒が書いたたびに日本の法律が適用されてそう、参考にされてそうみたいな感じですね。
なるほどね、いや授業でしたね。
論文だもんなって。
なるほどね、基本スタンスとしてはもう制度と仕組みでっていう話なんだよね。
そうだね。
ただ制度と仕組み、私はリベラルであり、制度仕組みを信用しないで生きてきたスタンスの人間なので、
結局自力で防衛すんにはどうすんねんみたいな部分も。
すでにあるものはね。
論文でも触れられてたっけ。
さっき言ったウェブサイトにロボット.txtを用いた機械判読可能な方法での拒否を示すことっていう。
ただ画像とかに関して言うとちゃんとウォータークーラー、何かウォータークーラーなんだっけ、ウォーターマークか。
ウォータークーラーを水冷やしてるだけで。
ウォータークーラーを給湯室って意味ですね。
あ、そうだね。
間違えた。
クーラーってそのクーラーじゃん。
まあそうね。自力でできるようになって、今想定界として上がっているものしかなく、
想定界っていうか、実際現実的に今何かしらのサイト、多分ひじさんが貼ってくれたまとめのウィキ、
どうやってコンテンツを守るかみたいなウィキが日本語であるんだけど、
それに書いてある方法はきっと、
ジェネラルなコンテンツの守り方とか各種プラットフォームからの適応なんていうのかな、
インスタだったりMixi2とかいろんなSNSのオフターワーズ機能をどうするかとか、
そういうすごい個別具体な方法が入ってあるが、
一般的にその大きくコンテンツを守るみたいな世界の流れはこうだよというのかな。
論文の紹介かな。
なるほどですね。
俺も実はこのAIの話をしてる中で自己矛盾がすごいんだが、
ディプリサーチで、
この頼りの内容のお題的な部分、
コンテンツ作る側の生成愛による損害とか、
それを守るための技術研究サービスについて調査してっていうのを投げてみて、
さっき帰ってきてたんだけど、
それを紹介しようかしら。
基本なんかクリエイター守る文脈での話だから、
自分でクリエイターがどうするかみたいなやつが多いんだけど、
一つはもうあれだよね、多分さっきも触れられてたけど、
AIクローラーをブロックするっていう。
これがrobots.txtで、
これは多分昔からある技術だよね。
クローラーに読み込ませるためにロボット.txtを設定するみたいなのを、
SEOでやっていた記憶があるが、
逆版をやるという。
ただ触れられてるけど、
これらの拒否信号に法的強制力がないと。
あくまで意思表示なので、
クローラー側がそれを無視して取れると。
なので、俺も散々すごいすごい言ってたPowerPlexityがすごかった理由は、
このrobots.txtを無視してサイトを巡回して、
しかも自分を普通のブラウザになりすましていたため発覚しましたみたいな。
そういう悪質なクローラーをして、
これが炎上して悪質なクローラーをしなくなったらPowerPlexityの精度がめちゃくちゃ下がって、
しばらく最近使ってないけど、そういうね。
無視してくる輩もいるかもしれないですよと。
そういうときにどうしたらいいかというと、
これ合計4つあるんだけど、
第2の矢としては、
スクリーピング自体を防止するっていうのが、
CDNサービス。
クラウドフレア。
有名どころで言うとクラウドフレアとか、
ウェブサービス作る人たちだと基本的には使ってるような。
クラウドフレア以外だと何があるんだ。
でもそういう有名どころの。
よくウェブサービスが落ちた落ちたって、
いろんなのが連鎖的に落ちてるときって、
AWSが落ちてるかクラウドフレア障害かの形かみたいなイメージがあるぐらい使われてるやつだけど、
このロボットソフトテキストとは関係なく、
クラウドフレア自体の機能として、
AIスクレイパーとクローラーをワンクリックでブロックする機能っていうのができてて、
これ無料プランでも使えてみたいな。
これでAmazonのボットも、
アンソロピックのクロードのボットも、
GPTのボットも、
パブリキシティのボットも全部ブロックできるっていう。
だからとりあえずクラウドフレア使ってて、
ってなったらこれをオンにしとけば、
基本的には取られない。
じゃないのかなと。
ひたちごっこになると思うけど、
少なくともユーザー数が多い、
こういうクロールするようなサービスっていうのは、
ある程度知名度もあり、
ガバナンスも求められてるから、
そこを悪質に突破しようとする人たちもいないだろうから、
実質的にはここで割と8割9割を守れるんじゃないのっていう感じ。
あと第3がウォーターマーク、
これさっき触れたから一旦いいかな。
あとこれ面白いなと思ったのが最後なんだけど、
毒を持って毒を吸って、
レポートで書いてくれてるけど、
AIに学習させるデータ自体を採掘すると。
意図的にAIにとって学習しづらい状態に加工するっていうのが、
GRACEっていうサービス。
これあれじゃん。
そうそう。
なんだっけ。
知ってる?
知ってる。
猫を駆かせると犬になる、
猫を駆かせると牛になるっていう。
牛?犬?
犬を駆かせたはずが猫になり、
車が牛になってしまうなど、
モデルがむちゃくちゃになるというのです。
めっちゃ面白いなと思ってこれ。
攻撃や最大の防御って書かれてるけど、
AIに学習させる前に画像側に、
人間が見る分にはそれは猫にしか見えない画像なのに、
AIが学習するとその毒によってぐちゃぐちゃになるっていう。
猫の中に犬の、
何かの模様を入れとくのとかを、
グラデーションにどんどんどんどん学習させて、
猫なのに犬だか牛だかとさせるみたいなのを文字って、
どっかのエンジニアのお父さんが娘に、
猫のように見せたら犬って言って、
こいつは機械学習だっていう。
赤ちゃんだからさ、
別に猫と犬の違いわかんなくて、
にゃーにゃとかワンワンとかって犬みたいなのと同じ感じで言ってて、
AIの影響と課題
すげえ面白かったのを知ってて、
それのたぶん元ネタがこれなんやな。
生成AIがそこにいたやん。
そうそう。
確かにこれは賢いし面白いけど、
限界はありそうな技術だなと思う。
そうなんだよね。
これをやった結果さ、
結果として自分のコンテンツ守れても他のユーザーが、
これによって微妙な生成結果が出てってなってくると、
正しい使い方をしてるモデルもぶっ壊される可能性がある。
ってなると短期的にはいいことだけど、
長期的に業界のハッピーに繋がらないから、
割とアンチパターンな協力をしていて。
そうだね。
その話で言うと、スクレーピング防止、
クラウドフレアのやつも、
これめっちゃいいじゃんって、
普通に短期的には思うんだけど、
一方で普通に最近、
Google検索のPCのトップ画面もAIOだっけ、
AIによる引用結果が検索のトップに出てきて、
広告よりもさらに上に出てきて、
それによってトラフィックの状況どうなったのっていうレポートが、
ちょうどそのAIOがリリースされた数日後ぐらいに早いんだけど、
アメリカのほうで出てて、
それ読んでたら、
クエリによって違うんだけど、
基本的にトップ側のサイトは流入が減って、
AIとウェブサイトのトラフィック
下側のサイトはAIに引用されることによって、
めっちゃ一丁目一番地に出られる確率が増えたことによって、
これまで日が当たらなかったサイトたちが、
めっちゃトラフィック増えてるみたいな。
なるほどね。
これをブロックしてしまうことによって、
その機会が失われるっていうリスクもある。
そもそも見つけてほしくてウェブに公開しているのに、
AIをブロックすることによって、
見つけられにくくなってしまうっていう副作用もある。
この2つあると思ってて、
AIがどの部分をブロックしなきゃいけないのかというと、
学習されるコンテンツをフリーライドして再生成されるのはブロックしなきゃいけないけど、
見つけてもらう部分に関してはむしろ、
ウェルカムしとかないといけないっていう。
これの澄み分けが今のところちょっとむずくねっていう感じなんだよね。
ブランドと知的財産権
ラッダイト運動みたいなのが起きてる気がしてて。
ああ、そうね。
第一次世界産業革命の機械打ち壊し運動みたいなのが今起きてて、
別に機械壊しても産業は良くならないというか。
そうそうそうそう。確かにね。
過去から学ぶほうがいいんじゃないかと、
俺はこういうの見てて思ったりする。
小学校の時、歴史の教科書見てても思ったもんね。
機械壊して何なんのっていう。
いや、働けよとしか思わなかったけど。
もちろんね。
今もAIに毒を食わせて悪化させてもどうせ、
それでただ5年、5年もかかんないだろうな。
1、2年ちょっと進化遅らせる毒になるだけで結果は変わらないから。
ちゃんと共存することと短期的に失うものが何かあったとした時に、
被害を最小限に抑えつつ、
これでもほぼロトというか、
時代の流れにたまたま自分の産業が関わってしまったっていうことでしかないと思ってるから、
新しくちゃんとピボットできる手段を考えるとか、
新しく来る波にどうやって乗れるのかを考える方が
精算できたんじゃないかなと個人的に思ったりするという。
よく最近言われてるのは、
ブランドしかないですよねっていう。
何かコピーされたとして、
画像とかもテキストとかも文章テキストタイトルも全部コピーされて、
何か第三のパクリサービスみたいなのができたとして、
これってあれのパクリじゃんって思われた瞬間にそれはもう伸びない。
第一早期になっているブランド、あれのパクリじゃんのあれ側にならないと、
それになることが唯一の生き残り作というか。
その意味で、柳さんたちのコンテンツはもうすでにそうなってるような気がするんだけど。
写真とかも特徴的だし。
ただ、それの筆頭としてあるのは、
いろいろ訴訟中だから触れるのはセンシティブだけど、
ポケモンがさ、パクリゲーム作られたじゃん。
パクリゲームって言っていいのか断定していいのかわかんないけど、
何だっけ、サービス名、ゲーム名忘れちゃった、パルワールド。
はいはいはい、あるの確かに。
あれがポケモンのパクリかどうかっていうのは論争中の部分であるけど、
手段はどうあれパクってんじゃん。
ポケモンじゃなくてこのパルワールドに関しては、
なんていうの、このモンスターたちを。
明確にプリンをモデルにして作りましたみたいなのは、
クリエイターが確か言ってた気が。
ああ言ってんだもん。
確かに。いやちょっと定かじゃないけど。
そのオープンワールドでポケモンみたいな生物がいて、進化とかもあって、
戦い方だけ違う銃が使えるとかっていう残酷なあれだけど、
ポケモンみたいなことを作ろうとしたわけだよね。
作って実際ちょっと伸びちゃったと。
その瞬間に、これポケモンのパクリアンっていうのが世の中で一瞬で広まって、
ってなってくると、あんだけ面白い面白いって言われたけど、
俺全然やろうと思えなかったのは、
そんな二番戦士のものを今さらやってもなみたいな気分になりました。
それこいつら一定の売り上げ上げちゃってるから、
成功したと見ることもできるかもしれないけど。
でもブランドとしてはだいぶ傷つくから。
そういう知的財産権を守るというか、
知的財産権の維持と生成データの学習みたいな2つの論点がある気がしてて、
AIとコンテンツのオリジナリティ
2つ別のものに捉えがちだけど、結局はちゃんとIPを守る活動をしていくと、
ある程度生成的な学習でコンテンツパクられても、
ファーストチョイスにはなっていくよねということなのか。
そうそうそうそう。
結局二番戦士だよねって思われたら。
特にエンタメとかだとそうだよねって感じか。
普通の実績的なウェブサービスとかだとまたそうも言えないのか。
実績的なサービスってそうじゃない?
例えば、いかにさ、
広告運用で、
SEO的に上だったり、
記事コンテンツが豊かでも、
お願いするのはアナグラムさんにお願いしたいなとかになるというか。
うーん、まあまあね。
でもそれも実績を求めてそう言っているところはあるけどね。
実績を求めてそう言っているところはある。
パフォーマンスとかが実際すごいからそう選ぼうとしているだけであって、
エンタメほどより定性的でふわっとした意思決定にはどうしてもならない。
ああそうだね。
パルワルドだってたぶんやったら面白いわけじゃん、きっと。
だからだけ売れてるんだと思うんだけど。
それでも拒絶反応があるっていうのはそういうブランドによるところだけど、
ビジネスだとそうはいかない部分もあるよね。
だってスラックをTeamsが抜いたんだもん。
Teamsクソってみんな言うけどさ、
結局世界で一番使われる系のサービスになっちゃったじゃん。
あれは測定指標が正しいのかという気もするっちゃするけどね。
まあまあ。
なんかよくあるじゃん、世の中で一番優れているサービスが一番にはならない。
まあそうだね、売上とか数とかでそうかもね、確かに。
どうしたらいいんですかね、これまで人間、人類。
やっぱ畑耕してるのが一番なのかな。
絵を描き、畑を耕し、BotYastを収録しているのが。
絵を描いちゃダメだよ、絵描いたら全部食われるから。
畑を耕すのも、テスラが作ったイロマスクのロボットたちが畑に押し寄せてきて、進撃の巨人みたいに。
お前の仕事ねえよって言って横取りされて畑耕されて。
人間の人型のロボットでやる必要ないか。
ちゃんと効率化されてたね。
業務繋ぎ化されたね、フォルムの。
数百万のロボットでやる必要はなかった。
あれとかマジ足もだよな。
足もどころじゃないよな。
足もすごかったよなって思った。
本当に本田が20年前にやってたことそのままだなって思ったというか。
どうして今テスラがそれを今更やって褒められてるんだ。
この2周年間我が国どうなってたっけみたいな感じになっちゃう。
このアウトプットサムアルト。
1個言えるのは今できるのは対象両方しかないと言えばないので。
それが10年前くらいだったキュレーションメディアの話とかなり近いというか。
コンテンツに関してはあれも法律的には大丈夫だけどみたいな。
大丈夫じゃないやつが全然あったんだけど。
グレーをついてコンテンツの引用というのをひけらかしてやってたような。
あれだけど俺も当時メディア側にいたから何も言えないところはあるんだが。
結局あれをどうにかできたかっていうのは制度的な動きとか
そういう法の力によってみたいな部分が大いにあったから。
短期的にはスクレーピングのブロックとかそれを部分的にやるなり何なりで対策をしながら
最終的にはそれをパクって実利を得る事業者が潰される法律が、仕組みができるべきで。
できていくのを待つのと、そこまでをビジネスで大切なのは祈りですみたいになっちゃうからさ。
代わりに祈る時間が増えたっていう。
コンテンツを作る時間をやめ、代わりに祈る時間が増えた。
制度できてくださいってやっててもアンコントローラブルなんで。
ヨーロッパの方に1日2回礼をするみたいなのじゃなくたぶんビジネスの表と。
100回感謝の請求。
ハンターハンターの話しすぎる。
目新しいアウトプットが出たわけではないですが、
現状我々がたどり着ける情報ソースだとこういう会話になるって感じですかね。
そうですね。
俺はもう1日に10回ぐらいディープリサーチのお世話になってる日もあるぐらいめちゃくちゃ使ってるので、
できる限りクリエイターリスペクトは忘れないようにしながら、
ディープリサーチとかはそれによって俺がブログメディア作って収益を得ますみたいなことをしたら超悪だけど、
ディープリサーチは俺がたぶん4時間かけてGoogle検索する作業を一瞬でやってくれるっていうだけの圧縮作業でもあるから、
基本参照にも富んでみるしね。
だからトラフィックも減らさないように。
結構いいアウトプット出そうな気がしてきて今。
ここに来て。
これはうちの大学とかでいろんな大学が入れてると思うんだけど、
Turnitinっていうサービスがあるんですよ。
Turnitin。
これ何かっていうと、生成AIで書いた論文提出すると、これは生成AI率何パーですっていう風なのが出てくるツールがあるので、
それのパーセンテージが一定以上を超えると、これはあなたのアウトプットではないですっていう風に弾かれるっていうツールがあるんだけど、
アカデミックインテグリティを遵守。
こういうのがプラグインで各種ウェブサイトが必須になるとかさ。
なるほどね。
コンテンツ提供者がそれをディテクトする方法。
これ使うと顕著にゼロベースで書いたやつと引用として引っ張ってきたのとで、すごい顕著率高いんですよ。
アカデミックだったらすごい想像つくんだけど、一般的なコンテンツにおけるオリジナルの定義ってなんだろうねっていうのをすごい思っちゃう。
せいせいAIが一番最適として出してくれる文章表現みたいな。
せいせいAIっぽい書き方とかあるじゃんか。
ああいうのの類似率とかをすごく見てる。
なるほど。じゃあAIが書いたかどうかを重視してるって感じなんだ。
多分どっちも重視してるんだと思う。
情報がオリジナルであれば別にAIが書いてもいいよなとか思っちゃうしさ。
例えばこのポッドキャストで今日話した内容が記事になります。
それが手で書いてもAIが書いても結局、俺らは結局情報を引用してるからわけわかんないけど、
自分らが仮に一時データだとして、それを喋ってそれを音声にしてAIに書かせるも別にオリジナルコンテンツだと思うし、
あと今回みたいに俺らが調べてAIとかで引用したものを元に喋ったとしても、
これ別に何か盗作をしているつもりはないんだけど、今回のこのポッドキャストに関して。
だからその域地ってどこにあるやろうなっていう。
そのポッドキャストを公開して、さらにそれをAIでっていうこの多重構造にもなるわけじゃん。
AIによるオリジナル特定の難しさ
AIがまたその記事を参照しててこの濁りに濁った状態でどこがオリジナルになるんだろうねって。
編集なのか模倣なのかって問題なのかもね。
元のものに対して編集を加えたものをアウトプットするという作業だけをAIに代替させてるんだったら確かにそうだよなって思うけど。
文学の論文とかだとオリジナルが特定されてるじゃない。
もはやその人類の普段の努力によって、論文とか参照元とかがしっかりしてるし。
それは分かりやすいんだけどね。
一般的なwebコンテンツだと。
どこの世代をオリジナルとするんですかって。
そしたらもう1990年代に書かれた文章以外オリジナルと読めなくないですかみたいなのが究極的には出てきてしまったりする。
オリジナルを特定しているというか、本当に模倣を特定しているのかもしれない。
コピペみたいなのを。
フリーライドを。
そう。
パラフレージングは特定できないんだよ、このターニットインってやつ。
なるほど。
本屋は月が綺麗ですね。
月が綺麗な本屋ですって言ったら分かんないみたいなこと。
今のパラフレージじゃないかでも、そのような。
明らかに他のものから引っ張ってきてるだろ、コピペだろっていうのと、
生成AIのパターン一致してるよねっていう2つを分かってくれる。
生成AIを利用したほぼコピペですよねみたいなところだけが分かる。
文章は自然に書かせようとしてるけれども、内容抽象的には一緒やんとか、段落の順序とかも全部見てるだろ。
3000文字とかの英語のレポート書くわけですよ。
さすがに生成AIと文章構造を被ってるだけで特定されたら90%ぐらいの無法率になっちゃう気がするけど、
実際1%ぐらいで出てくるのね。
ここの一部だけは、あんた投票してるっしょとかみたいなのを見ると、
ちゃんと引用としてコピペしたもの。
誰々の発言みたいなの取ってきたのとかだけディテクトしたり、
たまに英語の表現むずいから日本語書いて、これ英語にしてってやったのペダとか貼るとたまにディテクトされる。
アカデミックインテフに厳しいね。
それもダメなんや、そっか。
まあそうなるか、AIで英語を書かせたら。
それと似たようなことがちゃんとビジネスコンテンツでもプラグインで入れられて、
それを制作者側がプラグインで入れて、
これ俺のコンテンツのパクリじゃねってなった時に何かしらの法的措置を取れる。
みたいなものとかが制度が完璧になる前にあるといいのかな。
パクリの防止ですね。
コンテンツ保護の制度化
なんかツイッターでパクってる文章あるとみんなスクショ撮ってさ、
公開日が古い方がオリジナルみたいな、こいつはパクリだっていうのを断定する警察が現れるけどさ。
あれは過剰な。
あれは人類の無駄な作業によって行われてるけど。
過剰な魔女狩りというか。
あれのシステム化が必要ない。
怒りたい人が怒りなくて怒ってる感じがしますよね。
でも確かにあのエネルギーをこういうパクリコンテンツ防止、広いwebのツイッターで
ツイッターでぶち消えてる人たちにみんなこの仕事紹介して、
これのオリジナルを特定してくれや。
あの人たちの脳に払って。
羊だか牛だかを野生に払って草むしりの代わりに草食ってもらうみたいな、
そういう考え方に近い。
そうだね。
面白い。
誰もがハッピーにしてもらうストレスを。
草むしりしてもらえばいいや。
発散した人たちが発散して。
AIの模倣コンテンツを全て草むしりしていただいて。
ぶち切れ、存分にぶち切れていただいて。
というクラウドワークス的なプラットフォームを。
作りません。
マネジメントがきつすぎるって言ってました。
そこもちょっとAIのマネジメント。
そんな感じかな。
クリアだ結論はないけど。
草むしりさせればええんちゃうかって。
結論は草むしりを。
定期的には身を守るようなものはやりつつ。
定期的には精度が満たされた状態で、
メリット側も享受しにいかなきゃいけないですよね。
で、せいせいを存分に使う我々は、
その辺にちょっとリスペクトを持ちながら、
引き続き正しく使うようにしていきたいですね。
今日はそんな感じですか。
はい、真面目な話。
でした。
ありがとうございました。
ありがとうございます。
テクノトレックではお便りをお待ちしています。
コメントなどぜひ概要欄のフォームウェアを送ってください。
それではまた次回お会いしましょう。