調べてみたらこういう研究あったみたいな。
そうなのね。
じゃあその研究自体は海外でやってる研究ってこと?
そうそうそうそう。
これね結構面白くて
ちょっと時間軸で言うと若干もう古めっちゃ古めなんだけど
結構掴むのには面白いなって思ってて
そのチャットGPTの3.5出たぐらいの時に
バーって出てる文章たちを研究対象にしてるっていう感じなのね。
で、期間が研究の期間が2022年の頭から
2023年の5月とかまで。
で、チャットGPTのリリースがあったのが
22年の11月?
もうそんな前なんだね。
そうか。そんな前。
でもなんかあれ?
2年くらい前か。
そうね。この番組始まった時は一応もうあったよね。
あれ?違うっけ?
いや、そうです。23年の4月からやってるから
22年の10月、11月にチャットGPTリリースしてるから
うちらの方が後ですね。
そのぐらいの時にバーって出てきて
じゃあそっからメディアの中でどれだけAI活用が使われてるか
みたいなのの研究が行われたわけよ。
結構大規模にやってて
サイトの数はニュースウェブサイト3074個のニュースウェブサイト。
で、その中で展開されている1500万件の記事を分類するっていう感じ。
かなりボリュームがあるね。
そうそうそう。で、このニュースウェブサイトの中にも
ワシントンポストとかニューヨークタイムズとか
そういう主流メディアのものと語報サイト
もうなんかフェイクニュースとかがめっちゃ含まれてるっていうのが
ラベリングされてるリストみたいなのがあるんだよ。
それで分類を3000サイトを分類するの。
で、どっちでどのぐらい使われてるかみたいなのを比較する研究なんだよ。
なるほど。
そうすると結論言うと語報サイトの方がめっちゃAI使うっていう。
ありそうだね。めっちゃありそうだね。
語報サイトの方がめっちゃAI使うし
あとは人気のないウェブサイトほど合成記事使うんだよ。
なるほど。どっちなんだろうね。
にわとりたまご的に人気がないからなのか
AIで作った適当な文章だから人気がないのかっていうのもあるけど
なんか正直この差はなんだろうな
フィロソフィーみたいなもんだと思ってて
メディアのカラーみたいなのがあって
多分主流のめっちゃ有名なメディアって
社内のレビュー体制とかもめっちゃ綺麗に整ってたりもするだろうから
ちゃんとワシントンポストっぽい形にするとか
っていうのが決まってるからこそ
AIで書いた雑な記事っていうのが上がってこないっていう話もあると思うね。
そうだよね。その道何十年とかの記者が
書いてるものを一気にAIに置き換えるっていうのも簡単な話じゃないと思うし
その人のプライドもあるだろうし
っていうのがあるからマッサーが生まれてんじゃないかなっていう気はするんだけど
けどやっぱまず大きくフェイクニュースとか含まれてる
誤報サイトと主流メディアっていうところで
誤報サイトの方が生成記事めちゃめちゃ多いよねっていう話
があってなおかつその中でもランキングが低いようなウェブサイトの方が
さらにそういう記事を作りやすいっていうダブルパンチ
すでにあるってことなんですね。
そこにまず驚きですね。AIを使って記事を書いて
しかもニュース記事も入ってるって話だから
それがこれはAIで書いてますっていうのが特になく
それの中にあるってことに驚きです。
これでも結構面白くてアプローチが
AIとかがめっちゃ流行る前って自然言語処理とかバートとか使ってたじゃん。
バートってGoogleだよね?
バートはGoogleのモデルなのか?
確かにそうなった気がする。
そのバートをベースにしたトランスフォーマーを組み込んだ機械学習モデルの
Dバータっていうのがバートの拡張モデルみたいな。
あるねバートはいっぱい拡張モデルあるよね。
各分野ジャンルに適応させてるバートでなんちゃらバートとか
バートの前後に頭文字みたいなのつけたり
その派生系がいっぱいあるっぽくて
それに生成AIの記事を検出するモデルを組み込んでいく。
だから生成AIで作った文章とそうじゃない文章を自分たちで用意して
このバートのDバータモデルにバーって読み込ませると
AIの癖みたいなのをこのDバータが検知できるようになってくる
っていうモデルを作って
でそれを世の中にあるいろんなメディアに対して
ビターンって当ててあげるっていう風にやって
さっきの数値観みたいなのが出てくるんだよね。
そういうことか。
合ってるもの合ってないものもあるとか
外しちゃってるものもあったりするだろうけど。
Dバータの一応精度は
Dバータの精度がでも結構ちゃんと保証はされていて
9割以上、9割段部とかの精度ではあったはず。
なるほどね。
ちゃんと検証データとかに当てて
どれくらい反過性のあるかみたいなのをチェックした上で
実際の分類にかけてるから
そこの精度は担保されてるよっていう結果ですね。
そうね。1%の擬応成立。
で、平均的な精度だと99.2%
ほぼ分類できるんだ。
3.5とかまでだけどね。
だからAIがめちゃめちゃ便利だよねってなっても
なんだろうな
それが使われまくって
むしろAIが作った記事に騙されるっていうパターンの方が
多い可能性があるってことだよね。
誤報サイトでもめっちゃ使われるし
人気のないところから記事を増産するために
使うとかってなると
信用のならんAI生成の記事っていうのが
出やすくなって
より世の中の情報精度が下がり
っていうのが3.5の時代でそうなってたから
今はもう気づかないぐらいの状態で
俺らの周りの情報ってそっちにたぶん浸食されてんだよね。
なるほどね。確かにそうか。
たぶん今の4OOとかO1とかのモデルが
作る記事の方がより人間が書く記事っぽくなってきてるわけだし
そうね。
人間からした見分けつかない状態で
かつ量産ができる状態に今
もっともっとなってきてるわけだから
そう。
大変ですねこれは。
そうだからなんかちょっと古いから
信用はなんか違うねっていう捉え方よりも
むしろ当時
表層的にこうなんかちゃんとわかる状態ですらその傾向だったわけだから
たぶん今はもっと恐ろしいことになってるんだろうなっていう
でなんかこうさ
いつだっけこうフェイクニュースの話とかしたじゃん
フェイクニュースの話
フェイクニュースってめっちゃ広がりやすいんだよみたいな
SNSとかでかな
そうそうそう
いつだっけな
大統領選とかと絡めてフェイクニュースが
民衆の声になっていて
そうねそうね
エピソード84だわ
あーそうだよねこの前の
一番こうネガティブな状態になってるのが今フェイスブックじゃん
そうなんだ
フェイスブックの中にホリエモンとかあそこらへんの名前使って
投資詐欺の広告をバンバン出しても
フェイスブック側が一切規制しないっていうので
本人たちにめちゃめちゃ詰められるみたいな状態になって
フェイスブックの広告ってカスじゃねみたいな
っていうところまでいって
対策しないことが一気にこうマイナスな方向に転がっていくようになってるから
そうだよね
だから各社取り組みをしなきゃいけないっていうのはある
なんか訴訟を起こすとか
フェイスブック相手に訴訟を起こすみたいな話にもなってきてますもんね
確かにね
早かったですねそういう意味だと
ヤフーの口コミで治安の悪さが著しいじゃないですか
確かに
大名詞みたいなもんだよね
日本だとそうだと思うんですけど
あそこも結構早々にちゃんと取り締まりするよとか
あそこに対しての規制って今結構かかってて
相当治安が良くなってきてるって聞きますけど
そうなの?
そうなの?ヤフーニュースって治安が悪いのが良いんじゃないの?
そういうわけじゃないの
ヤフーとしてのそこに対して何かしらのリスクを感じて
なんか措置を打つというか施策を打って
AI使ってるかどうかは別としても取り組みをしてる
そうなんだろうね
ニチャンとかやんなそうじゃんそういうのあんまり
それが売りだからね
でもヤフーニュースも言っちゃえばそれが売りみたいなとこもちょっとない?
売りではないのか
どうなんだろうヤフーがそれを自由にしてたけど
今それ自由にしてるの良くないよねっていう風潮に
ちゃんと気づいてサービスとしてのブランディングみたいなのしてるんじゃないですかね
大事な取り組みですよね会社としては
いや大事でしょ
あとやっぱたくさん情報が出まくると
やっぱ会社側のサーバー負担とかにもなるからさ
価値のないものがどんどん拡散されていくとか
価値のないニュースがどんどん
例えばXの中に乗ってくるとかってなると
なんか無駄なあれが増えるからさトランザクションが増えるからさ
そうだねデータをその分保持してなきゃいけないとか
そうそうそう
確かにね
っていうのもあるから規制するポジティブな面はあるんだよね
きっと企業側にも
そうだよねXとかなんてBotみたいなのがずっとポストし続けると
そのアカウントの情報ずっとストレージに保存しとかなきゃいけないっていう状態ってことですもんね
最悪やねそんな
だからイーロンマスクあれだもんねAPI遮断したんだもんね
凍結アカウントもどんどん削減してるしね
あんなんだってすごかったもん
いくらでもなんでもできんじゃんと思って
ツイート自動化とかのプログラム書いてたもん
あそうなんですね
2のキーワードでつぶやいてる人に自動いいねする
でちょっと時間ずらしてBotだとバレないようにするみたいな
プログラムを一時期ずっと動かしてたよ俺
Xのアカウント伸ばすノウハウみたいなので
やっぱこう自分のことに対して
とか自分の近い領域に対してつぶやいてるツイートに関しては
なるべくいいねとかを自分でしに行くとかコメントしに行って
交流を作って存在を知ってもらうとかっていうのが
いい手段ではないけど
クールな手段ではないけど
上等手段としては言われてたりはするから
それでじゃあそんなの手でやっててもなみたいな
思ったから一回ポチってクリックしたら
最新50件に対してバーンっていいねするっていうプログラム作ってた
全然効果なかったけど
それができたのがちょっと前まででしたもんね
今話してて思ったけどそれと
AIで記事作って量産するのって一緒だよね
やってることは一緒なんじゃないですかね
記事の数が多い方がいいし
っていうのでAIで自動的にバーって作ってるけど
結局いいねの質とか記事の質みたいなのが悪いから
返ってこないみたいな
実際に論文の中でも
その生成された記事が
レディットで
レディットってあるじゃんサイト
掲示板みたいなのというか
普通にツイッターみたいにいろんな情報出てるみたいな感じのやつに対して
の中でこれ生成AIで作られたわ
これ違うわみたいなの分けたやつだと
やっぱ生成AIが作ったものの方が
エンゲージメントが低いっていう傾向もあるらしいんだよね
傾向として出てくるんですね
リアルな人間がどうなのかっていうのが
結局無駄っていう話ではあるね
全部総合すると
ただの社会役みたいな
でも確かにいろんなニュースサイトに記事ってあるじゃないですか
ニュースフィックスとかでも
それ読んでるとやっぱり記事の質とかって
もう分かってくるし
これは結構このライターの主観が入っている情報だよなとか
これはいろんなところで言われてるのをまとめた記事だよなとか
その主観が入っててもやっぱその主観の観点が面白かったりすると
その記事としての読み進める楽しさだったりとかもあるし
離脱するのもあるしとか
それねめっちゃ言われるもん
連載とか書いてたり
本とか書いてたりすると
特に連載の担当の人は
自分の意見とか経験とか
この人にこう聞いたらこうだったみたいな
ちょっと温度感のあるものは絶対に入れてみたいな
そうなんだ
そうじゃないとAIが書いても一緒だし
逆に別に誰が書いても一緒の記事になっちゃうから
面白みがないんですよねみたいな
なるほど
だからネタ考えるときも実体験が含められるかどうかで
タイトルの引きがあるかと実体験含められるかで
線引きしてるね
なるほどね
ただ調べて書くじゃなくてってことですもんね
そう
宇宙ステーションのネタってなったら
自分たちで
俺ら宇宙ステーションの総長とかやってたから
運用やってたけど他にもいろんなチームがあってっていう
ちょっと中の人の話ができるとかはやっぱ大事
なるほどね
大事だよな
それって伝わるもんな
読んでくれてる人に
そうそう
あとやっぱ抑揚がなくなっちゃうからね
それがないと
それは間違いないわ
っていうのでね
でもなんかその漢字も
大腕とかだったら出せてるよなって思うしね
それはそうだよな
優秀なSSAがどんどん出てきてますよね
そういう意味だと
大腕は正直見抜けない気するもんね
面白くない人間が書いた記事って感じ
ワクワクするような記事を文字書いてくれるかで言うと
多分ファインチューンしないといけないんだよね
筆者のこの人になりきってみたいなところは多分あってもいいと思うんだけど
なんかありきたりな単純なプロンプトで勝負したものとかになると
ワクワクして全部読めるかどうかは
感覚半々
ちょっと5割超えてくるかなぐらい
あさりそれがAGIか否かのレベル1から5の5段階あるみたいな話の
レベル2とかなんじゃないのかなと思ってて
3とか4ってなると発明っていうレベルまで達するから
そうなると人間のこの欲望とか
経験はしてないんだけどAI自体は
経験したかのような口ぶりで喋れたりとか
盛ることを覚えたりとかできるようになってくると
より面白いとか
盛ってくるAIやだな
基本2倍3倍で盛ってくるとかね
ありそうですけどね
なるほどね
ってことはもう2025年結構
もう無理になってくんじゃない後半ぐらいになってきたら
でもそれで面白い記事書いてくれて
かつフェイクニュースじゃなかったら
自分は満足ですけどね
まあね
たぶんなんかもう
二次情報三次情報みたいなのに
価値がなくなってくるんじゃないの
論文とか取材記事とか
そういうのにはめちゃめちゃ需要があって
でそれに対してそいつらをクローリングして
AIがそれっぽくまとめて
喋ってくれるみたいな形になってくるから
キュレーションメディアとか多分
需要はかなり低くなってきちゃうし
そうだね
っていう感じなんじゃないの
でしかも多分AGIとか
なんなら優秀なAIエージェント
AGI一歩手前ぐらいの人って
自分の理解度が低い分野
例えばなんか