【攻城団合同会社：河野武～前編】AIボット襲来！サイトの3倍のアクセスは人間じゃない！？／バイブコーディング時代のサイト防衛術／AIスクレイピング急増の裏側と対策ノウハウ／森野誠之の毎日堂

オープニング - 攻城団12周年とWeb広告時代の終わり

森野誠之の毎日堂・マーケティングラジオ。

はい、今回はですね、AI関連といいますか、アクセス解析のジャンルをテーマに、攻城団合同会社の河野さんとお話をしていきます。河野さんよろしくお願いします。

はい、よろしくお願いします。

攻城団さんといえば、先日4月から12周年ということで、一回一回りしましておめでとうございます。

はい、ありがとうございます。ちょうど、これはあれか、ポッドキャストだから、YouTubeに上がるときは見えるのかな。

そうですね。

はい、12周年の。

ロゴをつけて、はい。ありがとう。12周年って意外と長かったより早かったような感じですかね。

長かったですね。長かったし。

長かったんですか。

長かったんだけど、よく言われる話だけど、振り返ってみるとあっという間というか、毎日毎日、毎年毎年、その場で目の前のことをやってたら12周年経ったっていうことなんだけど。

振り返るとものすごいいろんなことやってきたなっていうことになるので、長かったですよね。

コロナもありましたからね、途中。

そうそうそう、コロナもあったし、本当にお金がなくて僕がバイトに出る時期もあったりとか、本当にもう、うよ曲折七年抜刀の中での12周年です。

メディアとかこういう運営って、PVがあったらどうなるだろうって言ってもそうじゃないですもんね、意外と。

最初の頃はそうだったんですよ。

それこそ始めて、5年6年とか、コロナ前ぐらいかな、までは多分、それこそいろいろ話題になったあいう、雑な記事をたくさん載せて、PGPを集めたら広告がいっぱい入ってみたいな。

そういうのが成り立ってた時代の頃は、とにかくページビューみたいな話だったんですけど、もうだんだんアドセンスの単価も下がるし、そもそも広告の枠自体が増えてるんで、必然単価は下がるっていうふうになっていくので、なかなか広告で食っていくっていうのは難しいんじゃないですかね。

事件発生 - アクセス3倍の正体はAIボットだった

そんな状況の中、戦慄2ですね、河野さんがXにポストされてまして、工場団で通常の3倍のアクセスがあって対応が大変だと。

これもあれですね、国土チリへのポストを受けてってやつだったんですけども、通常の3倍って今までだったらバズるとかなんかない限りなかったと思うんですけども、どんなアクセスが来たんですか、これ。

正確に言うと、アクセス数自体は、それこそページビューとかセッションとかっていう数字で言うと4倍以上。

4倍以上。

その3倍っていう数字は、そのうちの人間じゃないアクセスだったんです。つまりボットですよね。

たぶんこのラジオを聞いてくださっている方であれば、ボットっていう表現で伝わると思うんですけど、まさに検索エンジンのロボットだったり、最近だとAI企業のロボットだったり、

さらに増えてるのが、個人が開発した、AIとか使ってViveコーディングとかで開発したようなプログラムによるアクセスですね。

だから全部人間が見てない機械的なアクセスが、人間が1だとしたら、その3倍以上あったっていう感じです。

ボットって過去から変なボットはいっぱいあって、アクセスはいっぱいあったんですけども、それがAIが普及してもガツンと増えたという感じなんですね。

そうですね。おっしゃる通り、これまでもいろんな検索エンジン、有名なのはもちろんGoogleボットなんですけど、別にBingだってBingボット持ってるし、

基本的な検索エンジンっていうのは全部ボットを持ってるわけですよね。それが世界中のサイトをクロールして情報をため込んで検索結果を返すっていう基本的な仕組みがあるんですけど、

その巡回頻度、訪問頻度とかっていうのはそれほど高くはなかったし、ある程度はこちら側でリクエストが出せたんですね。

例えばBingとかだとWebmasterツール的なやつで、深夜早朝に来てくれみたいなリクエストが出せたりとか、あるいはロボットテキストとかをちゃんと従ってくれる場合であれば、ゆっくりクロールしてねっていう、

ある程度のスピード調整みたいなこともできたんですけど、もちろんこれも中国とかロシアとかのロボットはほとんど無視するので、全然言うこと聞いてくれないんですけど、ただこれまでの検索エンジンのロボットっていうのは、よくも悪くもちゃんと名乗ってたんですよ。

大平そうですね。もうユーザーエンジェントみたいなの書いてありましたもんね。

ユーザーエンジェント単位でブロックはしてきてたんですけど、今起きてるのはユーザーエンジェントの数ももちろんAI企業が名乗るやつが出てきたので増えてるんですけど、普通のユーザーエンジェントを名乗るんです。

おだしょー普通のブラウザーみたいな感じで。

大平そう、だからユーザーエンジェントだけでは、人間のブラウザーなのかどうかわかんない。もっと言うと、最近の流行りで言うと、ブラウザーを自動操作してくれるような

おだしょー AIエンジェントありますね。

プロードだったり、オープンAIのコーデックスだったりで、できるようになってきてますよね。クローム拡張とかによって。そうすると、もう完全に個人のパソコンを正当に乗っ取って操作をしているので、全く違いがわからない。

僕がブラウザーを使っているのと、そのAIが使っているのと、ブラウザーのユーザーエンジェントだけでは、全く判断がつかないっていう状況になってます。

時代背景 - バイブコーディングが変えたスクレイピングの常識

大平ログだけ見ても、人間かAIエンジェントか全然わからないと。

大平そうですね。ログ1行だけだと全くわからないっていうことで、それが先日あったので、AIを制するには、AIに頼ろうと思って。

これは別に僕が遭遇している問題ではなくて、世界中のサイト運営者が直面している課題だと思うんだけど、海外の人たちってどういうふうに対処してるのっていうことをAIに聞いて、いろいろ調べてきてもらったんですね。

この問題を解決するには2つのアプローチがあって、1つはそもそもそういうのをサーバー側で受け付けないっていうサイトとしてブロックしちゃうっていうことですね。

もう1つは、みんながGA4とかそういうのでやってるアクセス解析のところにも、これはノイズとして入ってくるので、ノイズとして紛れ込んでる人間以外のアクセスをどうフィルターするかっていう解除の部分ですね。

そもそもサーバー側でブロックできてれば、GA4には残らないのでいいんだけど、ただそれは絶対すり抜けてくるものがある。実際工場代の場合、その日のアクセスの75%以上が人間以外だったみたいな話になると、仮に10万ページビューでしたって発表しても、実際に人間が見てるのは25,000で、プログラムが75,000でなると、

これものすごい水増しで怒られちゃうような話ですね。本来であればね。

こういう嘘をつかないようにするために、2段階のアプローチを取らなきゃいけないので、それを海外の人はどうやってんのみたいなことを聞きながら、この1ヶ月ぐらいですかね、対処をしてきたっていう感じですね。

それってGoogle Analyticsだけ見てたら気づかないですよね、サーバーのほうをちゃんと見てないと。

そうですね。Google Analytics、GA4なんかは、これもAIに教えてもらったんだけど、いくつかのBotは勝手にフィルターしてくれてますよね。

Google Botとかにいろいろ。

ただ、それはさっき僕が言ったとおり、ちゃんと名乗ってる場合のBotであって、人間のブラウザと同じようなユーザー名と名乗ってる場合は、排除でフィルターできないので、そのままページビューとして上がってきちゃうから、結果としてみんな無自覚なまま水増しされたページビューを発表してるみたいなことが起きてます。

これって、他にもツイログさんとかパクタソさんも、サーバーの帯域の87%とかおっしゃってたんで、普通に起きてるってことなんですよね、これも。

そう、だから特徴的には、本当に瞬間的にものすごいアクセスが来るので、サーバー管理者であれば、やはりサーバーリソースが枯渇するので、それがWebサーバーが悲鳴を上げるだったり、そもそもサーバーそのもののCPUだったりメモリーだったりが悲鳴を上げるみたいなことで、

サーバーをちゃんと見てれば異常が起きてることは、おおよそ自覚はできるんですけど、アナリティクスとかだけ見てると、多分わからないと思うんですよ。

何も起きてないってなったかもしれないですね。

むしろアクセス増えて喜んじゃってると思います。

ですよね。でもこれって昔だと瞬間的に増えるってバズるか炎上するかどっちかぐらいでしたもんね、昔は。

そうですね。工場団の場合は災害にして、炎上で上がったことはないんですけど、例えばテレビとかね、ぶらたもりとかでお城訪問されたりすると、そのお城の検索が増えて工場団のアクセスも増えるみたいな、テレビとの因果関係とかは割とあったんですけど、

テレビの場合は多分30分とか1時間とか、本当に波がはっきりわかるんですよね。ただテレビの場合って、言っても結局検索経由なんですよ。URLが出るとか、QRコードが出るとかっていう場合は別ですけど、普通工場団みたいなサイズだったら必ず検索を踏んでから来るので、やっぱり時間差が生じるんですよね。

本当に同時にばっと何百とか千とかっていう単位では来ない。1時間とかの間に何千人とは来るんだけど、同時ではないんですね。ただこういうAI系のBotとかって本当にプログラムがやってるので、もうページをただひたすらダウンロードしていくことになるから、1秒で1ページずつ読んでいくみたいな感じになるので、

ページのアクセス数がものすごく増えるので、サーバーが悲鳴を上げるみたいな感じです。

なかなかとんでもないですよね、これね。そうおっしゃられると確かにね。これってでも1人の人がそういうことやっててきちゃうんですかね。複数がやってるとかってあるんですかね。1人でできちゃうのかな、それぐらいも。

両方のパターンがあると、1人がプログラムで平行処理をさせるプログラムを組む。例えば工場団の場合って、お城の数だけで4000以上あるので、その写真があったり、みんなの口コミがあったりとか、サイトの全体のページ数とかでいうと10万とかはあると思うんですよ。

その10万を1個のプログラムでダウンロードしようとすると時間がかかるから、多分みんな複数の10個とか20個とかのプログラムを平行で動かして、早くダウンロードさせようとするので、こっちの迷惑はお構いなしに、そういうふうに大量に動かすっていうことがまずあるのと、

やっぱり今は本当に、さっきお話ししたように、バイブコーディングがあまりにも流行っている。僕もやってるので、別にそういう事態が悪いことだとは思わないんだけど、

あと、Xとか見てても、このスキルを使ったらこのサイトを丸ごとコピーできるぜみたいなことを言ってるような人たちが、日本にも海外にも山ほどいてですね。

昔だったら、スクレーピングっていうのは倫理に則ってやれとか、マナーやモラルをとかっていう話があったんだけど、最近の人はそこまでちゃんとした倫理感を持ってないのか、もともとの訳、相手のサーバーの状況を考えずにアクセスをしてくるので、

そういう人がやっぱりすごい増えてます。何人かわかんないです。っていうのは、結局のところ、その人たちが動かしているサーバーの大半がGoogleのクラウドだったり、AWSだったりするので、結局アクセス元っていうのはGoogleだったりAmazonだったりするわけですよね。

仮に拡大インターネットとかだったら、日本人だろうなって想像はつくんですけど、GoogleとかAmazonからアクセスされていると、それが日本人なのかアメリカ人なのかブラジル人なのか全くわからないので、何人かまではちょっとわかんないですけど、複数の人が、かつ一人が並行処理をしてくるので、

止めても止めても新しい悪い奴がやってくるみたいなことがずっと続いてるって感じですね。

AIが出る前にはスクレーピングもちょっとスキルがいったので難しかったと思うんですけど、AIができてバイブコーディングができるとスクレーピングって知らなくてもできちゃいますし、やってることがサーバーに負荷かけてるって知らなくてもやっちゃってますよね、多分。

昔は萌実さんおっしゃる通り、技術がいったので、多分スクレーピングする人のほとんどの人はサーバー運用経験者だったと思うんですよ。

なので、実際スクレーピングのツールをプログラムを動かすのもサーバー側でやることが多かったですね。

そういう意味では、どれぐらいのペースで巡回すれば許されるかみたいな、お目こぼししてもらえるかみたいなことを考えながらやったんですけど、

今ってほとんどの人は自分のパソコンでそういうツールを動かしちゃうし、サーバーの運用経験もきっとないでしょうし、何だったらスクレーピングっていう言葉すら知らずに、ただ単純に欲しいページを取ってくるっていう。

で、それもAIにこのサイトを丸ごとダウンロードしてって言っちゃえば、AIが吉田にやってくれるわけでしょ。で、なんでそこに倫理観が入る余地がそもそもないんですかね。

そうですね。これがやってることがまずいんだってなくて、自分がもう便利なだけですよね。

そうそう。

無邪気にやってる感じになっちゃいますもんね。

たぶんその人は、毎工場団みたいな自分だけの工場団を作ろうと思って、でもデータを自分で一から作るのはめんどくさいから、既にサイトに公開されてる工場団から丸ごとコピーしようみたいな、そういう無邪気な発想なんだと思う。

なるほどね。それはほんとつい最近急に出てきて、で、皆さん困ってて、それは最近でもなんか、最近くらい予約、困ってる困ってるってあんま出てこないんですよね、表に。

これまで多分出てきてたのは、そのAIによって学習されることを、AIがその学習用のボットを巡回させることで、その金銭的なダメージを受ける出版社とか、そういうメディアはずっと文句を言ってたんですよね。

一部のメディアと一部のそのAI企業が金銭的な契約を結んだりしてみたいな話は、多分去年ぐらいからもニュースとしてあったと思うんですけど、多分ね、さっき例に出てきてた追力だったりファクタソだったり、国土地理なんかもそうですけれども、

ほぼほぼ多分、先月4月にみんな言い始めたと思うんですけど、東洋談も4月にいきなりドカンと来たので、多分なんかのパラダイムシフトが今起きてんだと思います。

なるほど。確かにもう、AIもだいぶ進化してて、ちょっと前までできなかったのが、クロードコードとかクロードでできますよってノウハウがどんどん広まっちゃってますもんね、今ね。

それこそMac miniが大量に買われたみたいな話とかもありましたけど、割とカジュアルにバイブコーディングっていうものが広まってきているので、それは別に僕は悪いことだと思ってないんだけど、

ただその先ですよね。結局、あなたがやってることっていうのはどれくらい罪深いことなんか自覚してますかみたいな話を誰にも教わることないまま。

ここは別にいろんなところでも言える話ですよね。BDRが問題になってるやつだって、結局写真を晒すことの弊害について誰も教育してこなかったから、高校生が内輪で写真を共有し合う分には何ら問題ないんだけど、社会人になってそれやったらまずいよねみたいなことを誰も教えてこなかったからそうなってるだけなんで。

いろんなところで今のテクノロジーと僕らのリアルな世界とのギャップを埋めるだけの教育ができてないんだと思う。

実践と展望 - 1ヶ月の試行錯誤と運営者のジレンマ

そうするともうちょっと運用者が声を上げてすごい困ってますよって言っていかないといけないですよね、最初はまず。

そうね。

届くかどうかわかんないですけど、その声がね。

そこなんですよ。

これはもうこの件に限らずなんですけど、聞いてほしい人には届かないですよ。

大にしてそうですよね、世の中のことって。

やめてくださいって言ったところで、やってるやつには届かないっていう、この究極のジレンマがずっとあって。

たぶん僕の回答は、もちろんそうやって声を上げていくのが大事だと思うんですよ。

なのでこういうのに僕も引き受けたし、少なからず何かしらの発信はできたらなとは思ってるんだけど、

たぶん実行性はほとんどない。

速攻性はゼロ。

なので、たぶん速攻性を求めるのであれば、今回僕がこの1ヶ月でやったみたいに、いかに早くブロックしていくかみたいな、

そのブロックノウハウをサーバー管理者、サイト運営者っていうのが学んでいかなきゃいけなくて、

ただこれも難しくて、今回僕1ヶ月経って、かなりいい状況まで持ってこれたんですね。

1ヶ月前とか、それこそゴールデンウィークぐらいまでっていうのは、1日のうちに何回かはサーバーの状況的にはよろしくない、

要するにアラートが上がる状態になってたんですけれども、ここ5日間ゼロなんですよ、それが。

アラートなしで安定してるんですか。

ゴールデンウィークの後半ぐらいからかなり収まってきていて、今はもう毎日、要するに3月以前の状態に戻ってるっていうことにできたんですね。

ただ、この1ヶ月の間に僕がやってきたチューニングのノウハウっていうのを、多いすると出せないんですよ。

解除をすると、それって穴を探すヒントになってしまうので、僕が一生懸命こういう風なロジックで対策を取ってますっていうと、

それを1分間に10回アクセスがあったら、こいつは悪いやつだって特定してますみたいなことを言うと、

9回だったらOKなんだなみたいなことをヒントを与えてしまうので、僕の持ってるノウハウは細かいところまで解除できないんですね。

この辺がすごい悩ましいとこだなと今感じてると思う。

どっちかというと攻撃対策ですね、サーバー管理者としたら。

そうです。さっきお話しした2段階で言うと、1段階目のサーバー側でも遮断してしまう、ブロックしてしまうっていうのがまず第一の対策ですね。

それでもすり抜けた場合にGA法でどうフィルターするかっていうのが次の話ですけど、まずは多分サーバーで対処してしまえば他の人に迷惑がかからない。

一番害が少ないので、それが多分一番いいと思います。

サーバーで対処できたらってどれくらいの割合とかってお話できますか?

一番ひどい時っていうのがさっき言った75%とか、あれ実際は80%ぐらいあったんですけど、全体の80%ぐらいがBotによるアクセスだったんですね。

その後も3割とか4割とかっていう日が結構続いていて、半分弱ぐらいが人間以外っていうことですね。

今じゃあどこまで下がったかっていうと10%ぐらいまで下がったんですよ。

その10%の中にはこっちがあえて許容してるGoogle BotとかBing Botとか、あえてBotってもう分かってるけど、どうぞお入りくださいっていうふうにサーバー側で通してるのも含んだ10%なので、

おそらく10が限界値なのか、5ぐらいまで落とせるのかちょっとまだわかんないですけど、結構いいところまで排除はできてると思うんですね。

そういう意味では、たぶん工場団の今の状況だと5から10ぐらいがおそらく限界値で、それに限りなく近づいてきてるっていうのが今の状況ですね。

今のところ落ち着いてるけど、ひょっとしたら数ヶ月後とか来月とかわかんなくなっちゃうかもしれない、急にまた変なのが来て。

今も来てるんです。工場団が今やってるシステムっていうのは、結局今後も悪いやつは絶対来るっていう想定で組んでるので。

例えば、これまで僕がやってたのは、まさに.htaccessとかにこのUAが来たらブロックするみたいなブラックリストをずっと手動でメンテナンスをしてきてたわけですよね。

それを自動化したっていう感じですね。

アクセスログを読んで、悪いやつを特定して、その悪いやつをブラックリストに自動追加していくっていうのをシステム化しているので。

今も毎日のように来てるんだけど、そのシステムがどんどんブラックリストに追加してくれてるので、壊滅的な被害になってないっていう。

それもまた、それは一番いいのかな。とりあえずは来ないとわからないですもんね。

現時点では多分それぐらいしか回違がないという。もちろんこれも、ブラックリストが延々と被害化していって大変なことになるのは目に見えてるんだけど。

ただ、それまでにはまた次の対策ができるのか、ちょっとわかんないですけどね。今のところはそうやってます。

HTアクセスが被害化していくっていうね。また恐ろしい話ですね。

エンディング

次はPV周りの話いきたいんですけど、ちょっと前半はここまでという感じで一回切ってですね。

サイト運用者としてPVとかどうするんですかって話ですね。Google Analyticsのアクセスとか。その辺をちょっと後半に聞いていきたいと思います。

はい。ということですね。今回もお聞きいただきありがとうございました。

ありがとうございます。

今回の話、楽しくお聞きいただけたらフォローやチャンネル登録、高評価、コメントなどで応援していただけると嬉しいです。

またですね、自分困ろうとか、こんなところで困ってるとかありましたら、概要欄にあるフォームなどからご連絡ください。

Xの場合はハッシュタグ毎日動画マーケティングラジオをつけていただければOKです。

はい。河野さん、今回ありがとうございました。

ありがとうございます。

Duration:	27:04
File Size:	25,983,892 bytes

Video Resolution:	1920x1080
Frame Rate:	29.97 fps
Video Codec:	H264
Video Bit Rate:	3,024 kbps

Audio Codec:	MP3
Audio Channels:	2 (stereo)
Sample Rate:	48,000 Hz
Audio Bit Rate:	128 kbps

Integrated Loudness:	-15.02 LUFS
True Peak:	-1.00 dB
Loudness Range:	2.20 LU
Integrated Loudness (original):	-12.59 LUFS
True Peak (original):	0.91 dB
Loudness Range (original):	2.20 LU

File Information

総スター数

エピソードをシェアする

Instagram シェア画像

埋め込みプレイヤーのカスタマイズ

プレビュー

カラーテーマ

メッセージを送信

感想

サマリー

目次

総スター数

コメント

感想を書く

こちらもおすすめ