大平 ログだけ見ても、人間かAIエンジェントか全然わからないと。
大平 そうですね。ログ1行だけだと全くわからないっていうことで、それが先日あったので、AIを制するには、AIに頼ろうと思って。
これは別に僕が遭遇している問題ではなくて、世界中のサイト運営者が直面している課題だと思うんだけど、海外の人たちってどういうふうに対処してるのっていうことをAIに聞いて、いろいろ調べてきてもらったんですね。
この問題を解決するには2つのアプローチがあって、1つはそもそもそういうのをサーバー側で受け付けないっていうサイトとしてブロックしちゃうっていうことですね。
もう1つは、みんながGA4とかそういうのでやってるアクセス解析のところにも、これはノイズとして入ってくるので、ノイズとして紛れ込んでる人間以外のアクセスをどうフィルターするかっていう解除の部分ですね。
そもそもサーバー側でブロックできてれば、GA4には残らないのでいいんだけど、ただそれは絶対すり抜けてくるものがある。実際工場代の場合、その日のアクセスの75%以上が人間以外だったみたいな話になると、仮に10万ページビューでしたって発表しても、実際に人間が見てるのは25,000で、プログラムが75,000でなると、
これものすごい水増しで怒られちゃうような話ですね。本来であればね。
こういう嘘をつかないようにするために、2段階のアプローチを取らなきゃいけないので、それを海外の人はどうやってんのみたいなことを聞きながら、この1ヶ月ぐらいですかね、対処をしてきたっていう感じですね。
それってGoogle Analyticsだけ見てたら気づかないですよね、サーバーのほうをちゃんと見てないと。
そうですね。Google Analytics、GA4なんかは、これもAIに教えてもらったんだけど、いくつかのBotは勝手にフィルターしてくれてますよね。
Google Botとかにいろいろ。
ただ、それはさっき僕が言ったとおり、ちゃんと名乗ってる場合のBotであって、人間のブラウザと同じようなユーザー名と名乗ってる場合は、排除でフィルターできないので、そのままページビューとして上がってきちゃうから、結果としてみんな無自覚なまま水増しされたページビューを発表してるみたいなことが起きてます。
これって、他にもツイログさんとかパクタソさんも、サーバーの帯域の87%とかおっしゃってたんで、普通に起きてるってことなんですよね、これも。
そう、だから特徴的には、本当に瞬間的にものすごいアクセスが来るので、サーバー管理者であれば、やはりサーバーリソースが枯渇するので、それがWebサーバーが悲鳴を上げるだったり、そもそもサーバーそのもののCPUだったりメモリーだったりが悲鳴を上げるみたいなことで、
サーバーをちゃんと見てれば異常が起きてることは、おおよそ自覚はできるんですけど、アナリティクスとかだけ見てると、多分わからないと思うんですよ。
何も起きてないってなったかもしれないですね。
むしろアクセス増えて喜んじゃってると思います。
ですよね。でもこれって昔だと瞬間的に増えるってバズるか炎上するかどっちかぐらいでしたもんね、昔は。
そうですね。工場団の場合は災害にして、炎上で上がったことはないんですけど、例えばテレビとかね、ぶらたもりとかでお城訪問されたりすると、そのお城の検索が増えて工場団のアクセスも増えるみたいな、テレビとの因果関係とかは割とあったんですけど、
テレビの場合は多分30分とか1時間とか、本当に波がはっきりわかるんですよね。ただテレビの場合って、言っても結局検索経由なんですよ。URLが出るとか、QRコードが出るとかっていう場合は別ですけど、普通工場団みたいなサイズだったら必ず検索を踏んでから来るので、やっぱり時間差が生じるんですよね。
本当に同時にばっと何百とか千とかっていう単位では来ない。1時間とかの間に何千人とは来るんだけど、同時ではないんですね。ただこういうAI系のBotとかって本当にプログラムがやってるので、もうページをただひたすらダウンロードしていくことになるから、1秒で1ページずつ読んでいくみたいな感じになるので、
ページのアクセス数がものすごく増えるので、サーバーが悲鳴を上げるみたいな感じです。
なかなかとんでもないですよね、これね。そうおっしゃられると確かにね。これってでも1人の人がそういうことやっててきちゃうんですかね。複数がやってるとかってあるんですかね。1人でできちゃうのかな、それぐらいも。
両方のパターンがあると、1人がプログラムで平行処理をさせるプログラムを組む。例えば工場団の場合って、お城の数だけで4000以上あるので、その写真があったり、みんなの口コミがあったりとか、サイトの全体のページ数とかでいうと10万とかはあると思うんですよ。
その10万を1個のプログラムでダウンロードしようとすると時間がかかるから、多分みんな複数の10個とか20個とかのプログラムを平行で動かして、早くダウンロードさせようとするので、こっちの迷惑はお構いなしに、そういうふうに大量に動かすっていうことがまずあるのと、
やっぱり今は本当に、さっきお話ししたように、バイブコーディングがあまりにも流行っている。僕もやってるので、別にそういう事態が悪いことだとは思わないんだけど、
あと、Xとか見てても、このスキルを使ったらこのサイトを丸ごとコピーできるぜみたいなことを言ってるような人たちが、日本にも海外にも山ほどいてですね。
昔だったら、スクレーピングっていうのは倫理に則ってやれとか、マナーやモラルをとかっていう話があったんだけど、最近の人はそこまでちゃんとした倫理感を持ってないのか、もともとの訳、相手のサーバーの状況を考えずにアクセスをしてくるので、
そういう人がやっぱりすごい増えてます。何人かわかんないです。っていうのは、結局のところ、その人たちが動かしているサーバーの大半がGoogleのクラウドだったり、AWSだったりするので、結局アクセス元っていうのはGoogleだったりAmazonだったりするわけですよね。
仮に拡大インターネットとかだったら、日本人だろうなって想像はつくんですけど、GoogleとかAmazonからアクセスされていると、それが日本人なのかアメリカ人なのかブラジル人なのか全くわからないので、何人かまではちょっとわかんないですけど、複数の人が、かつ一人が並行処理をしてくるので、
止めても止めても新しい悪い奴がやってくるみたいなことがずっと続いてるって感じですね。
AIが出る前にはスクレーピングもちょっとスキルがいったので難しかったと思うんですけど、AIができてバイブコーディングができるとスクレーピングって知らなくてもできちゃいますし、やってることがサーバーに負荷かけてるって知らなくてもやっちゃってますよね、多分。
昔は萌実さんおっしゃる通り、技術がいったので、多分スクレーピングする人のほとんどの人はサーバー運用経験者だったと思うんですよ。
なので、実際スクレーピングのツールをプログラムを動かすのもサーバー側でやることが多かったですね。
そういう意味では、どれぐらいのペースで巡回すれば許されるかみたいな、お目こぼししてもらえるかみたいなことを考えながらやったんですけど、
今ってほとんどの人は自分のパソコンでそういうツールを動かしちゃうし、サーバーの運用経験もきっとないでしょうし、何だったらスクレーピングっていう言葉すら知らずに、ただ単純に欲しいページを取ってくるっていう。
で、それもAIにこのサイトを丸ごとダウンロードしてって言っちゃえば、AIが吉田にやってくれるわけでしょ。で、なんでそこに倫理観が入る余地がそもそもないんですかね。
そうですね。これがやってることがまずいんだってなくて、自分がもう便利なだけですよね。
そうそう。
無邪気にやってる感じになっちゃいますもんね。
たぶんその人は、毎工場団みたいな自分だけの工場団を作ろうと思って、でもデータを自分で一から作るのはめんどくさいから、既にサイトに公開されてる工場団から丸ごとコピーしようみたいな、そういう無邪気な発想なんだと思う。
なるほどね。それはほんとつい最近急に出てきて、で、皆さん困ってて、それは最近でもなんか、最近くらい予約、困ってる困ってるってあんま出てこないんですよね、表に。
これまで多分出てきてたのは、そのAIによって学習されることを、AIがその学習用のボットを巡回させることで、その金銭的なダメージを受ける出版社とか、そういうメディアはずっと文句を言ってたんですよね。
一部のメディアと一部のそのAI企業が金銭的な契約を結んだりしてみたいな話は、多分去年ぐらいからもニュースとしてあったと思うんですけど、多分ね、さっき例に出てきてた追力だったりファクタソだったり、国土地理なんかもそうですけれども、
ほぼほぼ多分、先月4月にみんな言い始めたと思うんですけど、東洋談も4月にいきなりドカンと来たので、多分なんかのパラダイムシフトが今起きてんだと思います。
なるほど。確かにもう、AIもだいぶ進化してて、ちょっと前までできなかったのが、クロードコードとかクロードでできますよってノウハウがどんどん広まっちゃってますもんね、今ね。
それこそMac miniが大量に買われたみたいな話とかもありましたけど、割とカジュアルにバイブコーディングっていうものが広まってきているので、それは別に僕は悪いことだと思ってないんだけど、
ただその先ですよね。結局、あなたがやってることっていうのはどれくらい罪深いことなんか自覚してますかみたいな話を誰にも教わることないまま。
ここは別にいろんなところでも言える話ですよね。BDRが問題になってるやつだって、結局写真を晒すことの弊害について誰も教育してこなかったから、高校生が内輪で写真を共有し合う分には何ら問題ないんだけど、社会人になってそれやったらまずいよねみたいなことを誰も教えてこなかったからそうなってるだけなんで。
いろんなところで今のテクノロジーと僕らのリアルな世界とのギャップを埋めるだけの教育ができてないんだと思う。
そうするともうちょっと運用者が声を上げてすごい困ってますよって言っていかないといけないですよね、最初はまず。
そうね。
届くかどうかわかんないですけど、その声がね。
そこなんですよ。
これはもうこの件に限らずなんですけど、聞いてほしい人には届かないですよ。
大にしてそうですよね、世の中のことって。
やめてくださいって言ったところで、やってるやつには届かないっていう、この究極のジレンマがずっとあって。
たぶん僕の回答は、もちろんそうやって声を上げていくのが大事だと思うんですよ。
なのでこういうのに僕も引き受けたし、少なからず何かしらの発信はできたらなとは思ってるんだけど、
たぶん実行性はほとんどない。
速攻性はゼロ。
なので、たぶん速攻性を求めるのであれば、今回僕がこの1ヶ月でやったみたいに、いかに早くブロックしていくかみたいな、
そのブロックノウハウをサーバー管理者、サイト運営者っていうのが学んでいかなきゃいけなくて、
ただこれも難しくて、今回僕1ヶ月経って、かなりいい状況まで持ってこれたんですね。
1ヶ月前とか、それこそゴールデンウィークぐらいまでっていうのは、1日のうちに何回かはサーバーの状況的にはよろしくない、
要するにアラートが上がる状態になってたんですけれども、ここ5日間ゼロなんですよ、それが。
アラートなしで安定してるんですか。
ゴールデンウィークの後半ぐらいからかなり収まってきていて、今はもう毎日、要するに3月以前の状態に戻ってるっていうことにできたんですね。
ただ、この1ヶ月の間に僕がやってきたチューニングのノウハウっていうのを、多いすると出せないんですよ。
解除をすると、それって穴を探すヒントになってしまうので、僕が一生懸命こういう風なロジックで対策を取ってますっていうと、
それを1分間に10回アクセスがあったら、こいつは悪いやつだって特定してますみたいなことを言うと、
9回だったらOKなんだなみたいなことをヒントを与えてしまうので、僕の持ってるノウハウは細かいところまで解除できないんですね。
この辺がすごい悩ましいとこだなと今感じてると思う。
どっちかというと攻撃対策ですね、サーバー管理者としたら。
そうです。さっきお話しした2段階で言うと、1段階目のサーバー側でも遮断してしまう、ブロックしてしまうっていうのがまず第一の対策ですね。
それでもすり抜けた場合にGA法でどうフィルターするかっていうのが次の話ですけど、まずは多分サーバーで対処してしまえば他の人に迷惑がかからない。
一番害が少ないので、それが多分一番いいと思います。
サーバーで対処できたらってどれくらいの割合とかってお話できますか?
一番ひどい時っていうのがさっき言った75%とか、あれ実際は80%ぐらいあったんですけど、全体の80%ぐらいがBotによるアクセスだったんですね。
その後も3割とか4割とかっていう日が結構続いていて、半分弱ぐらいが人間以外っていうことですね。
今じゃあどこまで下がったかっていうと10%ぐらいまで下がったんですよ。
その10%の中にはこっちがあえて許容してるGoogle BotとかBing Botとか、あえてBotってもう分かってるけど、どうぞお入りくださいっていうふうにサーバー側で通してるのも含んだ10%なので、
おそらく10が限界値なのか、5ぐらいまで落とせるのかちょっとまだわかんないですけど、結構いいところまで排除はできてると思うんですね。
そういう意味では、たぶん工場団の今の状況だと5から10ぐらいがおそらく限界値で、それに限りなく近づいてきてるっていうのが今の状況ですね。
今のところ落ち着いてるけど、ひょっとしたら数ヶ月後とか来月とかわかんなくなっちゃうかもしれない、急にまた変なのが来て。
今も来てるんです。工場団が今やってるシステムっていうのは、結局今後も悪いやつは絶対来るっていう想定で組んでるので。
例えば、これまで僕がやってたのは、まさに.htaccessとかにこのUAが来たらブロックするみたいなブラックリストをずっと手動でメンテナンスをしてきてたわけですよね。
それを自動化したっていう感じですね。
アクセスログを読んで、悪いやつを特定して、その悪いやつをブラックリストに自動追加していくっていうのをシステム化しているので。
今も毎日のように来てるんだけど、そのシステムがどんどんブラックリストに追加してくれてるので、壊滅的な被害になってないっていう。
それもまた、それは一番いいのかな。とりあえずは来ないとわからないですもんね。
現時点では多分それぐらいしか回違がないという。もちろんこれも、ブラックリストが延々と被害化していって大変なことになるのは目に見えてるんだけど。
ただ、それまでにはまた次の対策ができるのか、ちょっとわかんないですけどね。今のところはそうやってます。
HTアクセスが被害化していくっていうね。また恐ろしい話ですね。