00:01
ハチコの毎日ちょこっとAIらじお
おはようございます、ハチコです。
この番組では、仕事でもプライベートでも、気ままにAIを楽しんでいる私、ハチコが、
AIでできたことや、おすすめのAI活用法などをゆるーく語っています。
さて、6月13日、金曜日。おー、13日の金曜日だ。いかがお過ごしでしょうか。
スクレイピングの基本
今日はですね、スクレイピングは規約を守って最小限に、という話をしたいなと思います。
スクレイピングってご存知でしょうか。
最近ね、バイブコーディングをされている方は、どこかで目にしたことや耳にしたことがあるかもしれません。
スクレイピングというのはですね、ウェブサイトから主にプログラムを使って、
テキストデータだったり、画像データだったり、音声データだったり、そういったものを集めてくることです。
例えばですね、自分の住んでいる地域の天気予報を天気情報サイトからダウンロードしたりとか、
そのダウンロードしたデータを使って、自分のデスクトップに今日の天気が出る簡単なアプリを作るとかね、そういう活用が。
あとは、例えばウィキペディアとかに、プログラムで欲しい情報を取りに行く、
キーワードを渡したらプログラムがウィキペディアにアクセスして情報を持ってきて、
それを自分でね、例えばブログにするとか、そういうやつとか。
そのウィキペディアからデータを持ってくるところがスクレイピングね。そんな感じです。
とても便利ですし、きっとバイブコーディングが流行ってきて、いろんなことを自動化したいなという方の中にはですね、
このスクレイピングというのが結構大事な技術の一つになるのかなと思いますが、
これは結構気をつけて扱ってほしい処理かなと思います。
具体的には大きく分けて二つあります。
法律とサーバーへの影響
一つは法律とか利用規約に違反していないかということです。
それから二つ目はサーバーへの負荷です。
まず一つ目ね、法律とか規約に違反していないかというところなんですけど、
この辺は私も全然ど素人でして、ちゃんと勉強しなきゃなと思っているところです。
まとめちゃったんですけど、法律の方はですね、著作権とか不正アクセスですね。
勝手に誰かが自分の作品ですってウェブに公開しているものを勝手にコピーしていったら良くないですよね。
これ結構全然気にせずにやってしまいそうな気がして、
例えば好きなイラストレーターさんがウェブサイトに作品を公開していますと、
すっごい好きだから自分のパソコンにもダウンロードしておきたいな、よし一括ダウンロードだって言って
バイブコーディングでそのウェブサイトの画像を一気にダウンロードするプログラムを作ったら、
基本的にはNGかなと思います。
そのイラストを描いている方は、私の絵はもう好きにフリー素材として扱ってくださいという珍しい方であれば、
法律的な部分はクリアするんですけど、結構そういうのはレアケースかなと思います。
利用規約はウェブサイトに決まっているものですね。
有名なところだとAmazonです。
明確にロボットなどのデータ収集・抽出ツールの使用は認めていないと明記されているんですよね。
だから自分で、よし価格調査アプリ作っちゃうぞって言ってAmazonを入れてしまうとAmazonの規約に違反するので気をつけてください。
法律とか規約とか出てくると、急に私は難しいってこう停止しちゃうんですよね。
きっとプログラミングとかが苦手な方はプログラムの黒い画面に白い文字出てきたら、
私無理ってなるのこういう感じなんだろうなってすごい思う。
ああいう法律とかをお仕事で扱う方は本当にすごいですね。
もう急に瞼が閉じてきますから。
今私この話しててもなんか眠くなってくるくらい苦手なジャンルですけど、
そこはちゃんとクリアしないと自分がやりたいこととか、
もし誰かの仕組みを作ってあげるっていう時に知らないでそれをやっちゃって、
頼んでくれた人がそのツールを使ったことで違反しちゃったりしたらとても大問題なので、
そういうことがあるのだということをまず知っていただいて、
具体的にこのサイトの情報が欲しいなと思ったら、
そのサイトでちゃんとロボットというか自動でデータを取ってきていいのかどうなのか、
あの手この手で調べてください。
AIで調べれば結構わかるんですけど、
とはいえハルシネーションとかもあるので本当かどうかはやっぱり自分の目で見たり、
ジェーンスパークのファクトチェックとかは割といいと思いますが、
最後はやっぱり自分の目で見てやってみてください。
ということで、今日もここまで聞いてくださって本当にありがとうございます。
一緒にAIで毎日ちょこっと進化していきましょう。
それではまたねー。