【うぇぶすくれいぴんぐ】

Webスクレイピング とは?

💡 ウェブサイトからデータを自動で「かき集める」技術
📌 このページのポイント
Webスクレイピングの流れ Webサイト スクレイパー HTMLを解析 必要なデータを 抽出・整形 構造化データ CSV / JSON / データベース 分析に活用 注意点 ・利用規約やrobots.txtの確認が必要 ・過度なアクセスはサーバーに負荷をかける
Webスクレイピングのイメージ
ひよこ ひよこ

Webスクレイピングって何?

ペンギン先生 ペンギン先生

プログラムを使ってウェブサイトのデータを自動的に集める技術だよ。たとえば複数のECサイトから商品の価格を集めて比較したり、ニュースサイトから最新記事を自動取得したりするのに使われるんだ。

ひよこ ひよこ

どうやってやるの?

ペンギン先生 ペンギン先生

基本的にはHTTPリクエストでウェブページのHTMLを取得して、その中から必要なデータを抽出するんだ。Pythonが一番よく使われていて、Beautiful SoupやScrapyというライブラリが定番だよ。JavaScriptで動的に生成されるページにはSeleniumPlaywrightを使うこともあるね。

ひよこ ひよこ

おもしろい!クローラーと何が違うの?

ペンギン先生 ペンギン先生

クローラーはウェブページを巡回して情報を収集するプログラム全般のこと。スクレイピングはページの中身からデータを抽出する部分に焦点を当てた言葉だよ。クローラーで巡回してスクレイピングでデータを取る、みたいにセットで使われることが多いね。

ひよこ ひよこ

スクレイピングって自由にやっていいの?

ペンギン先生 ペンギン先生

ここが一番重要で注意が必要なところだよ。まず相手サイトのrobots.txtと利用規約を確認すること。スクレイピングを禁止しているサイトも多い。日本では2019年の著作権法改正で「情報解析目的」なら著作物の複製が認められるようになったけど、サーバーに過負荷をかけると業務妨害になりうる。アメリカではLinkedInがスクレイピング業者を訴えた裁判で「公開データのスクレイピングは合法」という判決が出たけど、別の裁判では違う判断もある。法的にグレーな領域が多いから、APIが提供されているならAPIを使う方がはるかに安全だよ。

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
「Webスクレイピング」って出てきたら「プログラムでウェブサイトからデータを自動収集する技術のことだな」と思えればだいたいOK!
📖 おまけ:英語の意味
「Web Scraping」 = ウェブからかき集める
💬 Scrapeは「こすり取る・かき集める」。ウェブページからデータをこすり取るように集めるイメージだよ
← 用語集にもどる