【くろーらー】

クローラー(Webクローラー) とは?

💡 ウェブの海を泳ぎ回る「情報収集ロボット」
📌 このページのポイント
Webクローラーの動作 クローラー (Bot) ページ A リンク→B ページ B リンク→C ページ C インデックス(DB) URL・タイトル・コンテンツ メタデータを保存 検索エンジン 検索結果に反映 リンクをたどってページを自動収集しインデックス化
クローラーのイメージ
ひよこ ひよこ

クローラーって何?

ペンギン先生 ペンギン先生

ウェブサイトを自動的に巡回して情報を集めるプログラムだよ。検索エンジンGoogleは「Googlebot」というクローラーを使って世界中のウェブページを巡回し、内容を記録しているんだ。その記録をもとに検索結果を表示しているよ。

ひよこ ひよこ

どうやって巡回してるの?

ペンギン先生 ペンギン先生

あるページのリンクをたどって次のページへ、そこのリンクからまた次のページへ…と芋づる式に巡回するんだ。集めた情報は「インデックス」という巨大なデータベースに保存されて、ユーザーが検索したときに使われるよ。

ひよこ ひよこ

自分のサイトにクローラーが来てほしくないときは?

ペンギン先生 ペンギン先生

robots.txtというファイルをサイトのルートに置くと、クローラーに「このページは見ないでね」と伝えられるよ。ただしこれはお願いベースで、行儀の良いクローラーは従ってくれるけど、強制力はないんだ。

ひよこ ひよこ

クローラーって検索エンジン以外にもあるの?

ペンギン先生 ペンギン先生

たくさんあるよ。SEOツールのクローラー、セキュリティスキャナー、価格比較サイトのクローラー、AI学習データ収集のクローラーなど種類は多い。そして実はここが厄介で、ウェブサーバーへのアクセスの半分以上がボット(クローラーを含む)だと言われているんだ。悪意あるクローラーがサイトの脆弱性を探したり、コンテンツを丸パクリしたり、サーバーに負荷をかけたりすることもある。robots.txtは善意のクローラーにしか効かないから、本当にアクセスを防ぎたい場合はサーバー側でIPブロックやレート制限をかける必要があるんだよ。

ペンギン
まとめ:ざっくりこれだけ覚えればOK!
「クローラー」って出てきたら「ウェブサイトを自動巡回して情報を集めるプログラムのことだな」と思えればだいたいOK!
📖 おまけ:英語の意味
「Crawler」 = 這い回るもの
💬 Crawlは「這って進む」。リンクをたどってウェブを這うように巡回するからこの名前だよ。スパイダー(蜘蛛)とも呼ばれる
← 用語集にもどる