クローラーとは?Googleに見つけてもらうための基礎知識

Googleが「あなたのサイトをどう評価するか」は、クローラーという存在なしには始まりません。いくら素晴らしいコンテンツを用意しても、クローラーに巡回してもらえなければ、Googleの検索結果にそもそも表示されないのです。

「クローラーって聞いたことはあるけど、正直よくわからない」「SEO対策をお願いしているけど、何をやっているのかピンとこない」——そう感じている方は多いと思います。このページでは、発注者として知っておきたいクローラーの基礎知識を、できるだけわかりやすくお伝えします。

クローラーとは

クローラーとは、検索エンジンが世界中のWebサイトを自動的に巡回して情報を収集するプログラムのことです。「ボット」「スパイダー」「ロボット」と呼ばれることもあります。

名前の由来は英語の「crawl(クロール)」、つまり「はい回る」という意味。インターネット上のページをまるで虫が這い回るように巡回することから、この名前がつきました。

Googleの場合、このクローラーは「Googlebot(グーグルボット)」と呼ばれています。Googlebotが日夜休まずWebサイトを巡回し、ページの内容を収集することで、はじめて検索結果に表示される仕組みが成り立っています。

あなたのサイトがGoogleに評価されるかどうかは、まずこのクローラーに「見てもらえるか」から始まります。

検索結果に表示されるまでの3ステップ

クローラーが巡回してから検索結果に表示されるまでには、大きく3つのステップがあります。この流れを理解しておくと、SEO対策の話が格段にわかりやすくなります。

ステップ1:クロール(巡回・収集)

Googlebotがあなたのサイトを訪れ、ページの内容を収集します。ページ上のテキスト・画像・リンク・メタデータなどを取得し、サイトの構造を把握します。

このとき、Googlebotはリンクを辿って移動します。トップページから各ページへのリンク、各ページからさらに別のページへのリンク——このリンクのつながりを伝って、サイト全体を巡回していくのです。

ステップ2:インデックス(登録・保存)

収集した情報をGoogleのデータベースに登録します。この状態を「インデックスされた」と言います。

インデックスされて初めて、そのページは検索結果に表示される候補になります。逆に言うと、インデックスされていないページはどれだけ良い内容でも検索結果には出てきません。

ステップ3:ランキング(順位決定)

インデックスされたページの中から、検索キーワードに対してどのページをどの順番で表示するかをGoogleが決定します。コンテンツの質・被リンク数・ページ速度・モバイル対応など、200以上の要素が評価に使われると言われています。

この3ステップのうち、クローラーが担うのは最初の「クロール」と「インデックス」の部分です。ここでつまずくと、そもそもランキングの土俵にも上がれません。

クローラーの種類

一口に「クローラー」と言っても、検索エンジンや目的によってさまざまな種類があります。

Googlebot(Google)

世界シェアNo.1の検索エンジンGoogleが使用するクローラーです。SEO対策で意識すべき最重要クローラーと言えます。

Googlebotには「スマートフォン用(Googlebot Smartphone)」と「PC用(Googlebot Desktop)」の2種類があります。現在はスマートフォン用クローラーを基準にインデックスが行われる「モバイルファーストインデックス」が採用されています。つまり、PCサイトよりもスマートフォン表示が優先的に評価されているということです。

Bingbot(Microsoft Bing)

Microsoft社の検索エンジン「Bing」が使用するクローラーです。日本国内ではGoogleほどシェアは高くありませんが、世界的には一定のユーザーを持つ検索エンジンです。

Yandex Bot・Baidu Spider

ロシアの検索エンジン「Yandex」や、中国の検索エンジン「百度(Baidu)」が使用するクローラーです。グローバル展開を考えているサイトでは意識する場面もあります。

AIクローラー

近年急増しているのが、AI学習目的のクローラーです。OpenAIの「GPTBot」、GoogleのAIトレーニング用「Google-Extended」などが代表的です。コンテンツをAI学習に使われたくない場合は、後述するrobots.txtで拒否設定ができます。

クローラーがあなたのサイトを見つける3つのルート

クローラーはどうやってあなたのサイトにたどり着くのでしょうか。主に3つのルートがあります。

外部リンク(他サイトからのリンク)

他のWebサイトやブログにあなたのサイトへのリンクが設置されていると、クローラーはそのリンクを辿って訪れます。外部リンクを獲得することが、クローラーに発見してもらう最も自然な方法のひとつです。

URLの直接登録(サーチコンソール)

GoogleのツールであるSearch Console(サーチコンソール)から、URLを直接Googleに申請することができます。「このページを見てください」とGoogleに直接伝えられる方法です。新しいページを作ったとき、リニューアル後に素早く認識してほしいときなどに有効です。

XMLサイトマップの送信

XMLサイトマップとは、サイト内のページ一覧をGoogleに伝えるためのファイルです。「このサイトにはこれだけのページがありますよ」とまとめて知らせることで、クローラーが効率よく巡回できるようになります。

クローラーに来てもらいやすくするための施策

クローラーを呼び込むだけでなく、サイト内をスムーズに巡回してもらうことも重要です。これを「クローラビリティ(クローラビリティー)」と言います。

内部リンクを整理する

クローラーはリンクを辿って移動します。ページとページのつながりが整理されていると、クローラーはサイト全体を効率的に巡回できます。逆に、どこからもリンクされていない「孤立したページ」はクローラーに見つけてもらえない可能性があります。

メニュー・パンくずリスト・関連記事リンクなど、ユーザーが使いやすいサイト構造をつくることが、そのままクローラビリティの向上にもつながります。

XMLサイトマップを作成・送信する

前述のとおり、XMLサイトマップはクローラーの道案内として機能します。WordPressサイトであればプラグインで自動生成・送信できます。作成したらサーチコンソールから送信しておきましょう。

ページの表示速度を改善する

ページが重くて表示に時間がかかると、クローラーの巡回効率が下がります。画像の最適化・不要なスクリプトの削除・サーバー応答速度の改善などを進めることで、クローラーが快適にサイト内を移動できるようになります。

リンク切れを減らす

リンクをクリックしたら「404エラー(ページが見つからない)」になるリンク切れ。これが多いと、クローラーの巡回が途中で止まってしまいます。定期的にリンク切れを確認・修正することをおすすめします。

重複コンテンツを整理する

同じ内容のページが複数存在すると、クローラーがどちらを正式なページとして扱えばよいか迷います。URLの統一(正規化)や、不要なページの整理を行うことで、クローラーがより重要なページに集中できるようになります。

クロールバジェットとは

「クロールバジェット」とは、Googleがあなたのサイトに対して一定期間内に巡回できるページ数の上限のことです。

予算(バジェット)という言葉を使うのは、Googlebotのリソースには限りがあるからです。小〜中規模のサイト(数百〜数千ページ)では、通常あまり意識する必要はありません。しかし、数万ページ以上の大規模サイトになると、重要なページに優先的にバジェットを使う工夫が必要になってきます。

クロールバジェットを無駄遣いしないためには、以下のような対策が有効です。

  • URLパラメーターが多い不要なページをインデックスさせない
  • 低品質なページやほぼ同じ内容のページを整理する
  • 重要度の低いページはrobots.txtで巡回対象から外す

大規模サイトや今後大量のページを増やす予定がある場合は、制作会社やSEO担当者に相談してみてください。

クローラーを拒否する方法

すべてのページをクローラーに巡回させたいわけではありません。管理画面・会員専用ページ・テスト環境など、検索結果に出したくないページも存在します。そのような場合はクローラーをブロックする設定ができます。

robots.txt(ロボッツテキスト)

サイトのルートに設置するテキストファイルで、「このページは巡回しないでください」というルールを記述します。特定のクローラーだけをブロックしたり、特定のフォルダだけ巡回を禁止したりと、細かい設定が可能です。

たとえば、AIクローラーによるコンテンツの無断学習を防ぎたい場合も、このrobots.txtで特定のクローラーを指定してブロックできます。

noindexタグ

HTMLのheadタグ内に記述するメタタグです。「このページはインデックスしないでください」とGoogleに伝えることができます。robots.txtと異なり、クローリングは許可しつつインデックスだけを禁止したい場合に使います。

クローラーの巡回状況を確認する方法

クローラーが実際にサイトを巡回しているか、サーチコンソールで確認することができます。

サーチコンソールの「URL検査」

特定のURLを入力すると、そのページがインデックスされているかどうか、最後にGooglebotが巡回した日時などを確認できます。新しいページを作成したとき、「インデックス登録をリクエスト」する機能もここにあります。

サーチコンソールの「クロール統計情報」

一定期間内にGooglebotがサイトをどれだけ巡回したか、エラーが発生していないかなどを確認できるレポートです。「最近クローラーが来ていない気がする」「エラーが多い気がする」といったときに役立ちます。

site:検索

Googleの検索窓で「site:あなたのドメイン名」と入力すると、Googleにインデックスされているページの一覧を確認できます。大まかなインデックス状況を素早く把握したいときに便利な方法です。

クローラーに関するよくある質問

新しくサイトを作ったのに、なかなか検索に出てこない

サイトを公開してすぐにGooglebotが訪れるわけではありません。特に新規ドメインの場合、最初のクロールまでに数日〜数週間かかることがあります。早めに認識してもらうためには、サーチコンソールからURLを申請したり、SNSや外部サイトにURLを掲載したりする方法が有効です。

クローラーがサーバーに負荷をかけることはある?

Googlebotは通常、サイトに過度な負荷をかけないよう設計されています。ただし、アクセスが集中しやすいタイミングや、サーバーのスペックが低い場合には影響が出ることもあります。サーバーの応答が遅いと、クローラーの巡回効率も下がるため、サーバー環境の整備は両面でメリットがあります。

AIクローラーのアクセスが増えているって聞いたけど大丈夫?

ChatGPTやGeminiなどのAI技術の普及にともない、AI学習目的のクローラーによるアクセスが増えています。コンテンツを学習データに使われたくない場合は、robots.txtでGPTBotやGoogle-Extendedをブロックする設定が可能です。ただし、設定の影響範囲については制作会社に相談した上で進めることをおすすめします。

まとめ

クローラーは、検索エンジンがWebサイトを発見・評価するための入り口です。どれだけ良いコンテンツを作っても、クローラーに巡回してもらえなければ、Googleの検索結果には表示されません。

SEO対策を依頼するときに「クロールできているか」「インデックスされているか」という確認が最初に行われるのは、このような理由からです。サイトの土台として、クローラビリティはしっかり整えておきたいところです。

当社でも、サイト制作やSEO対策のご相談時には、クロール状況の確認・XMLサイトマップの設置・内部リンク構造の整備を基本として対応しています。「うちのサイト、ちゃんとGoogleに見てもらえているのかな?」と気になった方は、お気軽にご相談ください。

関連用語

  • インデックス — クローラーが収集した情報をGoogleのデータベースに登録すること
  • robots.txt — クローラーの巡回を制御するためのテキストファイル
  • サイトマップ — サイト内のページ一覧をGoogleに伝えるためのファイル
  • SEO — 検索エンジンで上位表示を目指すための一連の施策
  • Google Search Console — Googleが無料で提供するサイトの検索パフォーマンス分析ツール

"とりあえず相談"も大歓迎です

「何を聞けばいいかわからない」というご相談が最も多いです。資料や決まった要件がなくても大丈夫。まずは現状をお聞かせください。
社内でのご検討用に、会社情報資料もダウンロードいただけます。