クロールとは?Googleに「存在を知ってもらう」ための仕組みをわかりやすく解説

Googleに「このサイトの存在」を知ってもらうために、まず通過しなければならないステップがあります。それがクロールです。どんなに優れたコンテンツを公開しても、クロールされなければ検索結果に表示されることはありません。

この記事では、クロールとは何か・どんな仕組みで動いているのか・SEOに与える影響・クロールされやすくするための具体的な方法まで、Web担当者や経営者の方にもわかりやすくお伝えします。

クロールとは

クロールとは、Googleが持つ「クローラー」と呼ばれるプログラムが、インターネット上のウェブページを自動で巡回し、ページの内容や構造を収集する一連の活動のことです。

日本語に言い換えると「巡回・収集」に近いイメージです。Googleは人間がページを読むのと同じように、ページのテキスト・画像・リンクなどを読み取り、自分のデータベースに記録していきます。

クローラーとは

クローラーはGoogleが開発・運用するロボットプログラムで、Googlebot(グーグルボット)という名称がついています。

Googlebotはインターネット上に張り巡らされたリンクをたどりながら、次々と新しいページを発見し、その内容を読み取っていきます。まるで蜘蛛の巣(スパイダー)をたどるような動きをすることから、「スパイダー」や「ウェブクローラー」と呼ばれることもあります。

GooglebotはモバイルとPCの2種類が存在します。現在Googleはスマートフォン向けのGooglebotを優先的に使う「モバイルファーストインデックス」を採用しているため、スマートフォンでの表示に問題があると、サイト評価が下がる可能性があります。

クロールとインデックスの違い

クロールと混同されやすい言葉に「インデックス」があります。この2つは別のプロセスで、セットで理解することが大切です。

クロールはGooglebotがページを訪問して内容を読み取る作業。インデックスはクロールで読み取った内容をGoogleのデータベースに登録する作業です。

インデックスされて初めて、そのページが検索結果に表示される候補になります。つまり、クロール→インデックスの順番が「検索表示の前提条件」なのです。

検索結果に表示されるまでの流れ

Googleが検索結果を作る仕組みは、大きく3つのステップで構成されています。

ステップ1 クロール

Googlebotが新しいページや更新されたページを発見し、内容を収集します。ページ上のテキスト、画像の代替テキスト(altタグ)、ページ同士のリンク構造などを読み取ります。

ステップ2 インデックス

クロールで収集した情報をGoogleのデータベースに登録します。ページの内容・品質・関連性などを判断し、どんなキーワードで検索したときに表示すべきかを整理します。

ステップ3 ランキング

ユーザーが検索したとき、インデックスされたページの中から「最も役立つ」と判断されたものを順番に表示します。このランキング決定にはGoogleのアルゴリズムが使われています。

この3ステップのうち、最初の「クロール」が起点です。クロールが正しく行われなければ、どんなに良い記事を書いても、Googleに存在を認識してもらえません。

なぜクロールはSEOに重要なのか

SEO(検索エンジン最適化)を考えるうえで、クロールは「土台」にあたります。具体的に4つの観点から重要性を整理します。

検索表示の前提条件

クロールされていないページは、インデックスもされません。インデックスされていないページは、検索結果に表示されません。つまり「クロールされないこと=存在しないも同然」という状態です。

どれだけ良いコンテンツを書いていても、Googlebotがたどり着けなければ評価の土台にも立てません。

コンテンツの鮮度を保つ

Googlebotはすでに訪問したページも定期的に再訪します。これによって、ページの更新内容が検索結果にも反映されます。情報の正確性や最新性はGoogleが重視する要素のひとつなので、更新頻度の高いサイトはクローラーが訪れやすい傾向があります。

サイト構造の理解

Googlebotはリンクをたどってページを発見します。内部リンクが適切に設置されていると、サイト全体のページをまとめて発見・収集してもらいやすくなります。逆にリンクが少なかったり、構造が複雑すぎたりすると、見落とされるページが増えます。

問題の早期発見

クロールが正常に行われていない原因(後述)を確認することで、「重要なページが検索に表示されていない」「設定のミスでページが除外されている」といった問題を早期に発見できます。

クロールされない主な原因

「記事を公開したのに検索に出てこない」という場合、クロールに問題があることがあります。よくある原因を確認しておきましょう。

robots.txtによるブロック

robots.txtはGooglebotに「ここはクロールしないでほしい」と伝えるファイルです。設定を誤って、本来クロールされるべきページをブロックしてしまうケースがあります。

管理画面からの操作ミスで重要なページが除外されていることも珍しくありません。

noindexタグの設定

HTMLにnoindexタグが設定されているページは、クロールはされてもインデックスに登録されません。テスト用に設定したタグが本番環境に残ってしまうケースがあります。

孤立したページ

他のページからリンクが張られていないページは、Googlebotがたどり着けません。新しくページを作ったとき、内部リンクを忘れると「孤立ページ」になってしまいます。

階層が深すぎる

トップページから4〜5階層以上深い場所にあるページは、Googlebotが発見しにくくなります。重要なページはなるべく浅い階層に置くとベストです。

ページの表示速度が遅い

ページの読み込みに時間がかかりすぎると、Googlebotが途中でクロールを中断することがあります。表示速度はSEO評価にも影響するため、定期的に確認することをおすすめします。

クロールを促進する方法

クロールされやすいサイト状態を作るために、実践できることをまとめました。

XMLサイトマップを作成・送信する

XMLサイトマップとは、サイト内のページ一覧をGoogleに知らせるためのファイルです。WordPressのSEOプラグイン(YoastやAll in One SEO等)で自動生成できます。

作成したら、Googleが提供する「Google Search Console(サーチコンソール)」からGoogleへ送信します。これによってGooglebotがサイト内のページを効率よく発見できるようになります。

内部リンクを適切に設置する

内部リンクとは、自分のサイト内のページ同士をつなぐリンクのことです。記事の中に関連ページへのリンクを設置することで、Googlebotがリンクをたどってサイト全体を巡回しやすくなります。

特に重要なページへのリンクは、なるべく多くのページから設置できるとベストです。

ページの表示速度を改善する

表示速度が遅いとクロール効率が下がります。Google PageSpeed Insightsなどの無料ツールで自サイトの速度を確認し、改善できる点があれば対処するのがおすすめです。

画像ファイルの圧縮、不要なプラグインの削除、キャッシュの活用が典型的な改善策です。

パンくずリストを設置する

パンくずリストとは、「トップ > カテゴリ > 記事名」のように現在地を示すナビゲーションのことです。サイトの階層構造をGooglebotに伝えやすくなるため、クロール効率の改善につながります。

ディレクトリ階層を浅くする

重要なページはトップページからなるべく少ないクリック数でたどり着ける場所に置くことが大切です。階層が深くなると発見されにくくなるため、サイト設計の段階から意識できるとよいでしょう。

クロールをコントロールする方法

クロールは「させる」だけでなく、場合によっては「させない」設定も必要です。

robots.txtで特定のページをブロックする

管理画面のログインページやテスト用ページなど、検索結果に表示する必要がないページはrobots.txtでクロールを制限できます。ただし、設定を誤ると必要なページまでブロックしてしまうため注意が必要です。

noindexタグで検索表示を防ぐ

クロールはされてよいが、検索結果には表示したくないページにはnoindexタグを使います。例えばサンクスページ(問い合わせ完了ページ)やページネーションページなどがこれにあたります。

クロールバジェットとは

「クロールバジェット」とは、GooglebotがひとつのWebサイトに割り当てるクロール数の上限のことです。

Googlebotはすべてのページを無限にクロールするわけではなく、各サイトにある程度の上限を設けて巡回しています。サイト規模が大きくなるほど、クロールバジェットへの意識が重要になります。

クロールバジェットを効率よく使うためには、不要なページ(重複コンテンツ・404エラーページ・意味のない薄いページ)を減らし、Googlebotが重要なページに集中できる状態にすることが大切です。

数十ページ程度の中小企業サイトであれば、特別に意識する必要はありませんが、数百ページ以上になってくると関係してくる概念です。

クロール状況を確認する方法

クロールが正常に行われているか確認するには、Google Search Console(サーチコンソール)を使います。

URL検査ツール

特定のURLがGoogleにインデックスされているかどうかを確認できるツールです。「このページはGoogleに認識されているか?」を調べるときに使います。インデックスされていないページは、ここでクロールをリクエストすることも可能です。

クロール統計情報

サーチコンソールの「設定」>「クロールの統計情報」から、Googlebotがいつ、どれだけのページをクロールしたかを確認できます。クロールが急減しているような場合は、何らかの問題が発生しているサインです。

インデックス登録をリクエストする

URL検査ツールでページを検索し、「インデックス登録をリクエスト」ボタンを押すことで、Googlebotに優先的に訪問してもらうよう依頼できます。新しいページを公開したときや、重要なページを大幅に更新したときに使うとよいでしょう。

中小企業サイトでよくある落とし穴

実際に支援先のサイトを拝見していると、クロール関連の設定ミスは意外と多く見られます。

特に多いのが、リニューアル時のrobots.txt設定ミスです。新しいサイトを公開した際に、テスト環境で使っていた「全ページブロック」の設定がそのまま残っており、サイト全体がクロールされなくなっているケースがあります。

また、noindexタグの消し忘れも頻繁に見かけます。WordPressの開発環境でnoindexを設定していたものを、本番環境へ移行した後も消し忘れたままになっているパターンです。

これらはサーチコンソールで確認すると発見できます。「サイトをリニューアルしたのに流入が戻らない」という場合は、まずこの2点をチェックしてみることをおすすめします。

当社でもサイト支援を行う際には、納品後にサーチコンソールを使ってクロール状況を確認しています。ただ、クロール改善の効果が検索結果に反映されるまでには数週間〜数ヶ月かかることもあり、地道な取り組みが必要な領域でもあります。

まとめ

クロールは、検索エンジンにページの存在を認識してもらうための「最初の入口」です。クロールされなければインデックスもされず、検索結果に表示されることもありません。

SEO対策を考えるうえで、コンテンツの質はもちろん大切ですが、Googlebotがきちんとサイトを巡回できる環境を整えることも同じくらい重要です。

今の自社サイトがクロールされているかどうかは、サーチコンソールで無料で確認できます。まだ設定していない方は、ぜひ一度確認してみてください。

関連用語

  • クローラー — Googlebotなど、Webサイトを巡回して情報を収集するプログラムのこと
  • インデックス — Googleがクロールしたページをデータベースに登録すること。検索表示の前提条件
  • XMLサイトマップ — サイト内のページ一覧をGoogleに知らせるファイル。クロール促進に効果的
  • 内部リンク — 自サイト内のページ同士をつなぐリンク。クローラーの巡回ルートになる
  • サーチコンソール — Googleが無料提供する分析ツール。クロール状況の確認・問題発見に使う

"とりあえず相談"も大歓迎です

「何を聞けばいいかわからない」というご相談が最も多いです。資料や決まった要件がなくても大丈夫。まずは現状をお聞かせください。
社内でのご検討用に、会社情報資料もダウンロードいただけます。