宣伝・広告

第9回クローラーへの対処 robots.txt を効果的に設定しよう

  • このエントリーをはてなブックマークに追加
  • LINEで送る
robots.txtを設定しよう

こんにちは。突然ですが、Google検索エンジン最適化スターターガイドをご存知でしょうか。
ユーザーと検索エンジン双方にやさしいサイトを構築しようとしている人向けに公開しているPDFなのですが、これを読めばSEOの基本や検索エンジンの仕組みを理解することができます。

この記事はより理解を深めるための一助として各章ごとに解説をしてまいります。

検索エンジン最適化スターターガイドはこちら

全14回に分けて解説しています。サイト運営者の方、また弊社で納品をしたHP所有の皆様のサイト運営の一助となればと思います。

今回は検索エンジン最適化スターターガイドの「robots.txtを効果的に設定しよう」の章にあわせて解説をしていきます。

 

robots.txtとは

robots.txtとは、クローラーにクロールしてほしいページとそうでないページを伝えるファイルです。SEOで効果を出すためには、ユーザーにとって価値のあるコンテンツをより多くクロールしてもらう必要があります。

逆に、価値のないコンテンツやユーザーに見せる必要のないページをクロールさせてしまうとSEO的には逆効果となる場合があります。

robots.txtを正しく設定し、重要なコンテンツのみをクロールしてもらい、SEOを改善しましょう。

robots.txtの役割とクローラーの特徴

robots.txtを知る前に、クローラーについて知る必要があります。
クローラーの特徴を知り、robots.txtの役割を正しく理解しましょう。

クローラーの流入経路

クローラーは以下の二つの方法でサイトに訪問(クロール)してきます。

  • 被リンク
  • XMLサイトマップ

SEO対策上、効果が高いとされているのは「被リンク経由のクロール」です。
つまり、質の高いリンクを多く獲得しているコンテンツほど、頻繁にクロールされるということです。

さらに、クローラーは訪問したコンテンツの内部リンクをたどり、別の情報も取得します。
この特徴を利用し、上位表示させたいコンテンツに内部リンクを貼ることで検索順位を改善することができます。

Googleはこのクローラーの精度を常に高める努力をしています。
更新頻度が低く、古いコンテンツが中心のサイト等は、クロールを後回しにされる可能性があります。

XMLサイトマップとは

 

クロールバジェットについて

クロールバジェットとは、Googleがサイト毎に割り当てている、クローラが回る「時間」と「ページ数」のことです。

クローラーがサイトに訪問した際、サイトに割り当てられた時間とページ数に基づきクロールを行います。
クロールバジェットは、ドメイン毎に決められており、時間とページ数を増やすためには良いコンテンツを長い期間をかけてコツコツ更新していく必要があります。

SEO対策を行う上で、少ないクロールバジェットでいかに効率よくターゲットのコンテンツをクロールしてもらうかが鍵となります。

 

SEO対策としてのrobots.txtの役割

クローラーの特徴を踏まえるとrobots.txtの役割が見えてきます。
検索順位上位に表示させるには頻繁にクロールされる必要がある。
しかし、クローラーには予算があり、クロールできる回数に限りがあります。

robots.txtはクロールされたくないページを事前に知らせることができます。

つまり

クロールの必要がないページをrobot.txtで設定しておくことでクロールバジェットの無駄を減らすことができます。

結果、クロールしてもらいたいページやコンテンツへ効率良く誘導することができます。
robots.txtの役割は質の良いコンテンツ、ページへクローラーを誘導することであると言えます。

 

robots.txtの設定をする前に

robots.txtを設定する前に知っておくべきことについて解説して参ります。

robots.txtに設定するべきページとは

Googleはウェブマスター向けガイドラインでどのようなコンテンツ、ページをrobots.txtを使ってクロールを回避すれば良いか紹介しています。

抜粋すると以下の2つまとめることができます。

  • ユーザーにとって価値のないコンテンツ、ページ
  • 管理画面ログインページ
  • 広告のリンク先

この二つについて解説いたします。

 

ユーザーにとって価値のないコンテンツとは

価値のないコンテンツとは自動で生成されたコンテンツや重複コンテンツのことを指します。
また、Googleが公式に運営するウェブマスター向けブログ内で紹介されている、
良質なサイトを作るためのアドバイスに該当しないコンテンツが価値のないコンテンツとなります。

 

管理画面ログインページ

ワードプレス等のCMSを使用し、サイトを管理している場合、管理用ログインページはユーザーにとって不要です。
また、安易に表示されてしまっても、ハッキングの対象になりやすくなってしまいます。
管理用ログインページはrobot.txtに設定することをお勧めします。

 

広告のリンク先

Googleは広告にクローラーが回り検索順位に影響を与えることを良しとしていません。
従って、広告のリンク先は下図のようにリダイレクトページが挟まれてなければなりません。

このような仕組みになっていない広告をサイトに表示させると、最悪の場合、サイトと広告のリンク先に対してペナルティが与えられます。

ほとんどの場合、広告配信会社側で設定しているため、サイト運営者が自ら設定する必要はありません。

しかし、中には設定をしていない配信会社もあるため、広告のリンク先のrobots.txtの内容を確認しましょう。

 

robots.txtを設定しよう

robots.txtの設定方法を解説します。

記述方法にはルールがあります。誤った記述をしてしまうと効果がありませんので
ご注意ください。

robots.txtのファイル名と形式

robots.txtは、テキストファイルにて作成します。
また、ファイル名も「robots.txt」でなければなりません。

 

robots.txtを設置する場所

FTPソフトを使用し、サイトのルートディレクトリに設置しましょう。
ルートディレクトリとは、下図のように、サイト階層の最上位のことです。

ルートディレクトリの例
http://sample.com/robots.txt

ルートドメイン以外の場所に設置してしまうと効果がないので注意しましょう。

 

robots.txtの記述

robots.txtの基本的な記述は下記のようになります。

robots.txtの基本的な記述

User-Agent:*

Disallow:Sitemap:http://sample.com/sitemap.xml

 

各要素について解説いたします。

User-Agent:

この要素はどのクローラーの動きを制御するか指定する要素です。
クローラーにもいくつか種類があり、画像用、動画用、パソコン用、スマホ用等がある。
全てのクローラーを制御する場合、「*」を入力する。

特定のクローラーを制御する場合は、各クローラ用の要素を入力する。
各クローラーの要素は「Googleクローラ」を参照してください。

 

Disallow:

この要素では、クロールをブロックするページを指定します。
記述にはいくつかルールがあります。
robots.txt ファイルで使用する URL ブロック コマンドより引用し、紹介します。

 

  • サイト全体をブロックするには、スラッシュを使用します。
    Disallow: /
  • 特定のディレクトリとその中身をすべてブロックするには、ディレクトリ名の後にスラッシュを入力します。
    Disallow: /junk-directory/
  • 特定のページをブロックするには、そのページを指定します。
    Disallow: /private_file.html
  • Google 画像検索から特定の画像を削除するには、次の記述を追加します:
    User-agent: Googlebot-Image
    Disallow: /images/dogs.jpg
  • Google 画像検索からサイトのすべての画像を削除するには、次のように記述します:
    User-agent: Googlebot-Image
    Disallow: /
  • 特定の種類のファイル(例: .gif ファイル)をブロックするには、次のように記述します:
    User-agent: Googlebot
    Disallow: /*.gif$
  • 疑問符(?)を含むすべての URL へのアクセスをブロックするには、次のように記述します(具体的には、ドメイン名の後に文字列と疑問符が続き、その後に文字列が続く URL):
    User-agent: Googlebot
    Disallow: /*?
  • URL の末尾に一致させるには、$ を使用します。たとえば、.xls で終わるすべての URL をブロックするには、次のように記述します:
    User-agent: Googlebot
    Disallow: /*.xls$

参照:『robots.txt ファイルで使用する URL ブロック コマンド除する

 

Allow:

特定のページのみ、クローラーが回るようにしたい場合に使用する要素です。
例えば、「http://sample.com/sample」はブロックするが「http://sample.com/sample/special.html」はクロールさせたいという場合。
その場合は以下のように記述します。

Allow要素の記述

User-Agent:*

Disallow:/sample/
Allow:/sample/special.html

※AllowはDisallowよりも優先されます。

Sitemap:

Googleはrobots.txtにSitemap:を明記することをサポートしています。
記述しておくことで、クローラーはSitemapを積極的に読み込むため、記載しておきましょう。

 

サーバーにrobots.txtを設置する前のテスト

robots.txtをサーバーに設置する前に、記述が正しいか、正しく制御されているかテストしましょう。
Googleのウェブマスターツールでrobots.txtのテストツールが提供されています。

ツールの「クロール」の「ブロックされたURL」をクリックし、内容を確認しましょう。

 

robots.txtのテストツール

内容に問題がなければサーバーへアップロードします。

まとめ

  • robots.txtはクロールされたくないコンテンツ・ページを指定できる。
  • クローラーにはクロールバジェット(予算)があり、クロール回数に制限がある。
  • ユーザーにとって価値のないコンテンツ・ページはクロールさせないようにする。
  • 広告のリンク先には注意する。
  • robots.txtの記述、保存先にはルールがあり、守らなければ効果がない。

 

次回は「第10回クローラーへの対処 リンクにnofollow属性を活用しよう」です。

 

あとがき

ブランディング同様、SEO対策は積み重ねて成果を出すもの。

SEO対策とはそもそもなんでしょうか?

SEO(search engine optimization)サーチエンジンオプティマゼーションの略です。
和訳すると「検索エンジン最適化」検索エンジンの順番を決めているのはクローラーと呼ばれるロボットです。
そのロボットにこのホームページはこういうホームページなんですよ!と教えてあげる技術がSEOです。

検索順位を決めるクローラーの役割は、

ユーザーがほしいと思った情報を的確に表示してあげることこそがクローラーの役目であります。

SEO対策とは一撃で任意のホームページを上位にあげる技ではなく、日頃の積み重ねが検索結果として反映されると心得ておきましょう。

 

読者限定の無料特典:利益を最大化させるブランディングのススメe-book

マーケティングだけじゃない。これからの戦略に必要不可欠なブランディング。

そんなブランディングのやり方を徹底解説!ブランディングの必要性からブランディングをしないとどうなるの?という疑問まで全てに答えたスタートブック。

始め方や考え方までを凝縮した一冊!これ一冊でブランディングの基礎を作ることができます。

ダウンロード特典:分析調査用シート各種付き

E-book詳細&ダウンロード

コメント

コメントを残す

*