ネットワークエンジニア系ブログ。エンターテイメント、おすすめ映画、本、キッズ系などお役立ち情報を紹介!

GOISBLOG

WordPress

【WordPress】robots.txtの書き方備忘録

投稿日:2014年3月24日 更新日:

WordPressでサイトを運営するに当たり、必ず必要になってくるrobots.txtの作成時の備忘録を書きました。

ちなみに、じぶんはエックスサーバーを使用しています。
※ここは、ほんとに使いやすいし、なんといってもセキュリティーが素晴らしい。そんでもって、デッフォルトバックアップ機能付きです!

ロボットに来てほしくないディレクトリやファイルを拒否したり、回ってきてほしいところ(例えば、サイトマップなど)を許可したりなど、必要なテキストファイルなので、ご参考にしてください。

エックスサーバ用のrobots.txtを作成

エックスサーバではインストールの際、ルートディレクトリ配下にインストール用ディレクトリ(network.genchan.net/wp/みたいな)を作成する。
初期設定時はルートディレクトリが”https://genchan.net/wp”になっているのでルートディレクトリを変更する。

参照:トップページURLのサブディレクトリを削除する方法

スポンサーリンク


記述を間違えないように確実に作成しよう

という感じでエックスサーバでWordPressをインストール後、ルートディレクトリを変更し、robots.txtを以下のように作成した。

User-agent: MJ12bot
Disallow: /
User-agent: *
Disallow: /wp/wp-admin
Disallow: /wp/wp-includes
Disallow: /wp/wp-content/plugins
Disallow: /wp/wp-content/cache
Disallow: /wp/wp-content/themes
Disallow: /wp/category/*/*
Disallow: /trackback
Disallow: /comments
Disallow: */trackback
Disallow: */comments
Allow: /wp/wp-content/uploads
Disallow: /*?*
Disallow: /*?
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.gz$
Disallow: /*.wmv$
Disallow: /*.cgi$
Disallow: /*.xhtml$
# allow google image bot to search all images
User-agent: Googlebot-Image
Allow: /*
# allow Google adsense bot on entire site
User-agent: Mediapartners-Google*
Allow: /*
# BEGIN XML-SITEMAP-PLUGIN
Sitemap: https://network.genchan.net/sitemap.xml
Sitemap: https://network.genchan.net/sitemap-image.xml
Sitemap: https://network.genchan.net/sitemap-mobile.xml
# END XML-SITEMAP-PLUGIN

とりあえずおぼえがき。


ウェブマスターツールの重複タイトル、重複タグを拒否する

WordPressを使用し、ウェブマスターツールに登録していると、”HTMLの改善”の項目でURLに『?』がついたURLとタイトルやメタデータが重複してるよっていうエラーをはかれる。

自分のURLは
”https://ルートディレクトリ/カテゴリ/Post_id”
って感じでパーマリンクを変更しているので、こういったURLやphp,cgiなどのファイルにクロールさせないようにブロックをした。

Disallow: /*?*
Disallow: /*?
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.gz$
Disallow: /*.wmv$
Disallow: /*.cgi$
Disallow: /*.xhtml$

管理ディレクトリへのアクセスを拒否

検索エンジンがサイトをインデックスできるように
”User-agent: *”を書いて、”Disallow”で管理ディレクトリへアクセスしないように設定する。

User-agent: *
Disallow: /wp/wp-admin
Disallow: /wp/wp-includes
Disallow: /wp/wp-content/plugins
Disallow: /wp/wp-content/cache
Disallow: /wp/wp-content/themes

クロールしなくてよいコンテンツもブロック

トラックバックや、コメントなんかはクロールしなくてもいいのでクロール拒否をする。
カテゴリーも重複されやすいのでブロックしとく。

Disallow: /wp/category/*/*
Disallow: /trackback
Disallow: /comments
Disallow: */trackback
Disallow: */comments

アップロード画像はクロールさせとく

画像検索もしてほしいので、アップロード画像はクロールしよう。

Allow: /wp/wp-content/uploads

Google関連は許可しよう

大丈夫だと思うけど、とりあえず明示的に、アドセンスとGoogle imageを許可するように設定。

# allow google image bot to search all images
User-agent: Googlebot-Image
Allow: /*
# allow Google adsense bot on entire site
User-agent: Mediapartners-Google*
Allow: /*

サイトマップの居場所も教えよう

検索エンジンに、的確にページをクロールしてほしいのでこちらも明示的に書いている。

# BEGIN XML-SITEMAP-PLUGIN
Sitemap: https://network.genchan.net/sitemap.xml
# END XML-SITEMAP-PLUGIN

MJ12botは拒否しよう

MJ12botはあほみたいにアクセスしまくってきてトラフィックの無駄なので、サイトを回るのを拒否った。

User-agent: MJ12bot
Disallow: /

robots.txtはルートディレクトリに置きましょ!

最後にエックスサーバで以下、ディレクトリに保存すればOKっす。

※hogehoge.comの場合

/hogehoge.com/public_html/robots.txt

※サブドメイン使用時(sab.hogehoge.comなどの場合)

/hogehoge.net/public_html/sab/robots.txt

まとめ

じぶんはネットワークエンジニアなので、robots.txtの内容は大体把握できました。なんか、アクセスリストみたいだったし。
わけがわかんない方はそのままコピペしてサーバーに上げてくれれば大丈夫です。

また、MJ12botは別に気にしない方(じぶんも今はあまり気にしてません。)は拒否する行を削除しても大丈夫です。
トラフィックが多く着すぎてサーバーに負荷がかかる場合は入れといたほうがいいと思いますが。。。

以上!それでは。

この記事が気に入ったら
いいね!しよう

Twitter で
スポンサーリンク

-WordPress
-,

Copyright© GOISBLOG , 2016 AllRights Reserved.