【WordPress】robots.txtの書き方備忘録

WordPressでサイトを運営するに当たり、必ず必要になってくるrobots.txtの作成時の備忘録を書きました。

ちなみに、じぶんは「エックスサーバー」を使用しています。
※ここは、ほんとに使いやすいし、なんといってもセキュリティーが素晴らしい。そんでもって、デッフォルトバックアップ機能付きです!

ロボットに来てほしくないディレクトリやファイルを拒否したり、回ってきてほしいところ(例えば、サイトマップなど)を許可したりなど、必要なテキストファイルなので、ご参考にしてください。

エックスサーバ用のrobots.txtを作成

エックスサーバではインストールの際、ルートディレクトリ配下にインストール用ディレクトリ(network.genchan.net/wp/みたいな)を作成する。
初期設定時はルートディレクトリが”https://genchan.net/wp”になっているのでルートディレクトリを変更する。

参照:トップページURLのサブディレクトリを削除する方法

記述を間違えないように確実に作成しよう

という感じでエックスサーバでWordPressをインストール後、ルートディレクトリを変更し、robots.txtを以下のように作成した。

User-agent: MJ12bot
Disallow: /
User-agent: *
Disallow: /wp/wp-admin
Disallow: /wp/wp-includes
Disallow: /wp/wp-content/plugins
Disallow: /wp/wp-content/cache
Disallow: /wp/wp-content/themes
Disallow: /wp/category/*/*
Disallow: /trackback
Disallow: /comments
Disallow: */trackback
Disallow: */comments
Allow: /wp/wp-content/uploads
Disallow: /*?*
Disallow: /*?
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.gz$
Disallow: /*.wmv$
Disallow: /*.cgi$
Disallow: /*.xhtml$
# allow google image bot to search all images
User-agent: Googlebot-Image
Allow: /*
# allow Google adsense bot on entire site
User-agent: Mediapartners-Google*
Allow: /*
# BEGIN XML-SITEMAP-PLUGIN
Sitemap: https://network.genchan.net/sitemap.xml
Sitemap: https://network.genchan.net/sitemap-image.xml
Sitemap: https://network.genchan.net/sitemap-mobile.xml
# END XML-SITEMAP-PLUGIN

とりあえずおぼえがき。


ウェブマスターツールの重複タイトル、重複タグを拒否する

WordPressを使用し、ウェブマスターツールに登録していると、”HTMLの改善”の項目でURLに『?』がついたURLとタイトルやメタデータが重複してるよっていうエラーをはかれる。

自分のURLは
”https://ルートディレクトリ/カテゴリ/Post_id”
って感じでパーマリンクを変更しているので、こういったURLやphp,cgiなどのファイルにクロールさせないようにブロックをした。

Disallow: /*?*
Disallow: /*?
Disallow: /*.php$
Disallow: /*.js$
Disallow: /*.inc$
Disallow: /*.css$
Disallow: /*.gz$
Disallow: /*.wmv$
Disallow: /*.cgi$
Disallow: /*.xhtml$

管理ディレクトリへのアクセスを拒否

検索エンジンがサイトをインデックスできるように
”User-agent: *”を書いて、”Disallow”で管理ディレクトリへアクセスしないように設定する。

User-agent: *
Disallow: /wp/wp-admin
Disallow: /wp/wp-includes
Disallow: /wp/wp-content/plugins
Disallow: /wp/wp-content/cache
Disallow: /wp/wp-content/themes

クロールしなくてよいコンテンツもブロック

トラックバックや、コメントなんかはクロールしなくてもいいのでクロール拒否をする。
カテゴリーも重複されやすいのでブロックしとく。

Disallow: /wp/category/*/*
Disallow: /trackback
Disallow: /comments
Disallow: */trackback
Disallow: */comments

アップロード画像はクロールさせとく

画像検索もしてほしいので、アップロード画像はクロールしよう。

Allow: /wp/wp-content/uploads

Google関連は許可しよう

大丈夫だと思うけど、とりあえず明示的に、アドセンスとGoogle imageを許可するように設定。

# allow google image bot to search all images
User-agent: Googlebot-Image
Allow: /*
# allow Google adsense bot on entire site
User-agent: Mediapartners-Google*
Allow: /*

サイトマップの居場所も教えよう

検索エンジンに、的確にページをクロールしてほしいのでこちらも明示的に書いている。

# BEGIN XML-SITEMAP-PLUGIN
Sitemap: https://network.genchan.net/sitemap.xml
# END XML-SITEMAP-PLUGIN

MJ12botは拒否しよう

MJ12botはあほみたいにアクセスしまくってきてトラフィックの無駄なので、サイトを回るのを拒否った。

User-agent: MJ12bot
Disallow: /

robots.txtはルートディレクトリに置きましょ!

最後にエックスサーバで以下、ディレクトリに保存すればOKっす。

※hogehoge.comの場合

/hogehoge.com/public_html/robots.txt

※サブドメイン使用時(sab.hogehoge.comなどの場合)

/hogehoge.net/public_html/sab/robots.txt

まとめ

じぶんはネットワークエンジニアなので、robots.txtの内容は大体把握できました。なんか、アクセスリストみたいだったし。
わけがわかんない方はそのままコピペしてサーバーに上げてくれれば大丈夫です。

また、MJ12botは別に気にしない方(じぶんも今はあまり気にしてません。)は拒否する行を削除しても大丈夫です。
トラフィックが多く着すぎてサーバーに負荷がかかる場合は入れといたほうがいいと思いますが。。。

以上!それでは。

それでは!




エンジニアのオンライン学習

ITエンジニアにおすすめの教材、オンラインスクールです。
無料からエンジニアの学習ができる教材などまとめているので参考にしてください。

おすすめオンライン教材
自宅で学習ができるオンラインスクール

ITエンジニアの開発・検証・学習としてインターネット上で専用のサーバ(VPS)を利用しましょう!
実務経験はVPSで学べます。



コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です

日本語が含まれない投稿は無視されますのでご注意ください。(スパム対策)

ABOUT US
げんき☆ひろき
インターネット関連のSEをやっています。 ネットワーク、サーバー、ストレージ、仮想基盤まで幅広く手を出しており、MVNOの構築経験もあります。 現在は、Pythonを使ったプログラミングの開発をしネットワークの自動化ツールを作成しています! Pythonの入門書も作成しているので、ぜひ参考にしてください!