WordPressでサイトを運営するに当たり、必ず必要になってくるrobots.txtの作成時の備忘録を書きました。
ちなみに、じぶんは「エックスサーバー」を使用しています。
※ここは、ほんとに使いやすいし、なんといってもセキュリティーが素晴らしい。そんでもって、デッフォルトバックアップ機能付きです!
ロボットに来てほしくないディレクトリやファイルを拒否したり、回ってきてほしいところ(例えば、サイトマップなど)を許可したりなど、必要なテキストファイルなので、ご参考にしてください。
エックスサーバ用のrobots.txtを作成
エックスサーバではインストールの際、ルートディレクトリ配下にインストール用ディレクトリ(network.genchan.net/wp/みたいな)を作成する。
初期設定時はルートディレクトリが”https://genchan.net/wp”になっているのでルートディレクトリを変更する。
記述を間違えないように確実に作成しよう
という感じでエックスサーバでWordPressをインストール後、ルートディレクトリを変更し、robots.txtを以下のように作成した。
User-agent: MJ12bot Disallow: / User-agent: * Disallow: /wp/wp-admin Disallow: /wp/wp-includes Disallow: /wp/wp-content/plugins Disallow: /wp/wp-content/cache Disallow: /wp/wp-content/themes Disallow: /wp/category/*/* Disallow: /trackback Disallow: /comments Disallow: */trackback Disallow: */comments Allow: /wp/wp-content/uploads Disallow: /*?* Disallow: /*? Disallow: /*.php$ Disallow: /*.js$ Disallow: /*.inc$ Disallow: /*.css$ Disallow: /*.gz$ Disallow: /*.wmv$ Disallow: /*.cgi$ Disallow: /*.xhtml$ # allow google image bot to search all images User-agent: Googlebot-Image Allow: /* # allow Google adsense bot on entire site User-agent: Mediapartners-Google* Allow: /* # BEGIN XML-SITEMAP-PLUGIN Sitemap: https://network.genchan.net/sitemap.xml Sitemap: https://network.genchan.net/sitemap-image.xml Sitemap: https://network.genchan.net/sitemap-mobile.xml # END XML-SITEMAP-PLUGIN
とりあえずおぼえがき。
ウェブマスターツールの重複タイトル、重複タグを拒否する
WordPressを使用し、ウェブマスターツールに登録していると、”HTMLの改善”の項目でURLに『?』がついたURLとタイトルやメタデータが重複してるよっていうエラーをはかれる。
自分のURLは
”https://ルートディレクトリ/カテゴリ/Post_id”
って感じでパーマリンクを変更しているので、こういったURLやphp,cgiなどのファイルにクロールさせないようにブロックをした。
Disallow: /*?* Disallow: /*? Disallow: /*.php$ Disallow: /*.js$ Disallow: /*.inc$ Disallow: /*.css$ Disallow: /*.gz$ Disallow: /*.wmv$ Disallow: /*.cgi$ Disallow: /*.xhtml$
管理ディレクトリへのアクセスを拒否
検索エンジンがサイトをインデックスできるように
”User-agent: *”を書いて、”Disallow”で管理ディレクトリへアクセスしないように設定する。
User-agent: * Disallow: /wp/wp-admin Disallow: /wp/wp-includes Disallow: /wp/wp-content/plugins Disallow: /wp/wp-content/cache Disallow: /wp/wp-content/themes
クロールしなくてよいコンテンツもブロック
トラックバックや、コメントなんかはクロールしなくてもいいのでクロール拒否をする。
カテゴリーも重複されやすいのでブロックしとく。
Disallow: /wp/category/*/* Disallow: /trackback Disallow: /comments Disallow: */trackback Disallow: */comments
アップロード画像はクロールさせとく
画像検索もしてほしいので、アップロード画像はクロールしよう。
Allow: /wp/wp-content/uploads
Google関連は許可しよう
大丈夫だと思うけど、とりあえず明示的に、アドセンスとGoogle imageを許可するように設定。
# allow google image bot to search all images User-agent: Googlebot-Image Allow: /* # allow Google adsense bot on entire site User-agent: Mediapartners-Google* Allow: /*
サイトマップの居場所も教えよう
検索エンジンに、的確にページをクロールしてほしいのでこちらも明示的に書いている。
# BEGIN XML-SITEMAP-PLUGIN Sitemap: https://network.genchan.net/sitemap.xml # END XML-SITEMAP-PLUGIN
MJ12botは拒否しよう
MJ12botはあほみたいにアクセスしまくってきてトラフィックの無駄なので、サイトを回るのを拒否った。
User-agent: MJ12bot Disallow: /
robots.txtはルートディレクトリに置きましょ!
最後にエックスサーバで以下、ディレクトリに保存すればOKっす。
※hogehoge.comの場合
/hogehoge.com/public_html/robots.txt
※サブドメイン使用時(sab.hogehoge.comなどの場合)
/hogehoge.net/public_html/sab/robots.txt
まとめ
じぶんはネットワークエンジニアなので、robots.txtの内容は大体把握できました。なんか、アクセスリストみたいだったし。
わけがわかんない方はそのままコピペしてサーバーに上げてくれれば大丈夫です。
また、MJ12botは別に気にしない方(じぶんも今はあまり気にしてません。)は拒否する行を削除しても大丈夫です。
トラフィックが多く着すぎてサーバーに負荷がかかる場合は入れといたほうがいいと思いますが。。。
以上!それでは。
それでは!
エンジニアのオンライン学習
ITエンジニアにおすすめの教材、オンラインスクールです。
無料からエンジニアの学習ができる教材などまとめているので参考にしてください。
おすすめオンライン教材 | |
自宅で学習ができるオンラインスクール | |
ITエンジニアの開発・検証・学習としてインターネット上で専用のサーバ(VPS)を利用しましょう!
実務経験はVPSで学べます。
コメントを残す