WordPress之利用robots.txt优化网站收录

阅读完本文需要5分钟

概念:

robots.txt,顾名思义,机器人文本,是对应爬虫的一种防御机制,也是各大搜索引擎

用来收集网站信息的工具,网址后面加上/robots.txt就能看到这个网站的robots.txt

优化:

WordPress默认的Robots.txt如下

User-agent: *
Disallow: /wp-admin/
Allow: /wp-admin/admin-ajax.php

但是这远远不够,我们需要对它优化:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/
Disallow: /*/comment-page-*
Disallow: /*?replytocom=*
Disallow: /*/trackback
Disallow: /feed 
Disallow: /*/feed 
Disallow: /comments/feed
Disallow: /?s=*
Disallow: /*/?s=*\
Disallow: /category/*/page/
Disallow: /tag/*/page/
Disallow: /attachment/
Disallow: /a/date/
Disallow: /a/author/
Disallow: /a/category/
Disallow: /?p=*&preview=true
Disallow: /?page_id=*&preview=true
Disallow: /wp-login.php

Sitemap: http://www.feizao2333.com/sitemap.xml

新建一个名称为robots.txt文本文件,将上面的内容放进去,然后上传到网站根目录即可。

懒的人也可以直接点击这里下载:robots.txt,然后直接上传网站根目录即可。

对应解释:

User-agent: *
进行网站robots.txt指令设置是需要面向所有的spider程序,就需要使用通配符“*”。若存在独立的User-agent的指令规则,需要尽量将指令放到通配“*”User agent规则的上方去。

Disallow: /wp-admin/ Disallow: /wp-content/ Disallow: /wp-includes/
屏蔽spider捉取程序文件,同时也节约了搜索引擎蜘蛛资源。

Disallow: /*/comment-page-* Disallow: /*?replytocom=*
禁止搜索引擎抓取评论分页等相关链接。

Disallow: /*/trackback
在每一个文章页面的默认代码中,都会有一个trackback的链接,如果不进行屏蔽,被蜘蛛进行捉取了,网站的页面就将会出现问题。

Disallow: /feed Disallow: /*/feed Disallow: /comments/feed
在网站的头部代码中有一个feed链接,其主要的作用是提示用户可以对本站进行订阅,为了防止网站的权重被瓜分,通常会在网站的RSS输出和网站地图等,进行屏蔽搜索引擎捉取这些链接。

Disallow: /*/?s=*
这是进行屏蔽捉取站内的搜索结果了,当站内不存在这些链接,站外可能会有,如出现了收录就会导致与TAG等一些页面的内容差不多的现象。

Disallow: /category/*/page/和Disallow: /tag/*/page/
禁止搜索引擎抓取收录分类和标签的分页。

Disallow: /attachment/
禁止搜索引擎抓取附件页面,比如毫无意义的图片附件页面。

Disallow: /?r=*
对留言链接的插件所留下来的出现变形的链接进行屏蔽。若无该插件的网站的可以不要安装该插件。

Disallow: /*.jpg$ Disallow: /*.jpeg$ Disallow: /*.gif$ Disallow: /*.png$ Disallow: /*.bmp$
对图片文件的捉取进行屏蔽,这样可以有效地节约宽带资源,这几条不同型号的指令可根据自身喜好进行设置。

Disallow: /?p=*
对短连接捉取进行屏蔽。如头部默认的短连接、百度等搜索引擎蜘蛛都会进行捉取,虽然使用了301跳转到固定连接上,但是还会造成资源的浪费。

Disallow: /a/date/ Disallow: /a/author/ Disallow: /a/category/
Disallow: /?p=*&preview=true Disallow: /?page_id=*&preview=true
Disallow: /wp-login.php
对一些其他的链接进行屏蔽,避免出现重复内容和隐私问题。

Sitemap:http://xxx.com/sitemap.xml
网站地图的地址指令,txt和xml格式是现在主流的。是为了让搜索引擎知道网站的地图地址,方便对全站的内容进行捉取。其中Sitemap的S实需要进行大写的,地图地址也要使用绝对地址。
声明:肥皂 | 本文采用 CC BY-NC-SA 3.0协议进行授权声明

文章名称: WordPress之利用robots.txt优化网站收录

文章固定链接: http://www.feizao2333.com/2018/02/wordpress/wordpress-robots-txt/

除注明转载文章外 转载时必须以链接形式注明作者和原始出处

发表评论

电子邮件地址不会被公开。 必填项已用*标注

😉😐😡😈🙂😯🙁🙄😛😳😮:mrgreen:😆💡😀👿😥😎😕