Robots.txt详解和WordPress中Robots.txt的配置
搜索引擎蜘蛛在爬取我们的网站时,会首先访问robots.txt
文件,robots.txt
是存放在站点根目录下的一个纯文本文件。虽然它的设置很简单,但是作用却很强大。它可以指定搜索引擎蜘蛛只抓取指定的内容,或者是禁止搜索引擎蜘蛛抓取网站的部分或全部内容。
WordPress默认的robots.txt
是这样的:
User-agent:*
Disallow:/wp-admin/
allow:/wp-admin/admin-ajax.php
语法
User-agent
用于描述搜索引擎蜘蛛的名字,在Robots.txt
文件中,如果有多条User-agent
记录说明有多个搜索引擎蜘蛛会受到该协议的限制,对该文件来说,至少要有一条User-agent
记录。如果该项的值设为*
,则该协议对任何搜索引擎蜘蛛均有效,在Robots.txt
文件中,User-agent:*
这样的记录只能有一条。
常见搜索引擎蜘蛛:
- 百度蜘蛛:Baiduspider
- 谷歌蜘蛛:Googlebot
- 360蜘蛛:360Spider
- SOSO蜘蛛:Sosospider
- 雅虎蜘蛛:Yahoo! Slurp China或者Yahoo! Slurp
- 有道蜘蛛:YoudaoBot,YodaoBot(两个都有)
- 搜狗蜘蛛:Sogou News Spider
- MSN蜘蛛:msnbot,msnbot-media
- 必应蜘蛛:bingbot
- 一搜蜘蛛:YisouSpider
- Alexa蜘蛛:ia_archiver
- 宜搜蜘蛛:EasouSpider
- 即刻蜘蛛:JikeSpider
Disallow
用于描述不希望被访问到的一个URL,这个URL可以是一条完整的路径,也可以是部分的,任何以Disallow
开头的URL均不会被Robot访问到。
Allow
用于描述可以被访问到的一个URL,这个URL可以是一条完整的路径,也可以是部分的,一般用于被Disallow
禁止的路径中的特例。
#
Robots.txt
协议中的注释符。
实例
例一:
禁止所有搜索引擎蜘蛛抓取/bin/cgi/
目录,以及/tmp/
目录和/foo.html
文件,设置方法如下:
User-agent: *
Disallow: /bin/cgi/
Disallow: /tmp/
Disallow: /foo.html
例二:
只允许名为slurp
的搜索引擎蜘蛛抓取,而拒绝其他的搜索引擎蜘蛛抓取/cgi/
目录下的内容,设置方法如下:
User-agent: *
Disallow: /cgi/
User-agent: slurp
Disallow:
例三:
禁止任何搜索引擎抓取我的网站,设置方法如下:
User-agent: *
Disallow: /
例四:
只禁止名为slurp
的搜索引擎蜘蛛抓取,设置方法如下:
User-agent: slurp
Disallow: /
WordPress参考设置
新建一个txt文本,放到网站的根目录,设置可以参考下面这个:
User-agent: *
Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/
Disallow: /trackback/
Disallow: /comments/
Disallow: /attachment/
Disallow: /comments/feed
Disallow: /feed
Disallow: /*/feed
Disallow: /*/comment-page-*
Disallow: /*?replytocom=*
Disallow: /*/trackback
Disallow: /?s=*
Disallow: /*/?s=*\
Disallow: /wp-*.php
Sitemap: https://deepwinter.com/sitemap_index.xml
Disallow: /wp-admin/
、Disallow: /wp-content/
和Disallow: /wp-includes/
用于告诉搜索引擎不要抓取后台程序文件页面。Disallow: /*/comment-page-*
和Disallow: /*?replytocom=*
禁止搜索引擎抓取评论分页等相关链接。Disallow: /category/*/page/
和Disallow: /tag/*/page/
禁止搜索引擎抓取收录分类和标签的分页(因为不同 WordPress 站点可能会有所不同,大家可以根据需要添加)。Disallow: /*/trackback
和Disallow: /trackback/
禁止搜索引擎抓取收录trackback
等垃圾信息。Disallow: /feed
、Disallow: /*/feed
和Disallow: /comments/feed
禁止搜索引擎抓取收录feed
链接,feed
只用于订阅本站,与搜索引擎无关。Disallow: /?s=*
和Disallow: /*/?s=*\
禁止搜索引擎抓取站内搜索结果。Disallow: /attachment/
禁止搜索引擎抓取附件页面,比如毫无意义的图片附件页面。Disallow: /wp-*.php
禁止搜索引擎抓取Wordpress网站根目录的以wp
开头的文件。Sitemap: http://yourdomain.com/sitemap.xml
这个就是为了方便搜索引擎利用的网站地图,具体的根据自己网站需要添加。
参考文章:
https://www.haoht123.com/381.html
https://zhangzifan.com/t/5425.html