Robots.txt详解和WordPress中Robots.txt的配置

作者: deepwinter 分类: 建站 发布时间: 2019-04-18 09:58 点击量: 170 次阅读

robots
搜索引擎蜘蛛在爬取我们的网站时,会首先访问robots.txt文件,robots.txt是存放在站点根目录下的一个纯文本文件。虽然它的设置很简单,但是作用却很强大。它可以指定搜索引擎蜘蛛只抓取指定的内容,或者是禁止搜索引擎蜘蛛抓取网站的部分或全部内容。

WordPress默认的robots.txt是这样的:

User-agent:*
Disallow:/wp-admin/
allow:/wp-admin/admin-ajax.php

语法

User-agent
用于描述搜索引擎蜘蛛的名字,在Robots.txt文件中,如果有多条User-agent记录说明有多个搜索引擎蜘蛛会受到该协议的限制,对该文件来说,至少要有一条User-agent记录。如果该项的值设为*,则该协议对任何搜索引擎蜘蛛均有效,在Robots.txt文件中,User-agent:*这样的记录只能有一条。

常见搜索引擎蜘蛛:

  • 百度蜘蛛:Baiduspider
  • 谷歌蜘蛛:Googlebot
  • 360蜘蛛:360Spider
  • SOSO蜘蛛:Sosospider
  • 雅虎蜘蛛:Yahoo! Slurp China或者Yahoo! Slurp
  • 有道蜘蛛:YoudaoBot,YodaoBot(两个都有)
  • 搜狗蜘蛛:Sogou News Spider
  • MSN蜘蛛:msnbot,msnbot-media
  • 必应蜘蛛:bingbot
  • 一搜蜘蛛:YisouSpider
  • Alexa蜘蛛:ia_archiver
  • 宜搜蜘蛛:EasouSpider
  • 即刻蜘蛛:JikeSpider

Disallow
用于描述不希望被访问到的一个URL,这个URL可以是一条完整的路径,也可以是部分的,任何以Disallow开头的URL均不会被Robot访问到。

Allow
用于描述可以被访问到的一个URL,这个URL可以是一条完整的路径,也可以是部分的,一般用于被Disallow禁止的路径中的特例。

#
Robots.txt协议中的注释符。


实例

例一:
禁止所有搜索引擎蜘蛛抓取/bin/cgi/目录,以及/tmp/目录和/foo.html文件,设置方法如下:

User-agent: *
Disallow: /bin/cgi/
Disallow: /tmp/
Disallow: /foo.html

例二:
只允许名为slurp的搜索引擎蜘蛛抓取,而拒绝其他的搜索引擎蜘蛛抓取/cgi/目录下的内容,设置方法如下:

User-agent: *
Disallow: /cgi/
User-agent: slurp
Disallow:

例三:
禁止任何搜索引擎抓取我的网站,设置方法如下:

User-agent: *
Disallow: /

例四:
只禁止名为slurp的搜索引擎蜘蛛抓取,设置方法如下:

User-agent: slurp
Disallow: /

WordPress参考设置

新建一个txt文本,放到网站的根目录,设置可以参考下面这个:

User-agent: *
Disallow: /wp-admin/
Disallow: /wp-content/
Disallow: /wp-includes/
Disallow: /trackback/
Disallow: /comments/
Disallow: /attachment/
Disallow: /comments/feed
Disallow: /feed
Disallow: /*/feed
Disallow: /*/comment-page-*
Disallow: /*?replytocom=*
Disallow: /*/trackback
Disallow: /?s=*
Disallow: /*/?s=*\
Disallow: /wp-*.php
Sitemap: https://deepwinter.com/sitemap_index.xml
  1. Disallow: /wp-admin/Disallow: /wp-content/Disallow: /wp-includes/
    用于告诉搜索引擎不要抓取后台程序文件页面。
  2. Disallow: /*/comment-page-*Disallow: /*?replytocom=*
    禁止搜索引擎抓取评论分页等相关链接。
  3. Disallow: /category/*/page/Disallow: /tag/*/page/
    禁止搜索引擎抓取收录分类和标签的分页(因为不同 WordPress 站点可能会有所不同,大家可以根据需要添加)。
  4. Disallow: /*/trackbackDisallow: /trackback/
    禁止搜索引擎抓取收录trackback等垃圾信息。
  5. Disallow: /feedDisallow: /*/feedDisallow: /comments/feed
    禁止搜索引擎抓取收录feed链接,feed只用于订阅本站,与搜索引擎无关。
  6. Disallow: /?s=*Disallow: /*/?s=*\
    禁止搜索引擎抓取站内搜索结果。
  7. Disallow: /attachment/
    禁止搜索引擎抓取附件页面,比如毫无意义的图片附件页面。
  8. Disallow: /wp-*.php
    禁止搜索引擎抓取Wordpress网站根目录的以wp开头的文件。
  9. Sitemap: http://yourdomain.com/sitemap.xml
    这个就是为了方便搜索引擎利用的网站地图,具体的根据自己网站需要添加。

参考文章:
https://www.haoht123.com/381.html
https://zhangzifan.com/t/5425.html

如果觉得我的文章对您有用,请随意赞赏。您的支持将鼓励我继续创作!

发表评论

电子邮件地址不会被公开。 必填项已用*标注