什么是robots协议
- robots.txt是一个纯文本文件,在这个文件中网站管理者可以声明该网站中不想被搜索引擎访问的部分,或者指定搜索引擎只收录指定的内容。
- 当一个搜索引擎(又称搜索机器人或蜘蛛程序)访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,那么搜索机器人就沿着链接抓取。
robots协议语法
User-agent
定义搜索引擎,如
User-agent: *(定义所有搜索引擎)
User-agent: Baiduspider (定义百度搜索引擎,只允许百度蜘蛛爬取)
Disallow
用来定义禁止蜘蛛爬取的页面或目录,如
Disallow: /(禁止蜘蛛爬取网站的所有目录 “/“ 表示根目录下)
Disallow: /tags (禁止蜘蛛爬取tags目录)
Allow
用来定义允许蜘蛛爬取的页面或子目录,如
Allow: /tags(允许蜘蛛爬取tags目录)
匹配符 “$”
匹配URL结尾的字符
通配符 “*”
匹配0个或多个任意字符
添加robots协议
在
source
文件夹下新建robots.txt
,添加如下内容:1
2
3
4
5
6
7
8
9
10
11# welcome to : www.ducknew.cf
User-agent: *
Allow: /
Allow: /archives/
Allow: /categories/
Allow: /tags/
Allow: /about/
Disallow: /links/
Sitemap: http://ducknew.cf/sitemap.xml
Hexo之添加robots协议
不要打赏,只求关注呀QAQ
- 本文链接: http://ducknew.cf/posts/162c4d47/
- 版权声明: 本博客所有文章除特别声明外,均采用 CC BY-NC-SA 3.0 许可协议。转载请注明出处!