详谈robots.txt写法规则

发布时间：2024-08-29 点击：66

搜索引擎robots.txt规则，是放置在网站根目录下robots.txt文本文件，在文件中可以设定搜索引擎蜘蛛爬行规则。设置搜索引擎蜘蛛spider抓取内容规则。
首先要创建一个robots.txt文本文件，放置网站的根目录下，下面就开始编辑设置robots.txt协议文件：
①robots.txt允许所有搜索引擎蜘蛛抓取所以目录文件，如果文件无内容，也表示允许所有的蜘蛛访问，设置代码如下：
user-agent: *
disallow:
或者
user-agent: *
allow: /
②robots.txt禁止某个搜索引擎蜘蛛抓取目录文件，设置代码如下：
user-agent: msnbot
disallow: /
例如想禁止msn的蜘蛛抓取就设为，msnbot代表msn的蜘蛛，如果想禁止其他搜索引擎就更换蜘蛛名字即可，其他蜘蛛名字如下：
百度的蜘蛛：baiduspider
google的蜘蛛： googlebot
腾讯soso:sosospider
yahoo的蜘蛛：yahoo slurp
msn的蜘蛛：msnbot
altavista的蜘蛛：scooter
lycos的蜘蛛： lycos_spider_(t-rex)
③robots.txt禁止某个目录被搜索引擎蜘蛛抓取，设置代码如下：
user-agent: *
disallow: /目录名字1/
disallow: /目录名字2/
disallow: /目录名字3/
把目录名字改为你想要禁止的目录即可禁止搜索引擎蜘蛛抓取，目录名字未写表示可以被搜索引擎抓取。
④robots.txt禁止某个目录被某个搜索引擎蜘蛛抓取，设置代码如下：
user-agent: 搜索引擎蜘蛛名字说明(上面有说明蜘蛛的名字)
disallow: /目录名字/说明(这里设定禁止蜘蛛抓取的目录名称)
例如，想禁目msn蜘蛛抓取admin文件夹，可以设代码如下：
user-agent: msnbot
disallow: /admin/
⑤robots.txt设定某种类型文件禁止被某个搜索引擎蜘蛛抓取，设置代码如下:
user-agent: *
disallow: /*.htm说明(其中“.htm”，表示禁止搜索引擎蜘蛛抓取所有“htm”为后缀的文件)⑥robots.txt充许所有搜索引擎蜘蛛访问以某个扩展名为后缀的网页地址被抓取，设置代码如下:user-agent: *
allow: .htm$说明(其中“.htm”，表示充许搜索引擎蜘蛛抓取所有“htm”为后缀的文件)
⑦robots.txt只充许某个搜索引擎蜘蛛抓取目录文件，设置代码如下：
user-agent: 搜索引擎蜘蛛名字说明(上面有说明蜘蛛的名字)
disallow:

微营销中有哪些高效的引流方法
菏泽网站优化从用户分类程度来评测seo锁定精确用户数量
为什么代码保护，重构比较难
短视频变现的方法
如何帮助新崛起的网站快速提升优化排名呢？
网站建设的色彩搭配
赢得客户理解信任是开展网站建设服务的首要工作
小程序都能用来占座、充饭卡和选课了，你还敢说微信上都是中老年人？

上一篇：app设计技巧:三招解除用户等待焦虑

下一篇：写给大数据从业者：数据科学的5个陷阱与缺陷