robots.txt文件的写法
user-agent: 这里的代表的所有的搜索引擎种类,是一个通配符
disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
disallow: /require/ 这里定义是禁止爬寻require目录下面的目录
disallow: /require/ 这里定义是禁止爬寻require目录下面的目录
disallow: /abc 这里定义是禁止爬寻abc整个目录
disallow: /cgi-bin/.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的url(包含子目录)。
disallow: /? 禁止访问网站中所有的动态页面
disallow: .jpg$ 禁止抓取网页所有的.jpg格式的图片
disallow:/ab/adc.html 禁止爬去ab文件夹下面的adc.html所有文件
user-agent: 这里的代表的所有的搜索引擎种类,是一个通配符
allow: /cgi-bin/这里定义是允许爬寻cgi-bin目录下面的目录
allow: /tmp 这里定义是允许爬寻tmp的整个目录
allow: .htm$ 仅允许访问以".htm"为后缀的url。
allow: .gif$ 允许抓取网页和gif格式图片
在这个例子中,该网站有三个目录对搜索引擎的访问做了限制,即搜索引擎不会访问这三个目录。
需要注意的是对每一个目录必须分开声明,而不要写成 “disallow: /cgi-bin/ /tmp/”。
user-agent:后的具有特殊的含义,代表“any robot”,所以在该文件中不能有“disallow: /tmp/” or “disallow:.gif”这样的记录出现。
user-agent:
disallow: /cgi-bin/
disallow: /tmp/
disallow: /~joe/
robot特殊参数:
允许 googlebot:
如果您要拦截除 googlebot 以外的所有漫游器访问您的网页,可以使用下列语法:
user-agent:
disallow:/
user-agent:googlebot
disallow:
googlebot 跟随指向它自己的行,而不是指向所有漫游器的行。
什么叫整站优化(网站整站优化推广方案)图片优化技巧,如何做好SEO图片优化?URL深度和网站权重有关吗?内页的排名怎么去做好呢?网站进行改版要知道些什么宣传类型的网站要怎样建设呢电商类型的网站建设究竟是怎么样的一个极具吸引力的健身网站应该这样做