网站建设好了,当然是希望网页被搜索引擎收录的越多越好,但有时候我们也会碰到网站不需要被搜索引擎收录的情况。要启用一个新的域名做镜像网站,主要用于ppc
的推广,这个时候就要想办法屏蔽搜索引擎蜘蛛抓取和索引我们镜像网站的所有网页。因为如果镜像网站也被搜索引擎收录的话,很有可能会影响官网在搜索引擎的权重。
以下列举了屏蔽主流搜索引擎爬虫(蜘蛛)抓取/索引/收录网页的几种思路。注意:是整站屏蔽,而且是尽可能的屏蔽掉所有主流搜索引擎的爬虫(蜘蛛)。
1、通过
robotstxt 文件屏蔽
可以说
robotstxt 文件是最重要的一种渠道(能和搜索引擎建立直接对话),给出以下建议:
useragent
baiduspider
disallow
/
useragent
googlebot
disallow
/
useragent
googlebotmobile
disallow
/
useragent
googlebotimage
disallow/
useragent
mediapartnersgoogle
disallow
/
useragent
adsbotgoogle
disallow
/
useragentfeedfetchergoogle
disallow
/
useragent
yahoo slurp
disallow
/
useragent
yahoo slurp china
disallow
/
useragent
yahooadcrawler
disallow
/
useragent
youdaobot
disallow
/
useragent
sosospider
disallow
/
useragent
sogou spider
disallow
/
useragent
sogou web spider
disallow
/
useragent
msnbot
disallow
/
useragent
iaarchiver
disallow
/
useragent
tomato bot
disallow
/
useragent
disallow
/
2、通过
meta tag 屏蔽
在所有的网页头部文件添加,添加如下语句:
<meta name='robots' content='index,follow'
/>:可以抓取本页,也可以顺着本页继续索引别的链接
<meta name='robots' content='noindex,follow'
/>:禁止抓取本页,但可以抓取跟踪本页的其它链接
<meta name='robots'
content='index,nofollow'/>:可以抓取本页,禁止抓取和跟踪本页的其它链接
<meta name='robots' content='noindex,nofollow'
/>:禁止抓取本页,禁止抓取和跟踪本页的其它链接
<meta name='robots' content='noarchive' />:禁止搜索引擎建立快照
3、通过服务器(如:linux/nginx
)配置文件设置
直接过滤
spider/robots 的ip 段。
关键词不稳如何来解决因seo行业特性获取高质量链接的有效途径网站优化是为什么?什么样的网站更值得用户关注?企业网站选择SEO优化外包的原因阐述企业网站SEO优化的价值与劣势为什么网站收录不稳定?如何巧用转化漏斗,提高信息流推广优化效果?移动端怎么进行百度搜索引擎优化?