Robot.txt用法详解及robot.txt问题汇总

发布时间:2024-02-09 点击:86
今天小编要分享的内容就是文件优化。做网站优化的人应该都知道robots.txt吧,我们可以通过它直接与搜索引擎蜘蛛对话,告诉蜘蛛哪些内容可以抓取,哪些内容不能抓取。这和我们今天要说的文件优化相关。
一、站内优化
robot.txt用法详解及robot.txt问题汇总
(1)为什么设置robots.txt?
在进行seo操作的时候,我们需要告诉搜索引擎哪些页面重要哪些页面不重要,重要的页面让蜘蛛进行抓取,不重要的页面进行屏蔽可以减少网站服务器的负担。
(2)一些常见的问题和知识点
蜘蛛在发现一个网站的时候,是抓取网站的robots.txt文件(当然官方上是这么说的,有时候也会出现不遵守的情况);
建议所有的网站都要设置robots.txt文件,如果你认为网站上所有内容都是重要的,你可以建立一个空的robots.txt文件;
(3)在robots.txt文件中设置网站地图
你可以在robots.txt中添加网站的地图,告诉蜘蛛网站地图所在的地址。
(4)robots.txt的顺序
在蜘蛛协议中,disallow与allow是有顺序的,这是一个非常重要的问题,如果设置错误可能会导致抓取错误。
引擎蜘蛛程序会根据个匹配成功的allow或disallow行确定是否访问某个url,一个例子可以让你更清楚明白:
user-agent:*2.allow:/seojc/bbs3.disallow:/seojc/这个情况下,蜘蛛/seojc/bbs目录可以正常抓取,但/seojc/目录的文件无法抓取。通过这种方式可以允许蜘蛛访问特定目录中的部分url。
我们对调下位置观察一下。
user-agent:*2.disallow:/根目录下的文件夹/3.allow:/seojc/bbs/seojc/目录出现在行,禁止抓取目录下的所有文件,那么第二行的allow就无效,因为行中已经禁止抓取seojc目录下的所有文件,而bbs目录正好位于seowhy目录下。因此匹配不成功。
(5)robots.txt路径问题
在蜘蛛协议中,allow和disallow后面可以跟两种路径形式,即链接、相对链接。链接就是完整的url形式,而相对链接只针对根目录。这是记住。
(6)斜杠问题
disallow:/seojc表示禁止抓取seoic这个目录下的所有文件,如:seojc.1.html、seojc/rmjc.php都不允许抓取;
disallow:/seojc/表示禁止抓取seojc这个目录下的文件,即允许抓取seojc.1.html,但是不允许抓取seojc/rmjc.php。


发布外链应当注意哪些问题?怎么去处理?
BAT变成了百度面临出局,新格局的网络营销怎么做?
网站排名长期优化不到首页?你反思过seo优化细节吗?
哪些方面可以提高网站关键词密度?
伪静态的url和动态的url哪个更利于优化
深入设置网站TDK标签,着手布局关键词进阶
高端品牌网站的高级色彩搭配方案
根据实际优化经验做企业网站更容易引流