您现在的位置: 365建站网 > 365学习 > SEO之站内优化:网站结构优化

SEO之站内优化:网站结构优化

文章来源:365jz.com     点击数:153    更新时间:2018-02-03 23:09   参与评论

SEO之站内优化:网站结构优化

良好的网站结构不仅可以引导Spider快速高效地抓取全站内容,还可以辅助站内权重的合理导向,最重要的是,良好的网站结构是用户体验的基础。虽然这部分内容在网络和其他SEO书籍中已经被讨论得比较多了,但确实还是有很多需要注意的地方值得讨论一下。这里不再赘述Flash网站不利于优化之类的话题,仅挑选一些业内经常讨论的、疑惑比较多的点进行讨论。

5.1.1 URL优化注意事项

并不是所有的SEO人员都能在工作中接触到URL优化。不少公司网站不需要新的URL规则,也不需要改版重新设计URL,就算设计URL结构,一般也都是SEO负责人来设计的,基层SEO人员并不会实际操作URL的设计和优化。但是为了美好的明天,或者如果自己拥有个人站试验,也要对这部分内容进行详细的了解。首先SEO人员都知道的URL设计原则是越短越好,参数越少越好,下面针对URL设计中的几个小问题进行讨论。

1.URL目录层级不要过多

有SEO基础的朋友应该都了解网站的物理结构和逻辑结构。一般认为物理结构上,网站URL涉及的目录层级越少越好,即网页在物理结构上越靠近首页越好(在浏览器中访问网页时,动态生成的URL上体现出来的结构和文件在服务器上存放的真实位置是没有什么区别的)。可以这样比喻,目录层级类似于家族辈分,层级越多辈分越低,

不考虑其外链的情况下,从族长处分得的地位就越低,也就是页面权重越低。很多大型网站由于历史或者其他原因都有很复杂的物理层级结构,理论上这不仅会降低页面本身通过层级传递获得的“天生的权重”,也不利于网页链接在站内站外的引用。

比如以下几个老牌网站的URL结构,充满了“层次感”。

央视网:http://military.cntv.cn/program/jsbd/20121101/107910.sHTML

河北新闻网:http://hebei.hebnews.cn/2012-11/04/content_2921856.htm

合肥在线:http://news.hf365.com/system/2012/10/18/012681457.shtml

当然这是强势媒体网站,使用的一般都是比较久远的CMS文章系统。当初设计时就没有考虑到URL结构问题,只是管理人员按自己意愿进行设置的。比如这三个URL中的日期,有的占了一层,有的占了两层,有的占了三层,除了按日期归档的目录层级以外,还有不必要的系统目录。其实完全可以把文章都放到一个固定分类的一级目录中,如有必要进行日期归档的话,单独设计日期归档页面就可以了,没有必要把文章都放到多层日期归档目录的下面。这些媒体网站有着自己的流量渠道,也可能不太注重或者还没有开始注重SEO。

如果营销型网站也这样来设计URL结构,那么可能在最基础的部分就比竞争对手差了一些。同样的网站权重、同样的内部链接设计、同样的外链质量和数量,但是你的目录层级多,家族辈分低,出门竞争的强度也会相对弱一些。比如,下面是搜房网和中关村在线的URL结构设计示例。

搜房网租房房源中的交叉组合查询页面的链接,全部参数有10多个,搜房网通过伪静态把URL结构控制在了两层以内:

http://zu.gz.soufun.com/house-a073-b01215/a21-c20-d2500-g22-n20-o25-p21-r22-s25-t22-u22-n31/

中关村在线平板电脑产品库的交叉查询页面的链接,全部参数也超过10个了,和搜房网一样,也是通过伪静态把URL的目录层级控制在了两层以内:

http://detail.zol.com.cn/tablepc_index/subcate702_98_list_s3596-s1978-s2780-s2397-s2526-s3092-c79_1.html

所以如果需要设计URL结构,目录层级应该控制一下。尽量使网站趋于扁平化,不要增加不必要的目录层级。现在常见的URL结构设计为:目录页和专题页URL的设计层级都尽可能少,甚至很多人会设计成全部使用一级目录;内容页一般放在一级目录下,甚至直接放在域名下,而不是放在分类目录下,目录页面往往只是对内容的归类列表页而已。例如一呼百应网www域名下的信息页URL及该信息所隶属的分类目录URL:

http://www.youboy.com/s4618198.html
http://www.youboy.com/cp/wujingongju/

2.动态URL并不一定需要伪静态

在SEO诊断工作中,很多朋友喜欢先检查对方网站是不是动态URL,如果是动态URL,就会毫不思索地建议对方做伪静态。这其实是不合理的,有的网站所有URL中只会有一个动态参数,只是不同类型页面URL的动态参数不同而已。做不做伪静态都是可以的,搜索引擎都会正常抓取,也并不会因为做了伪静态而提升多少用户体验。很多博客系统就是这样,比如WordPress的URL结构。

文章页:http://www.pizirui.com/?p=591

目录页:http://www.pizirui.com/?cat=3

单页面:http://www.pizirui.com/?page_id=38

文章归档页面:http://www.pizirui.com/?m=201208

这样页面URL已经很简单了,就不需要进行伪静态了。除非有的朋友喜欢在URL中加几个关键词,需要进行伪静态的设置,否则完全没有必要做伪静态的工作。使用开源CMS系统做伪静态一般都会有官方规则,如果是找建站公司做网站,那么就需要自己或重新找建站公司来写伪静态规则,虽然参数少的情况下对技术要求并不高,但也是需要技术支持的。没必要的工作何必浪费精力呢?对于站内参数复杂的网站,做伪静态还是有必要的。比如商城类、房产类网站都有很多交叉查询的参数,房产类网站的参数经常会有10个以上。其实如果站内参数设置没有问题也不必进行伪静态,不过大部分网站为了使得URL简洁、目录层级少,也会精心设计伪静态规则。有必要提醒的是超过10个参数的伪静态就不能通过简单映射完成了,还需要其他技术辅助。如上面提到的搜房网和中关村在线的链接结构。

以前之所以强调把动态URL转化成静态URL,是因为原先搜索引擎比较排斥动态URL的多参数。有很多网站设置了很多动态参数使得Spider永远抓不完这些页面,并且这些页面的内容可能是完全重复的,或者程序出现Bug产生无数动态链接使得Spider陷入死循环。现在,随着站长们SEO意识的提高,以及搜索引擎自身技术的提高,很少会出现把Spider引入无底洞的情况了。站长会经常检查网站是否有链接错误或无效URL产生,Spider也会对各种URL有选择性地抓取,所以以前因为动态URL而产生的Spider抓取问题,现在已经很少了。

另外,现在百度还会自动去除URL中的无效参数。如图5-1所示,千品网的大部分URL的末尾都加上了追踪用户行为的参数,并且原来千品网并没有设置robots文件,但是百度并没有收录这些带参数的URL,而收录了去除参数后的URL。当时由于千品网站内只有带参数的URL,反而真实的URL并没有直接链接。千品网的SEO负责人还和笔者进行了多次讨论,首先这些参数是运营人员要求加的,再者也疑惑为什么百度没有收录这些带参数的URL,反而收录了不带参数的URL,因为真实的URL当时在网络是不存在的。就此,笔者专门咨询了百度站长平台的运营人员,对方说明“百度会自动尝试去掉URL中的一些无效参数”。后来千品网使用Sitemap把真实URL提交到了百度,并且以防万一,配置了robots文件来禁止Spider抓取站内动态URL。

图5-1 千品网北京站首页部分源代码

由此可见现在搜索引擎对动态URL的处理还是比较智能的,所以如果网站内的动态参数不多,网站结构不复杂,完全没有必要纠结于做伪静态。当然必要的URL优化工作还是要做的,不可能完全寄希望于搜索引擎,如果搜索引擎什么问题都能解决,那么SEO就没有存在的意义了。对于千品网的这类URL问题,也有不少网站百度没有处理好。如图5-2所示,不知道黄页88网首页为什么会有“?

tob0odt6ll=WGmDSiNhRV”这样的参数,并且这个参数并不会改变网页内容,然而百度还是收录了,可见完全依靠百度自己判断URL中的参数是否有意义是不靠谱的。

图5-2 百度收录含有无效参数的URL

很多拿万年历系统来举例的SEO人员,表示万年历系统会引导Spider无限地抓取下去,不仅造成站内资源浪费,也会浪费Spider的抓取。先不谈现在的搜索引擎会不会玩命地抓取这些URL,但作为站长和SEO人员,除非你用万年历系统来归类内容,否则在该功能上线之初就应该屏蔽搜索引擎对这些URL的抓取。

综上,如果是出于方便Spider抓取的目的,并不是所有动态URL的网站都需要静态化。如果你的网站系统庞大或者拥有和搜房、中关村在线类似的多参数URL,那么就最好静态化处理一下;如果你的网站系统很简单,只有一两个参数,就没有必要纠结伪静态问题。对于动态参数产生的页面重复问题,不是通过伪静态来解决的,而是需要通过技术去除或robots.txt文件及其他标签设置来解决的;对于由程序BUG生成无限参数造成蜘蛛陷阱的网站,使用伪静态也未必能解决问题,还是需要站长和SEO人员时常分析网站日志,修补Bug。当然伪静态还可以把动态参数映射成关键词拼音或英文单词,甚至可以是中文关键词,有些网站出于这方面考虑,也可以推进网站URL的静态化。

SEO人员在进行网站优化方案写作时,最好根据网站实际情况进行伪静态建议。不要一旦发现对方是动态URL就提出做伪静态的建议,除非你认为这样做SEO方案显得你更加专业。

3.URL中最好可以包含关键词

如图5-3所示为百度搜索“ipad3”的结果,百度把URL中的“ipad3”也进行了匹配加粗。所以在URL中布局关键词也可以增加网页和搜索词的相关度,很多大型网站甚至在URL中使用了大量中文。

现在双拼和三拼域名炒得这么火,域名本身所带来的自然流量也是提升域名价值的一个重要因素。这种域名对在搜索引擎上优化对应关键词也有一定的促进作用。


图5-3 百度搜索“ipad3”

4.中文URL问题

经百度官方人员确认,只要URL不是过长,百度对中文URL的收录就没有问题。如图5-4所示为在百度中使用inurl指令搜索URL中含有“联想笔记本”的网页。可见有不少网站在URL中使用了中文,并没有影响百度的收录。在URL中使用中文关键词可以加强网页和关键词的匹配程度,不过现在有一些网站认为百度对中文URL收录可能不够友好,而采用了拼音、英文单词或者拼音首字母形式的URL。

 

程度上降低了用户体验,也不便于分享和外链建设。并且如果是非知名的网站,中文URL过多,很容易被用户认为是垃圾站点,所以不宜对站内重要页面使用中文URL。对于TAG聚合页面倒是不必担心中文

URL问题,现在很多网站都使用TAG词库来作弊抢夺流量。可见搜索引擎对中文URL收录还是很友好的,不过因为网站没有内容而凑关键词,很多使用TAG词的网站都被百度惩罚了。

因此中文URL是可以使用的,但是要综合考虑,它可以增加页面和关键词的相关度,也会降低用户体验度,同时,如果自身内容不到位,还有可能被百度处理TAG词作弊时所误伤。

5.相对路径和绝对路径

在网站设计时,有不少朋友会考虑相对路径和绝对路径对SEO的影响。其实不论使用相对路径还是使用绝对路径,搜索引擎都可以正常抓取。两种路径各自的优缺点如下。

绝对路径优缺点:

(1)如果你的文章内容被转载或采集且对方比较懒,没有除去你加的链接,就会给你的网站增加一些外链。

(2)如果你的网站没有做301,并且你把带www和不带www的域名都解析到一个站点,可能会产生网址规范化问题。使用绝对路径,可以告诉搜索引擎你使用是哪个版本的URL,防止搜索引擎自动选择你不想让它收录的URL版本。比如你把domain.com和www.domain.com解析到了一个站点,你想让搜索引擎收录www.domain.com下的内容。但是你没有做或者不能做301,并且你使用的是相对路径的URL,那么搜索引擎从domain.com进入网站网页体积都不会太大,都可以被搜索引擎完整抓取。所以相对来说绝对路径更好一些。
 

6.字母小写且不要用特殊符号

URL中的字母全部小写,便于人工输入,不会因为大小写掺杂产生错误。并且Linux系统服务器是区分大小写字母的。在一些流量统计工具中也会把有大小写问题的同一个URL当成两个URL来统计,这增加了流量分析的难度。如无必要,不要在URL中使用特殊符号,否则可能会出现不可预知的错误。并且在站外引用链接时,如果URL中包特殊符号,很可能导致被引用的链接解析不完整。

7.目录最后的斜杠问题

有很多朋友发现百度同时收录了网站URL最后带“/”与不带“/”的两种形式。如图5-5和图5-6所示,两个URL的快照并不同,可见百度把两个URL当成了不同的页面,曾经一度出现过两种URL共同存在某个关键词的搜索结果首页。

图5-5 带斜杠的URL被收录


图5-6 不带斜杠的URL也被收录

且不论百度会不会把这两种URL当成重复页面对待,站长和SEO人员自己首先就应该先把URL进行统一。如果是目录那么就用正常的目录形式,如果是文件那么就用文件形式。当用户或Spider访问

www.domain.com/abc时,部分服务器发现网站根目录下没有abc这个文件,那么就会报404错误,也可能会自动301或302跳转到www.domain.com/abc/上,也有部分服务器是两个URL都可以正常访问的。不论服务器使用哪种处理方式,站长和SEO人员最好都要保持站内URL的统一,不至于内链和外链都被分散到两种URL上去。因为百度指不定会在排名中使用哪个版本的URL。另外,目录URL和目录首页文件的URL也有同样的问题,同样需要网址规范化,做好301及站内只使用一个版本的URL,例如www.domain.com/abc/和www.domain.com/ abc/index.html。

《百度搜索引擎优化指南》中对于网站URL的建议如下。

(1)网站中同一网页只对应一个URL,如果网站上多种URL都能访问同样的内容,会有如下危险:

·搜索引擎会选一种URL为标准,可能会和正版不同;

·用户可能为同一网页的不同URL做推荐,多种URL形式分散了该网页的权重。

如果你的网站上已经存在多种URL形式,建议按以下方式处理:

·在系统中只使用正常形式URL,不让用户接触到非正常形式的URL;

·不把Session ID、统计代码等不必要的内容放在URL中;

·不同形式的URL,301永久跳转到正常形式;

·防止用户输错而启用的备用域名,301永久跳转到主域名;

·使用robots.txt禁止BaiduSpider抓取你不想向用户展现的形式。

(2)让用户能从URL判断出网页内容以及网站结构信息,并可以预测将要看到的内容。


以百度空间为例,URL结构中加入了用户ID信息,用户在看到空间的URL时,可以方便的判断是谁的空间。URL结构中还加入了Blog、Album等内容信息,用户可以通过URL判断将要看到的内容是一篇博客,还是一个相册。

(3)URL尽量短。

长长的URL不仅不美观,用户还很难从中获取额外有用的信息。另一方面,短URL还有助于减小页面体积,加快网页打开速度,提升用户体验。

首先要明白制作网站地图的目的是什么?比如针对Spider抓取的XML地图,XML网站地图的制作可以方便Spider对全站重要页面的抓取。这是SEO人员熟悉得不能再熟悉的理论了。如果你的网站结构比较复杂,或者你有资源处于多级目录下,Spider自己不容易抓取全站的内容,此时你是需要XML地图引导一下Spider的;如果你只是一个小型博客站点,或者只有几十个网页的公司网站,网站结构没问题,链接都可以正常抓取的话,Spider很容易就把你网站所有内容都抓一遍了,此时就没有必要制作XML地图了。所以并不是所有的网站都必须使用XML地图,做SEO的朋友也不需要把制作XML地图当做SEO优化方案的必加建议。

对于HTML地图,一般认为是方便用户浏览网站才进行制作的,和XML地图一样,结构复杂的网站需要,结构简单的网站并不需要。

如果一个网站所有频道和重要内容都在首页上有链接了,那么再单独做一个HTML的地图干什么呢?如果网站结构复杂,频道众多,网站首页上不可能放这么多重要页面的链接,此时就需要一个HTML的地图来方便引导用户浏览网站。

如图5-7所示为搜房网的HTML地图,搜房网有太多重要的目录和页面了,在网站首页不可能有这么多空间来放这么多链接,即使全放到首页,用户体验也会非常糟糕,所以这个HTML地图对用户有很好的引导作用,方便用户快速找到自己所需要浏览的频道、目录、专题或详细信息页面。


图5-7 搜房网HTML地图

2.不推荐使用站外XML地图生成工具

如果确定网站的确需要制作XML地图引导一下Spider,就要考虑怎样制作这个XML地图了。对于XML地图的格式,网络上有很多介绍,百度站长平台的“推荐阅读”区Sitemap工具的介绍中也有详细讲解,在此就不多做介绍了。这里重点谈一下怎么来做这个XML地图。

很多朋友在网上寻找制作XML地图的工具,网上也确实有很多相关工具。这些工具一般需要你提交一个页面作为入口,然后模拟

Spider抓取你的网站。笔者不认为这些工具的Spider比搜索引擎的

Spider还要强大,这些工具的Spider能够抓取到的页面搜索引擎基本上都可以抓取到。并且对于网站内隐藏比较深的页面,这些工具也不

一定能够抓全,所以不推荐使用站外XML地图生成工具。

作为站长或SEO人员,应该对自己的网站了如指掌。如果想制作

XML地图,最好根据网站内容和数据库字段批量生成有效网页的URL。

现在的网站差不多都是动态程序了,网站URL一般都是数据库驱动的。

所以大家根据数据库的字段和网站URL结构进行对比组合批量生成就可以了,去除那些不希望被搜索引擎抓取的参数,只提取有效参数,才能制作出高质量的XML地图。这样的XML地图才可以方便Spider抓取正常情况下抓取不到的内容,方便搜索引擎抓取全站的内容。使用外部工具抓自己的网站不但消耗自己的服务器和带宽资源,抓取到的URL可能还会包含很多垃圾页面,更会降低这种XML地图的价值。

不过,如果确实没有能力根据数据库批量生成有效页面的URL,通过日志分析又发现有太多站内页面迟迟没有被搜索引擎抓取,本着“有总比没有强”的目的也可以使用站外工具制作一个XML地图提交到搜索引擎,在制作过程中及提交地图之前一定要检查一下地图中URL是否有错误,是否存在垃圾链接过多等问题。不提交Sitemap就只能等待搜索引擎发现网站的URL后才抓取,提交Sitemap后就是把网站的URL提交给搜索引擎直接抓取,提交Sitemap就相当于帮助搜索引擎省去了发现URL的步骤,相对来说会提升网站内网页被搜索引擎抓取效率。至于生成工具,Site Map Maker、SiteMap Builder等都是相对比较不错的,有需要的朋友可以了解一下。

所以,如果网站结构比较简单,网页也比较少,就没有必要纠结是否需要制作和提交网站地图;如果网站内页面比较多且有一定的技术能力,就可以按照数据库中的字段来批量为有内容的页面生成网站地图;如果网站内页面比较多,但又没有能力通过技术手段生成高质量的网站地图,那么也可以通过站外生成工具来制作,不过一定要严格检查生成URL的正确性和质量,如果提交太多垃圾页面的URL,就等于直接告诉搜索引擎你的站点内容质量不怎么样了。

3.网站地图入口和格式问题

对于XML版的地图,Google Webmaster和百度站长平台都已经有专门的提交入口。对于HTML版的地图,最好在全站的页脚都推荐一下,因为这是主要为用户服务的,要让用户随时都可以找到网站地图,从而更方便地浏览网站。对于Google,还可以在robots.txt文件中声明站点地图的位置,且Google可以支持单个地图文件含URL的上限为50000条,文件大小为50MB。而百度暂时只支持通过站长平台提交网站地图,不支持robots.txt文件声明,所支持的地图文件URL条数上限也为50000条,不过文件大小上限为10MB。另外Google和百度都支持XML形式之外的纯文本地图,但是Google只支持UTF-8编码,百度则支持UTF-8和GBK两种编码。

所以,如果使用同一套地图文件同时提供给Google和百度,需要让地图文件同时符合两边的要求:单个文件的大小不要超过10MB,所含URL不要超过50000条;当使用纯文本文件时,要使用UTF-8编码;两边都支持经过gzip压缩的地图文件;两边都支持地图索引文件提交。

5.1.3 robots.txt相关问题及用途

robots.txt文件是引导搜索引擎Spider抓取网站的文件。合理地使用robots.txt文件可以防止自己网站内诸如后台登入之类的秘密页面被搜索引擎抓取索引和公布,还可以屏蔽搜索引擎对网站非内容页面的抓取,只让搜索引擎抓取和收录能够带来排名和流量的页面。在

robots.txt文件的使用中有下面几个问题值得讨论一下。

1.要不要使用robots.txt

对于有需要屏蔽Spider抓取的内容的网站,当然是需要robots.txt

文件的。但是对于希望把内容全部开放给Spider的网站来说robots.txt

就没有意义了,那么此时还需不需要这个robots.txt文件呢?

2012年11月1日,百度、360和搜狗等国内主流搜索引擎签署了《互联网搜索引擎服务自律公约》,表态全部支持robots协议。搜索引擎支持robots协议,也就是在抓取网站内容之前需要先抓取网站的robots.txt文件。

如果网站不设置robots.txt文件,正常情况下服务器会返回404状态码,但是也有些服务器会返回200或者其他错误。针对返回404状态码的服务器,就不需要做特殊处理了。因为搜索引擎抓取一两次都发现网站并没有设置robots.txt文件,在一定周期内就不会再进行抓取了,而是正常抓取网站内容。对于返回404状态码之外的信息的服务器,最好重新配置一下服务器,设置为对访问服务器上不存在的URL

或文件的用户返回404状态码。如果不能进行配置,那么就在网站根目录下放一个空设置或允许抓取全部内容设置的robots.txt文件,以防服务器对Spider做出错误的引导。

有些人认为如果允许Spider抓取全站内容,还在服务器上放一个robots.txt文件有可能会浪费Spider的抓取次数,毕竟Spider对一个网站的抓取次数是有限的。其实这种担心是不必要的,不论你设置不设置robots.txt文件,搜索引擎都会频繁地抓取这个文件,因为搜索引擎并不知道你以后是不是要设置或者更新这个文件,为了遵守互联网协议,就只能频繁地对此文件进行抓取。并且搜索引擎每天只抓几次robots.txt文件,并不会造成对网站抓取次数的浪费。

2.不同搜索引擎对robots协议的支持并不相同

虽然主流搜索引擎都声明支持robots协议,但是对于robots.txt文件中的限制语句可能会有不同的匹配解读。在本书后续对Google Webmaster的“已拦截的网址”介绍中,介绍了百度和Google对

robots协议匹配不同的地方。即“Disallow:/tmp”在百度中是不可以匹配“/tmpdaf”的,但是在Google中是可以匹配的。所以站长和SEO人员在配置robots.txt文件时,需要特别注意一下,最好使用通用的屏蔽语句,或者研究几个主流搜索引擎的官方帮助说明,针对不同的搜索引擎进行单独的屏蔽设置。

3.robots.txt可以声明网站地图

robots.txt文件除了有限制搜索引擎抓取的功能外,还可以声明网站地图的位置。这其实是Google所支持的一个功能,站长可以通过Google Webmaster直接向Google提交XML版本或纯文本的网站地图,也可以选择在robots.txt文件中添加一行声明:

Sitemap: http://example.com/Sitemap_location.xml


该声明和限制搜索引擎抓取的语句没有关系,可以放到文件中的任何位置。不过暂时只有Google支持,百度搜索工程师曾经表示不支持(如图5-8所示),并且现在百度在站长平台中有了专门的Sitemap提交入口,所以这个声明对百度不一定有效。不过由于robots.txt文件的特性,搜索引擎都必须频繁抓取此文件,所以在robots.txt文件中声明一下网站地图,单从促进搜索引擎对网站抓取方面来看,只会有益无害。

图5-8 百度表示不支持

4.robots meta 标签的使用

robots协议除可以在网站根目录使用robots.txt文件外,还可以使用meta标签。具体写法如下:

<meta name="robots" content="nofollow"><meta name="BaiduSpider" content="nofollow"><meta name="robots" content="noarchive"><meta name="BaiduSpider" content="noarchive">
nofollow会在后面进行详细的介绍,noarchive是禁止显示快照的意思,也就是当网友搜索到你的网站时,只能进入你的网站浏览内容,

不能通过搜索引擎的快照浏览你的网站的内容。使用meta标签中的nofollow可以使得搜索引擎不跟踪页面中的链接。值得一提的是在网络上和其他SEO书籍中提及的<meta name="robots"content="noindex">,百度是不支持的,在针对百度进行设置时,应该了解并注意到这一点(不过笔者试验也有一定的效果)。现在禁止百度收录某个页面只能使用robots.txt来实现,或者针对百度Spider返回404状态码,robots meta暂时还不可以,不过百度官方表示已经在计划支持noindex。

5.robots.txt的具体用途

一般都说可以使用robots.txt文件来屏蔽不想被搜索引擎抓取的页面,但是这些“不想被抓取的页面”一般都会有哪些呢?下面来举几个简单的例子。

(1)多版本URL情况下,非主显URL的其他版本。比如网站链接伪静态后就不希望搜索引擎抓取动态版本了,这时就可以使用robots.txt屏蔽掉站内所有动态链接。

(2)如果网站内有大量的交叉组合查询所生成的页面,肯定有大量页面是没有内容的,对于没有内容的页面可以单独设置一个URL特征,然后使用robots.txt进行屏蔽,以防被搜索引擎认为网站制造垃圾页面。

(3)如果网站改版或因为某种原因突然删除了大量页面,众所周知。网站突然出现大量死链接对网站在搜索引擎上的表现是不利的。

虽然现在可以直接向百度提交死链接,但是还不如直接屏蔽百度对死链接的抓取,这样理论上百度就不会突然发现网站多了太多死链接,或者两者同时进行。当然站长自己最好把站内的死链接清理干净。

(4)如果网站有类似UGC的功能,且为了提高用户提供内容的积极性并没有禁止用户在内容中夹杂链接,此时为了不让这些链接浪费网站权重或牵连网站,就可以把这些链接做成站内的跳转链接,然后使robots.txt进行屏蔽。现在有不少论坛已经这样操作了。

(5)常规的不希望被搜索引擎索引的内容,比如隐私数据、用户信息、管理后台页面等都可以使用robots.txt进行屏蔽。

以上就是robots.txt常见的功能。合理地使用robots.txt,不仅可以保护网站的隐私数据,还可以只给搜索引擎展现网站高质量的一面,同时也可以使得搜索引擎多多抓取其他允许抓取的页面。不过,站长和SEO人员要慎重考虑是否需要把后台地址写到robots.txt文件中,现在很多黑客都在频繁地扫描各个网站的后台地址,如果直接把后台地址写入到robots.txt中,也就相当于直接告诉黑客网站的后台地址了;还有,现在只是Google支持robots.txt文件声明Sitemap地址,百度并不支持,并且站长现在完全可以通过Google Webmaster提交Sitemap,所以使用robots.txt文件声明网站XML地图位置并没有太大的必要性。

现在有不少做采集的人都会通过robots.txt文件寻找网站的Sitemap,然后批量地提取目标内容的URL,如果站内有比较有价值的资源(例如关键词库等),就很容易被竞争对手钻空子。所以在制作robots.txt

文件时一定要综合考虑都需要写什么,而不能只站在SEO的角度思考问题。

另外,SEO人员不要被robots.txt文件本身原始的作用所限制,要将思维扩散一下,多多思考。比如为防止被搜索引擎抓到把柄,不让马可波罗网站首页的多级导航。

图5-10 马可波罗网多级导航

3.底部导航

原本此导航一般是提供网站介绍、投诉举报及联系方式等网页的入口。在网站注意做SEO工作之后,底部导航就会被添加上大量网站主推网页或者站内索引页的链接。由于用户对底部信息关注较少,底部导航就为SEO人员布局内链提供了很大的空间。不过应该注意底部导航链接个数,如果太多页面的底部导航代码体积占网页总体积过大,可能会被当成站内链接工厂,被搜索引擎认定为无实际内容的页面,造成网页不被收录的情况。如图5-11所示为马可波罗网为产品库索引和其他重要页面索引做的底部导航;图5-12为搜房网为各地区子站做的底部导航。



图5-11 马可波罗底部导航图5-12 搜房网底部导航


4.面包屑导航

面包屑导航是网站不可或缺的。对用户而言,可以让用户清楚地知道自己所浏览页面在网站中的位置。对于SEO而言,保证了整站各级页面结构上权重的流通导向:网页级别越高获得的内链支持越多,最底层的页面在结构上得到的内链支持是最少的。

在进行面包屑导航设计时,如果网页的上一级页面不是很重要,在网站首页已经有入口了,那么其面包屑中的链接就可以nofollow掉,比如一些网站中的“其他”分类。

如果一个网页分属两个频道,比如对于主题为“石家庄好利来”的页面,可以通过地区分类找到这个页面,也可以通过食品分类找到这个页面,此时就可以为页面设置双面包屑导航,可以并排在网页上方,也可以在网页内容的上下各设置一个。

如果当前页面是网站的子域名,那么最好不要把面包屑导航

图5-13 58同城北京站面包屑导航

的第一级设置为网站的首页,而要设置为子域名的首页。一般主导航或者Logo上都会有网站首页的链接,没必要为其再增加一个链接了。如图5-13所示为58同城北京站的面包屑导航。

最后再强调一点,网站导航最好都使用普通文本链接形式,不要使用Flash,JS,框架和ajax等不利于Spider抓取的形式。如果为了美观必须使用特殊的形式,那么在网页的其他地方,比如底部导航中做好文本导航链接。其实稍有SEO经验的朋友对此都熟记于心了,不过现在的确还有不少企业站和一些老牌地方新闻网站使用非文本链接的

形式。

《百度搜索引擎优化指南》对于网站导航的建议如下。

(1)为每个页面都加上导航栏,让用户可以方便地返回频道、网站首页,也可以让搜索引擎方便地定位网页在网站结构中的层次;(2)内容较多的网站,建议使用面包屑式的导航,这更容易让用户理解当前所处的位置。例如:网站首页 > 频道 > 当前浏览页面;(3)导航中使用文字链接,不使用复杂的Js或者Flash;(4)使用图片做导航时,可以使用Alt注释,用Alt告诉搜索引擎所指向的网页内容是什么。

其中第(4)条“使用图片做导航时,可以使用Alt注释,用Alt告诉搜索引擎所指向的网页内容是什么”,原来笔者以为这一点有误,但向百度站长平台PM求证了“图片导航链接中的图片ALT有描述链接的作用”。不知道百度会不会对导航类的链接单独处理,不过理论上说对于图片链接,Alt是对图片的描述,也就是图片的内容,链接锚文本和Title属性才是对链接的描述,不过Alt也可以间接描述链接。

站在SEO对链接进行描述的角度,笔者更加倾向于标签回归本意:使用链接Title来对链接进行描述,导航上的图片本身没有多少含义,没有必要设置Alt,但是为了防止图片加载失败而让用户对链接感到迷惑,还是有必要为图片设置Alt的。当然最好是直接使用文本链接,如果必须使用图片导航,那么图片Alt和链接Title就都设置上吧。

5.1.5 Cookie、登录浏览与SEO冲突的解决方法

有些网站为了记录用户在站内的浏览行为,会强制为用户浏览器设置Cookie,但是搜索引擎的Spider是不支持Cookie的,此时就可能导致搜索引擎无法正常抓取网站的内容。

有些网站(多见于论坛)为防止网站内容被采集,或者出于其他考虑,会设置必须登录才能浏览网站内容。然而搜索引擎的Spider是不可能自动注册和登入网站的,此时就会造成搜索引擎无法正常抓取网站内容。有不少论坛因此设置导致网站收录量下降,搜索引擎流量丢失。

对于以上这两种情况,最好的方式就是对搜索引擎进行单独浏览设置,允许搜索引擎的Spider不生成Cookie即可浏览网站内容。对于第二种强制登录的情况,其实还可以设置让非登录用户浏览部分内容,如果需要浏览全部内容,则必须注册和登录,这样也可以使得搜索引擎正常抓取收录和排名,也不会通过快照泄露网站内容,还可以促进目标流量用户的注册。如图5-14所示为知乎网站之前的设置,非登录用户只可以浏览问题标题和一个出色的回答,但是想要浏览更多精彩的回帖内容就必须注册登录了。内容下方直接给出了注册界面,既保证了搜索引擎的正常收录和排名,又提高了搜索流量转化成注册用户的转化率。虽然当初知乎如此设置的出发点并不是SEO,但这不失为一个优秀的SEO策略。


图5-14 知乎网站设置


5.1.6 翻页注意事项

翻页一般出现于列表分页和内容分页两个地方。

1.不要盲目改变列表分页

正常的网站中,翻页是必不可少的事,有的网站部分分类中的信息列表可能有几千个分页。分页过多就可能对Spider对网站的抓取造成障碍。如果网站更新频率并不是很快,分页过多是由长时间积累下来的,列表中的内容几乎都被Spider抓取过了,这样是没有太大问题的。但是对于每天更新量比较大的网站或者网站目录,每天可能就有超过几十分页列表内容或信息产生,此时就为Spider对网站内容的抓取造成了障碍。

如图5-15所示为一个分类信息网站的分页,如果该分类每天发布的信息超过了10页,Spider要对10页之后的新信息进行抓取,就必须翻到第10页才能提取到之后的分页URL,越靠后的分页越难获取。所以为了方便搜索引擎对分页内容的抓取,可以把分页做成下面两种格式:

1,2,3,4,5,6,7,8,9,10,11,21,31…

1,2,3,4,5,6,7,8,9,10,下10页

图5-15 分类信息网站的分页

也可以根据网站类型进行按日期归档形式的分页。将每天的内容或信息做一个归档,对归档内的信息再进行分页,这样就可以使Spider比较方便地抓取网站的新内容了。如图5-16所示为八方资源网供应商频道列表中使用的归档形式。

图5-16 八方资源网站供应商列表归档

注意到网络上有不少帖子在极力推荐使用这种格式的分页,但是如果网站每天更新的信息都不够一页列表,普通正常的分页就可以了,没有必要刻意追求这种格式。这种格式的目的是让Spider方便地抓取每天的新内容,如果Spider都已经可以方便地抓取了,还跟风麻烦技术人员干嘛呢?作为SEO人员应该明白每一种改动和设置的原理,而不是盲目跟风。在SEO中任何策略都是有适用前提的。

一般网站会有主目录和其他条件的聚合列表。主目录的主要目的是为了让Spider方便抓取全站内容,列表首页也有竞争关键词排名的作用;聚合列表一般只需要首页来竞争排名。所以以上翻页的改动是针对主目录的,聚合列表的翻页链接可以全部nofollow掉或者使用JS调用,甚至直接不给分页。没有必要为Spider设置多个入口抓取网站内容,同时也可以减少不必要的权重浪费。

2.注意首页和“第1页”

不少网站都存在这个问题:列表首页的URL是一个目录,但是首页的内容和列表第1页是完全一样的,并且两个URL在站内是并存的,这就出现了URL规范化的问题。此时一般有两种解决办法,一种是把分页第1页301到列表首页的URL上,或者直接把所有分页第1页的链接直接使用列表首页的URL,使第1页的URL(类似“/pn1”)不出现在网站中;第二种是为列表首页单独设计一个页面,和列表第1页的内容不重复。两种方法都可以解决这个问题,第一种方法稍微简单一些,也是最常见的,但是第二种方法可以布局更多的关键词,首页和列表页第一页都可以获得比较多的内链权重,从而可以拥有承担更多关键词排名的能力。

3.不要浪费内容翻页

有不少网站为了增加网站PV,会为一篇文章设置大量的分页,但是这些分页的标题不是全部一模一样就是只在首页标题的后面加了一个页码。能被搜索引擎收录和排名的几乎只有文章第1页。由于各分页的内容不同,标题却相同,因此虽然搜索引擎可能会识别分页,但是网站却浪费了更多收录和排名机会。因为各分页的内容并不相同,所以完全可以为每个分页做一个不同的标题,这样不仅可以吸引用户浏览分页的内容,同时各个分页也可以作为独立的页面做不同关键词的排名。如图5-17所示为老牌手机门户网站TOMPDA的新闻翻页设置,其实分页的标题还可以重新设计一下,比如把当前分页的关键词提前。



图5-17 TOMPDA文章翻页

5.1.7 Flash、框架、JS及Ajax问题及反向使用

众所周知,这4个东西对搜索引擎是不友好的,虽然搜索引擎一直在尝试抓取这4个东西内部的内容,但是目前看来效果并不是很好,所以一般在网站中要尽可能地少使用这些东西调用内容。如图5-18所示,在百度站长平台的“页面优化建议”中有专门针对Flash和框架的检测,如果页面含有框架就会予以相应的提醒。这里值得一提的是百度现在对JS中的URL会有比较频繁的抓取,但是给不给权重就不得而知了。

图5-18 百度站长平台“页面优化建议”框架部分

其实并不是这些东西对搜索引擎不友好,站在SEO角度这些技术就一无是处了。在网站运营过程中,并不是唯SEO马首是瞻,很多时候并没有可以替代这些技术的方法,就不得不使用了。还有在网站运营过程中,各类页面上所调用的东西很多对SEO是没有作用的,它们是为了让用户浏览的,且并不是站内的所有页面都可以参加搜索引擎排名抢夺流量,总有一些不适合获得搜索流量的内容页面。站在SEO角度,对于这些页面是没有必要导给它们链接浪费权重的,此时可以针对这些链接使用nofollow,但是也可以使用JS、框架及Flash来调用这些内容或链接,这不但不影响用户的浏览,还会降低当前网页的体积,提升页面的信噪比,使得网页主体内容更加突出,甚至可以影响到网页关键词的密度,从而获得正向的作用。

有些大型网站的频道是外包性质的,外包频道或者网站主体在网站主导行部分就使用了JS或框架。如图5-19和图5-20所示分别为银河网IT频道的顶部导航和对应的源代码,此网站就使用了框架。

图5-19 银河网IT频道顶部导航



图5-20 银河网IT频道顶部导航源代码

所以JS、框架和Flash并不绝对是SEO的敌人,它们也可以是SEO的朋友。现在有人研究,通过技术也可以使得Ajax对搜索引擎友好了,有兴趣的朋友可以百度一下。

《百度搜索引擎优化指南》给出的网站机器可读方面的建议为:

(1)使用文字而不是Flash、图片、JavaScript等来显示重要的内容或链接;(2)如果必须使用Flash制作网页,建议同时制作一个供搜索引擎收录的文字版,并在首页使用文本链接指向文字版;(3)Ajax等搜索引擎不能识别的技术,只用在需要用户交互的地方,不把希望搜索引擎“看”到的导航及正文内容放到Ajax中;(4)不使用frame和iframe框架结构,通过iframe显示的内容可能会被百度丢弃。

5.1.8 内链优化注意事项

有不少网站根本不做外链,只在内容上发力,配合优秀的内链设计就把网站的SEO做得很好,在搜索引擎上获得极高的权重和流量。

内链的优化也是一个很大的话题,不同类型的网站、不同类型的内容都会有不同的内链优化方法。下面简单谈一下内链优化应该注意的地方。

1.树形逻辑内链设计到位

网站的主导航、多级导航和面包屑导航做到位,这部分不用极力想办法做出花儿来。主导航和多级导航使得网站内重要频道、分类或内容入口得到推荐即可;面包屑导航只要按照正常的树形结构布局就好,这样最起码就从大体结构上做好了内链,其他的就是补充性的内

链了。例如同类页面和上下级页面,不论从用户体验角度出发,还是从SEO角度出发,都要搭建起合理相关的链接结构,做成完全的大树形链接结构。

比如对于有地区分类的网站,一般从首页需要看到省和直辖市的链接,省级页面需要看到地市页面的链接,从地市页面需要看到区县页面的链接,甚至同级地区之间也需要互链。这只是一维的链接层级,如果网站内容有多维的分类,那么组合页面的链接设计也需要认真研究,因为按照正常逻辑关系组合页面需要推荐的链接太多,这时就要根据需要或者页面重要性为内链做减法。另外有些重要页面往往会进行隔级推荐,这个“重要页面”的筛选也需要根据网站运营情况和SEO需求进行综合选取。不同网站都会设计不同的逻辑内链结构,

SEO人员可以多看看同类网站的主要导航内链设计。

2.内链布局的位置

在正常的网站结构设计中就有了内链的布局。除各类网页主体内容部分自然的内链外,还可以在主体内容的周围及主体内容中布局内链。比如文章左右及下方的推荐文章,文章内部的锚文本链接、页面底部类友情链接的形式等。甚至有的网站为了增加内链,又不想把链接都陈列出来干扰用户,就会在合适的位置设置鼠标划过时弹出的形式布局内链。

此处需要了解的是,搜索引擎是可以判断出大部分网页上的“内容块”“链接块”“评论块”等模块的,一般根据HTML标签、内容长度、所在位置等因素使用比较复杂的“投票方法”进行识别区分,每种“块”中的内容对于判断当前页的内容和主题关键词都有不同的权重;同样,每种“块”中的链接为链向页面导出的权重和“说明意义”也是不同的。内容中“自然”出现的链接要比内容周围推荐链接的作用好很多。

3.内容页均衡的内链

现在大部分网站的内容页所获得的链接,除来自首页、目录页和专题页等上层页面外,内容页也会推荐一部分其他内容页的链接。现在常见的两种推荐形式为“相关文章/信息”和“最新文章/信息”。

“相关”一般使用站内搜索来匹配。可以算做是相关内链,但是这个内链的匹配质量和站内搜索的水平有直接关系,A网站和B网站都有相关推荐,但是推荐的链接质量及相关性并不同,这涉及站内词库和排序设置规则的问题,小团队一般不容易解决这个问题,此处只能是有胜于无,当然对于自有编辑编写文章的网站,完全可以使用人工选择推荐其他相关文章,一般质量也会不错。

这里再重点说一下“最新”。首页、目录页和专题页等页面所能推荐的内容页终归是有限的,一般都是推荐站内最新的内容页,目录页的分页对内容页的推荐是远远不够的,并且搜索引擎对分页的抓取一直都不是很好。如果网站所有内容页都类似于新闻网站生成HTML文件,此时内容页对“最新”的其他内容页推荐是比较健康的。每个内容页所推荐的其他最新内容页,都是当前内容页发布时的“最新”内容,由于已经生成静态HTML文件,一般不会再进行更新,所以这种形式的网站的每个内容页都可以获得固定长期的其他内容页的推荐,即使网站没有目录页,用户和Spider只是利用内容页的“最新”推荐也能把整站的内容浏览一遍。

如果网站所有页面都是数据库驱动的动态页面,页面中的“最新”推荐一般会有一个更新周期,也就是说宏观来看,所有内容页中所推荐的“最新内容”都是网站中最新发布的内容,这也就造成了之前发布的大量内容只能从目录列表很靠后的分页中找到链接,也就是说绝大多数的内容页其实慢慢地就鲜有内链了。并且站内所有内容页都只推荐那几篇最新内容页,也有些资源浪费。此时如果想让站内内容页得到均衡、固定、长期的内链支持,就可以根据内容页的数据库ID来推荐当前内容页在数据库表中前后的几篇内容页,以实现每个内容页都固定均衡、得到一定量的内链。当然如果为了使得所有内容页的访问用户都可以第一时间关注站内最新的内容,那么以上这种内链推荐,也可以使用其他的名称出现,比如“小编推荐”之类的名字,想做总会有办法的。这种链接使用文章标题作为锚文本,还是使用文章定位的关键词作为锚文本,都是有很大操作空间的,有兴趣的朋友可以深入研究一下。

4.内链一定要相关

这里的“相关”并不是简单聚合一下就可以了。要站在用户的角度考虑这些推荐的文章或频道目录的链接是否与当前页面的内容主题相关,看完本页的内容之后是否有点击浏览其他相关页面的欲望。能够正常引起用户点击浏览欲望的相关推荐链接才算真正相关,依靠色情类标题或图片吸引点击的链接不算。此时必须是内容相关或者话题相同,链接两头的页面要内容或逻辑相关,要具有补充或延伸浏览的作用。

举个例子,假设有个页面的主题为“济南玛索酒吧”,那么相关推荐的链接就应该有济南的其他酒吧,也可以有其他地方的玛索相关页面。此页面文本内容中有“百利甜酒”的介绍,就可以为“百利甜酒”加上相应的链接。这种当能够吸引用户浏览完本页的内容后,继续浏览其他页面的内链,才算是最好的内链。例如,本页内容中有一句“从***开车40分钟即到”,而站内有关于“车”的频道或内容,这种情况并不适合添加链接,因为两个页面内容并不相关,并不会引起用户点击浏览的欲望,即使加了链接也几乎无效。

然而现在大家的操作都是本着有总比没有强的想法。现在网站做内链,几乎都是以关键词为主,不管内容相关不相关,只要内容中出现了这个词,就给它加上链接,这是自动生成的一种链接结构。不能说这种链接对网站SEO没有积极作用,只能说并没有起到最佳的作用,也不是搜索引擎所倡导的“具有推荐意义的链接”。现在常见的“相关”链接推荐方法还有一种是使用搜索实现,即用当前页面的title

或特证词去搜索相关链接,但是用“词搜词”本身就会有很大的不准确性。对于有一定规模的网站,这里推荐有能力的朋友简单了解一下使用TF*IDF、聚类及相关扩展算法和思路来尝试实现站内链接的“相关”,只是了解方法就好,具体实现一般只能去折腾技术人员了;针对小型网站,其实站在网站用户的角度使用人工配置的内链是最自然的。

5.锚文本的控制

如果一个网页只有一个主要关键词,那么关于这个页面链接的锚文本统一用一个就可以了。如果一个网页定位了几个关键词,那么就要好好设计内链的锚文本了。首先要选定都从哪些页面给这个页面导链接,而后要根据导出链接页面的内容选择被链接页面的锚文本。对于单个页面来说这样做是比较简单的,但是对于整站来操作就比较困难了,需要SEO人员和技术人员根据网站情况进行实际讨论。

现在有种简单但不是最佳思路的方法:在挖掘、分类并布局关键词后,一般每个着陆页都会对应几个关键词,那么就可以做出一个大表来,每个关键词都对应一个着陆页链接,然后把这个大表做成锚文本链接的形式,添加到全网站各个网页的页脚上。使用程序控制,设定哪些重要页面和热门关键词得到的链接多,哪些冷门页面和长尾关键词得到的链接少,每个页面上添加的链接不超过30个(数量凭自己感觉控制),当前网页不添加当前页的链接等。这样就可以使自己所布局的关键词和着陆页都得到一定的内链支持,来促进着陆页和定位关键词的相关度,提升网页权重。因为这样操作,不能严格控制锚文本和当前网页的相关性,所以链接效果并不是最佳的。

如果有一定的技术或时间,可以对锚文本进行分类,或根据网站内容语义分析对锚文本直接进行关联性串联,从而提升布局的锚文本和当前页定位关键词之间的相关性,提升内链质量。对于海量锚文本内链的质量控制,往往和网站的内容词库分析能力有关,有兴趣的朋友可以深入地研究和试验一下。

6.内链虽好,但是不要贪多

这一点就不用多说了,同一个页面链接过多,每个链接获得的权重就越少,这是大家都知道的。并且在前面一再强调,站内页面堆砌太多内链,也可能会被当做站内链接农场处理,因为大部分页面的主要内容都是链接了,没有实质性的内容提供给用户。

针对不同的网站,内链都会有不同的操作空间和设计方式,内链永远是值得SEO人员深入挖掘的地方。在此附上《百度搜索引擎优化指南》一书中的相关建议:

(1)确保每个页面都可以通过至少一个文本链接到达;(2)重要的内容,应该能从首页或者网站结构中比较浅的层次访问到;(3)合理分类网站上的内容,不要过度细分。

5.1.9 nofollow相关问题和使用

nofollow是链接的HTML标签属性,站长和SEO人员可以通过这个属性来告诉搜索引擎不要追踪此网页上的链接,或不要追踪某个指定的链接,这些或这个链接并不是本网站所推荐的。链接一旦使用

nofollow之后,就不会导出权重了。

1.关于nofollow的争议

有段时间Zac和国平有过关于nofollow的争议,就是nofollow到底会不会浪费PR。按照Google官方人员的解释,假设一个页面上有10

个链接,那么该页面的PR就会被分成10份分给这些链接,如果其中有一个链接是nofollow的,那么相对应的PR就不导出了,至于应该导给这个链接的PR到底去哪儿了并不知道。因为按照解释来看,应该分给被nofollow链接的PR并没有分给其他未被nofollow的链接。因为对原始文章的解读不同,所以才有了争议。

2.百度如何支持nofollow

上面的争议只是针对Google的,百度并不一定是按照Google的方式进行处理的。2010年7月百度搜索工程师LEE在“百度站长俱乐部”回应百度支持nofollow(如图5-21所示),但是并没有说明到底怎么支持nofollow,应该分配给被nofollow的链接权重是不是也和Google一样浪费了。如果真的是浪费了,那么对站内链接就最好不要使用了,为什么要对自己站内链接浪费权重呢?

图5-21 LEE首次回应支持nofollow

在2012年10月26日晚上的“百度站长平台-高端SEO俱乐部”沙龙中,笔者当面向LEE询问百度对nofollow的支持方式。LEE表示应该分给被nofollow链接的权重会被分配到其他未被nofollow的链接上去。所以现在对站内链接使用nofollow,在Google上可能是浪费PR,在百度上是可以规划站内链接权重的流向的。

3.nofollow的使用方法

nofollow有两种使用方法,一种是给链接添加nofollow属性:

<a href="URL" rel="nofollow" >灌水</a><a href="URL" rel="external nofollow" >灌水</a>

第一个是通用的写法,意在告诉搜索引擎不要跟踪此链接;第二个是更专业的写法,意在告诉搜索引擎这是一个外部链接,不要追踪。

这两种写法都是针对指定链接的,这样可以避免给这些链接导出权重,把留下的权重导给页面上其他链接。链接添加nofollow之后,当搜索引擎第一次发现这个链接时,还是会把它放入到待抓取URL队列中,也是会被抓取的,但是搜索引擎会记录当前网页对它的属性说明,当前页面并不会给这个链接导出权重。

另一种是nofollow还可以在meta标签中使用:

<meta name="robots" content="nofollow"><meta name="BaiduSpider" content="nofollow">

这两种写法都是在告诉所有搜索引擎不要追踪此网页上的链接,并且不给页面上的链接传递权重。不过第一个是针对所有搜索引擎有效,第二个只针对百度有效。也可以换成其他搜索引擎的Spider名称,如果该搜索引擎支持这个标签,也会有相同的效果。如果页面使用了这个标签,那么搜索引擎就不会发现和抓取该页面上的链接了。

4.使用nofollow优化内链

首先可以使用nofollow的链接就是那些不竞争排名的页面的链接,比如注册、登录、投诉举报等链接。这些链接没有竞争排名的作用,只是站内的功能性页面,可以对其在全站内的链接都进行nofollow处理。至于常说的“联系我们”要根据情况而定,有的网站有品牌,“***联系方式”也有很高的搜索量,此时这个页面可能就是有排名价值的,最好不要对其链接进行nofollow。另外一个页面中对另外一个页面的导出链接只有一个就好,如考虑出现多次,可以在其第二次出现时就开始使用nofollow标签。

除以上不竞争排名的页面外,对于竞争排名的网页也可以使用nofollow来控制站内权重的导向。如图5-22所示为途牛网首页对站内链接使用nofollow的情况,虚线框起来的链接都是nofollow的链接。途牛网把首页的权重导向了旅游目的地,地区攻略等竞争排名的页面,把旅游团信息的链接全部nofollow掉了,可能是考虑到几乎很少有人针对旅游团进行搜索。有的朋友可能比较纳闷,既然不给这些内容权重,直接使用前面介绍的JS或框架调用不可以吗?还可以缩减网页体积。要注意的是,途牛网只是首页不给这些旅游团信息导权重而已,使用nofollow后,百度还是可以发现和抓取这样链接指向的页面的,如果内容不错,还是会进行索引的。

图5-22 途牛网首页

途牛网的考虑应该是把首页的权重尽可能地导向重要竞争排名的页面,不给旅游团信息导权重,但是这些信息还是需要被百度收录的,并且这些旅游团信息还可以丰富网站首页的内容,并不像文章页周围的噪声链接,所以就直接在链接上使用了nofollow,并没有采用JS或框架的调用方式。在此需要提醒的是,链接即使使用了nofollow,搜索引擎也会进行抓取和收录,这个标签只是建议搜索引擎当前页面不给此链接页面传递权重而已,并不能禁止搜索引擎的抓取和收录。同时nofollow关于权重方面也只是“建议”而已,搜索引擎不一定会完全遵守站长的设置,而是有一套比较完善的判断各种链接是否有意义的算法,具体链接是否还导权重,会根据这个链接是否具有推荐意义来计算。搜索引擎会参考链接是否有nofollow,但不会只是参考链接是否加有nofollow标签来决定这个链接是否会导出权重。搜索引擎不会把链接是否导出权重的权限完全交给站长,否则会出现混乱局面。

接上文nofollow的使用。不仅在网站首页,在网站的任何页面都可以这样来操作,nofollow可以辅助站长和SEO人员更好地引导站内权重的流向,这样就可以使得站长和SEO人员更好地优化网站的内链结构。现在很多大型网站都使用nofollow了,百度经验内容页导出的站外链接,以及百度知道顶部导航中对其他百度产品的链接都使用了

nofollow(如图5-23所示)。所以站长和SEO们也应该重视这个标签。

图5-23 百度知道导航


5.1.10 Canonical标签的使用及问题

大家如有留意,在百度搜索中搜索某些关键词,经常会出现网站列表或文章分页的非第一页出现在搜索结果中,第一页却无

图5-24 第二页作为主要页面参与了排名

影无踪的情况。如图5-24所示,百度搜索“型男街拍 大男人小点缀”,文章的第二页被当成主要页面参与了排名。相信普通搜索用户对此也会不满,常常需要点击搜索结果后,再点击分页中的第一页才开始浏览。百度官方对此也存在疑惑,加上大量站长长期的反映和诉求,百度终于于2013年年初开始支持Canonical标签,通过站长和搜索引擎合作的方式来解决这个问题。

百度对Canonical的介绍为:

对一组内容完全相同或高度相似的网页,通过使用Canonical标签可以告诉搜索引擎哪个页面为规范的网页,能够规范网址并避免搜索结果中出现多个内容相同或相似的页面,帮助解决重复内容的收录问题,避免网站相同内容网页的重复展示及权重的分散,提升规范网页的权重,优化规范网页的排名。

规范页也就是一组内容完全相同或高度相似网页的首选版本。

Canonical标签的使用方式为:在非规范网页的<head>部分创建link元素,形式为<link rel="Canonical" href="规范页URL">。添加此链接和属性可以告诉百度:“在内容相同或高度相似的所有网页中,该网页为最规范最有价值的页面,推荐将该网页排在搜索结果中靠前的位置。”也就是说在搜索相关关键词时,规范页会被当做主要页面参与排名,而减少上例中的情况。

常见的需要使用Canonical标签的情况如下。

(1)由于篇幅显示问题,对文章进行了分页显示,如果各分页的Title完全相同或只是用“第N页”区分,为了避免上例中的问题,就可以对第一页之外的分页使用Canonical标签。当然如果有能力,推荐对文章分页使用前面所提过的形式:篇幅过长的文章,以小标题为界进行分页,每个分页都有自己优化的主关键词,首页优化核心关键词,这样就没有必要使用Canonical了。

(2)由于网站功能性设置问题,对同一个页面产生了不同的

URL,并且因为功能设置问题,以至于不能直接使用301来解决这个问题。例如在前面URL优化注意事项中所提到的,千品网为站内主要链接添加了追踪用户行为参数的内容。

(3)同一内容列表中,按照价格、时间、信用、人气、销量等进行排序后出现页面内容和默认排序高度相似的情况,比如商城的商品列表页面和租房的房源列表页面。如果非默认条件的排序也都产生了不同的URL,并且也都允许搜索引擎的抓取和收录,那么就有必要对非默认排序的列表使用Canonical标签。当然站长和SEO人员也可以根据情况对不同排序条件的列表页优化不同的关键词,比如按价格排序就可以优化“最贵的**”“价格最高的**”“报价最高的**”“最便宜的**”“价格最低的**”“性价比最好的**”等关键词,不过这时要做好设计,要使不同排序后的列表内容没有大面积的重复,从而使这些列表页可以获得更多的搜索流量,并且也没有必要再使用

Canonical标签。

(4)商城类网站,同一个商品有多个历史版本介绍的情况下,可以对商品的历史版本页面使用Canonical标签。

(5)在网站改版或换域名后,由于各种原因不能设置301重定向时,可以使用Canonical标签来标注新版页面URL等。

总之当一组页面内容几乎完全相同且有某种逻辑关系时才有必要使用Canonical标签。现在网络上有一些文章推荐对目录、列表和栏目使用Canonical标签是不太恰当的,的确有不少列表分页代替首页参与了排名,虽然对目录、列表和栏目分页使用Canonical并没有大的副作用,但是Canonical并不是用来解决这个问题的,据说日后百度会推出专门的分页标识标签,这个分页标签应该会解决这个问题,

Canonical更多地是用于重复内容页。

在Canonical标签中可以使用相对链接,也可以使用绝对链接。

安全起见,建议使用绝对链接,避免出现未知错误。需要注意的是,虽然在网站改版和换域名时,如果不能配置301重定向,可以使用

Canonical标签标注新版页面URL,但这只是不能配置重定向情况下的无奈之举,并不能使用Canonical标签来代替301重定向权重迭加的作用。虽然百度在介绍Canonical时提到“提升规范网页的权重,优化规范网页的排名”,但Canonical标签其实只是告诉搜索引擎哪个版本的URL是主显版本,并不是一定把非规范页的权重迭加到规范页上了。

另外,百度官方已经说明百度不一定会完全遵守

rel="Canonical"标签,百度会根据站长的推荐及自己系统的算法来综

合选择。站长和SEO人员往往会挖掘出标签本身作用之外的用途,可能百度为了避免因为支持新标签而增加相应的算法漏洞,所以对

Canonical标签进行了相对保守的支持。

5.1.11 404和503

404和503都是服务器状态码。404表示访问的网页未找到;503表示服务器临时有问题。

网站有没有设计404友好页面往往是SEO人员诊断网站SEO水平的一个标准。如果网站中存在大量死链接,当用户和Spider访问时返回404错误,次数过多后就会降低用户和Spider对网站的整体印象,很有可能以后就会减少来访或者不再来访。值得一提的是,如果网站之前没有404错误,因为某种原因突然有部分页面返回404了,此时Spider会频繁地对其进行抓取,以确定这些页面是真正被删除,还是网站临时出了问题。

网站出现404错误,会被搜索引擎视为比较严重降低用户体验的行为。在搜索排名中的网页如果出现404错误,往往会受到搜索引擎的及时处理,以减少对搜索用户的用户体验伤害。那么作为站长或SEO人员,当然要尽力减少网站出现404的情况。如果是网站程序或服务器出现临时错误,千万不要让服务器返回404状态,在一段时间内有大量页面404错误,搜索引擎可能会删掉这些网页的索引,并降低对网站的抓取频率。对于程序或服务器错误导致网站临时不能访问的情况,要及时返回503状态码,告诉搜索引擎服务器临时有问题,过段时间再来抓取。

如果网站因为特殊原因必须删除一批网页,那么就把这些网页全部返回404,在整个网站范围内撤掉这些页面的链接,并制作这些页面URL的地图文件,通过百度站长平台和Google Webmaster中的死链工具和“删除网址”提交到百度和Google。百度和Google接收到站长提交的死链信息后,就会停止对这些链接的抓取,否则突然出现大量404页面,会让Spider对其进行频繁抓取,这样不仅消耗自己的带宽,也会降低搜索引擎对网站的印象。

作为站长和SEO人员,也要经常分析网站日志,分析Spider的抓取状态,发现4**或5**开头的状态码都要引起足够的重视,并详细分析原因,及时处理。当然也要为网站制作一个友好的404错误页面,引导用户留在站内,尽量减少因为404错误而造成的用户流失。可以根据用户refer推荐相关内容的链接,也可以做一个比较友好的引导界面。
 



图5-25 富营销论坛404页面

如图5-25所示为曾经的富营销论坛的404错误页面的设计,还算是比较友好的。

5.1.12 目录、子域名的比较和选择

在网站设计之初及网站运营过程中,添加丰富的新内容时都会面临使用目录还是子域名的选择。常见的SEO建议是,如果要开的频道内容不够丰富,就使用目录的形式,如果新开频道内容丰富,就可以使用子域名。

站在SEO效果的角度,在不考虑链接导入权重的情况下,一般同一个网站内各类页面的权重大小关系为:

主域名首页>子域名首页>主域名目录>子域名目录>主域名内页>子域名内页

关系中的两个“目录”为同级目录。这里主要看两个关系,一个是子域名的权重大于主域名目录的权重;一个是主域名内页大于子域名内页的权重。因此建议,如果你新开的频道只是竞争频道首页的几个关键词排名,内页排名并不重要,那就使用子域名的形式,当然子域名下也需要配备一些内页,最好不要只是一个单页面;如果你新开频道的内容需要获得比较好的排名,获取比较多的长尾流量,就可以使用顶级域名下目录的形式。

使用子域名会使得频道首页的排名比较好做,使用目录会使得频道内容页的排名比较好做。曾经有个网站的某个频道使用的是子域名的形式,子域名首页排名很好,但是内容页的排名很差。后来该网站把该子域名转换成主域名的目录后,频道首页的排名从第一名掉到百度搜索的第二、三页,但是内容页的整体排名有很大提升,流量翻了2~3倍。使用了目录的形式后,可以把这个目录首页当成一个网站权重较高的网站,排到前面的可能性就较大,反之则较小。通常情况下主站点的权重是最高的,子站点会从主站点继承一部分权重,继承的多少视子站点质量而定。

在内容没有丰富到可以作为一个独立站点之前,内容放到主站点下一个目录中能在搜索引擎中获得更好的表现。

(2)内容差异度较大、关联度不高的内容,使用子站点形式搜索引擎会识别站点的主题,如果站点中内容关联度不高,可能导致搜索引擎错误的识别。关联度不高的内容,放在不同的子域名下,可以帮助搜索引擎更好地理解站点的主题。

(3)域名间内容做好权限,互相分开,a. example.com下的内容,不能通过b.example.com访问。

子域名间的内容可以互相访问,可能会被搜索引擎当做重复内容而进行除重处理,保留的URL不一定是正常域名下的。

(4)不要滥用子域名,无丰富内容而滥用大量子域名,会被搜索引擎当做作弊行为而受到惩罚。

细细品味一下建议中第(1)条的“出身”,就可以侧面地验证上述各类页面权重高低的关系。

如对本文有疑问,请提交到交流论坛,广大热心网友会为你解答!! 点击进入论坛


发表评论 (153人查看0条评论)
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
用户名: 验证码: 点击我更换图片
最新评论
------分隔线----------------------------