搜索引擎在抓取并解释网页内容的时候存在诸多限制,使得搜索引擎看到的网页内容与人类看到的并不完全一致。本篇内容主要介绍构建网页方面的技术,以便网页能让搜索引擎和人类看到的内容保持一致。同时,本篇内容也建议分享给网页设计人员和开发人员,以保证大家理解一致。
构建对搜索引擎友好网站的主要内容包括:
内容可索引
链接可爬行
关键词布局策略
URL构建指南
重复内容官方化
结构化内容的运用
1、内容可被索引
网页中最重要的内容保证为HTML格式。尽管爬虫技术一直在进步,但是搜素引擎还是会降低图片、flash、js等非文本内容的权重。确保搜索引擎可以看到内容的最简单方式就是把他们放到HTML代码中。同时,对于要求更多可视化高级样式的用户,可以有其他替代办法:
为图像提供描述性文字,所有图片格式增加“Alt”描述。
提供带有链接可以供抓取的搜索框。
为flash、js、视频等提供描述性文字内容。
像搜索引擎一样重新理解你的网站
许多网站被索引的内容存在很严重的问题,可以通过谷歌/百度快照或者站长平台的模拟抓取等方式进行检查,来判断哪些内容是可以被搜索引擎索引的。
例如以下这个网页,完全由flash构建(或者现在很多官网用js构建),内容可读性很差,可能在人来看内容丰富的页面,搜素引擎什么都看不到,更别谈给予索引和排名了。
2、可供爬行的链接结构
搜索引擎主要通过链接来发现新的网页内容,所以一个爬行流畅的链接结构至关重要。
例如以下结构,Google可以很顺利的抓取A、B、E网页的内容,却无法发现C、D网页的内容,尽管C、D页面是网站的重要页面,有好的内容和关键词布局,但是在搜索引擎中,它们是不存在的。
几种常见的页面无法被索引的原因:
在线表单格式,例如登录后才能查看内容;
无法解析JS中的链接;
页面被robots.txt或者meta robot形式屏蔽;
Frames or iframes结构。
有数百个甚至上千个链接的页面上的链接。
以上几类结构也是做网站的时候应该尽量避免的。
3、关键词策略
关键词是搜索过程的基础,它们是自然语言搜索的基石。事实上,信息检索的整个科学(包括像谷歌这样的搜索引擎)都是基于关键词的。当搜索引擎对网页内容进行爬行和索引时,它们会在基于关键词索引跟踪这些网页,从而能在短短的一秒钟内检索所需的数据。
因此,如果你想让你的页面有机会在搜索结果中排名为“dog”,那么一定要确保“dog”这个词是你网页中可爬行内容的一部分。
搜索引擎会检测页面上如何使用关键词,以帮助确定特定文档与搜索词的相关性。优化页面排名的最佳方法之一是确保要排名的关键词在标题、正文和元数据中多次被提及。
另外,关键词密度的神话一直广为流传,有科学实验证明:关键字密度与内容、质量、语义和相关性无关,所以不要过分追求关键词堆砌,影响用户体验。
关键词在页面上的使用技巧
关键词使用位置仍然是搜索引擎排名算法的一部分,我们可以应用一些有效的关键词使用技巧来优化页面。Moz研究人员进行了大量测试,并根据关键词使用策略观察了大量的搜索结果和变化。推荐这样来操作:
在标题标签中至少出现一次。尽量使关键词短语靠近标题标记的开头。
在页面顶部附近出现一次。
在正文中,至少两到三次,包括变体(同义词等)。如果内容很长,可能还要多几次。在使用关键字或变体时,可能认为出现越多越好,但在我们的经验中,添加更多的术语或短语往往对排名几乎没有影响。
页面上图像的alt属性中至少有一次。这不仅有助于网络搜索,也有助于图像搜索,偶尔会带来宝贵的流量。
在URL中出现一次。
在元描述(description)标记中至少出现一次。请注意,元描述标签不会被搜索引擎用于排名,而是有助于吸引阅读结果页面的搜索者点击,因为元描述变成了搜索引擎使用的文本片段。
在链接锚文本中通常不应该使用指向站点上其他页面的相同关键字,这被称为关键字同化。
4、URL构造指南
1、URL便于用户理解。让用户能够看到URL,就能猜到网页大致内容。
2、URL长度越短越好。便于用户复制分享,同时便于搜索引擎存库。
3、URL中出现关键词。
4、URL静态化。最好的URL是人类可读的,没有很多参数、数字和符号。使用诸如mod-rewrite for apache和isapi-rewrite for microsoft之类的技术,您可以轻松地转换动态URL,比如https://moz.com/blog?将id=123转换成更可读的静态版本,如:https://moz.com/blog/google-fresh-factor。即使是URL中的单个动态参数也可能导致整体排名和索引降低。
5、URL中使用连字符(-)分隔单词。并非所有的Web应用程序都能准确地解释分隔符,如下划线(uu)、加号(+)或空格(%20),因此使用连字符(-)来分隔URL中的单词,如上面的“Google Fresh Factor”URL示例中所示。
5、重复内容规范化
重复内容是任何网站都会遇到的重要问题之一。搜索引擎一直致力于打击空短内容和重复内容问题。
但是,随着网站规模的扩大,难免会出现相同内容的不同版本,搜索引擎很难判断其权重,所以一般会给予最早被发现的页面最高权重,而其他内容被判断重复会降低权重,甚至不予收录。
在这里,一般会有两种处理办法:
一是将多个版本的重复内容进行内容合并。例如UGC为主的社区内容,很容易出现用户重复发帖的情况,可以对同类型的主题进行合并处理后,旧版本页面进行301跳转指向新生成的合并页面,可以有效提升合并内容的权重,从而获得最佳排名。(知乎的部分帖子就是这样的处理规则)。
二是运用规范化标签(canonical),指向你想获得排名的主URL,但是这个方法效果不如以上第一种办法,可以作为备选方案。
6、富摘要的运用
百度阿拉丁主打结构化内容,谷歌也有第0位搜索结果的特殊样式呈现,这些都属于富摘要形式。尽管富摘要不是网站标配选项,但是如果网站能够提供不错的结构化内容,可以在与搜索引擎的合作中收到不少红利。(薄荷个人经历过的几次百度阿拉丁合作都是我方网站可以提供行业最佳的结构化内容)。