随着互联网的快速发展,越来越多的年轻人开始了网络创业,每天都有数以万计的新网站上线,同时也有数以千万计甚至亿计的新网页产生。随着网络的普及,互联网进入家庭,越来越多的人开始通过互联网获得信息,潜在客户通过互联网寻找自己需要的产品信息,商家通过互联网接触到潜在客户达成交易。面对庞大的网页信息数据,搜索引擎要处理这样一个数量级的网页信息,进行搜索排序,可谓是历尽艰辛。
很多商家和个人站长为了通过网站获得客户和收益,也就需要提高自身网站在搜索结果里面的排名,从而提高网站与潜在客户接触的机会,于是研究如何才能快速提高网站在搜索结果的排名就成了一些人必须要做的事,SEO行业产生了。
在中国,百度是人们最常使用的搜索引擎,研究百度排名算法,成了众多SEOer工作者必须要做的事情,随着这两年百度算法的不断调整,越来越多做SEO的人感觉到SEO越来越难做了,以前做SEO很简单,多增加一些网站内容,多交换些友情链接,发些外链,网站排名就上去了,而现在百度算法的每一次调整,都会有一大批的网站在搜索结果中消失,甚至搜索网站全称都找不到。有经验的站长就发现,百度现在对网站内容的原创性越来越重视。
之前也有人总结过百度判断网站内容原创性的标准,不过都不完善,今天有幸在百度站长平台看到百度官方公布的百度判断网站内容原创的一个算法——原创识别“起源”算法,原文如下:
互联网动辄上百亿、上千亿的网页,从中挖掘原创内容,可以说是大海捞针,千头万绪。我们的原创识别系统,在百度大数据的云计算平台上开展,能够快速实现对全部中文互联网网页的重复聚合和链接指向关系分析。首先,通过内容相似程度来聚合采集和原创,将相似网页聚合在一起作为原创识别的候选集合;其次,对原创候选集合,通过作者、发布时间、链接指向、用户评论、作者和站点的历史原创情况、转发轨迹等上百种因素来识别判断出原创网页;最后,通过价值分析系统判断该原创内容的价值高低进而适当的指导最终排序。
目前,通过我们的实验以及真实线上数据,“起源”算法已经取得了一定的进展,在新闻、资讯等领域解决了绝大部分问题。当然,其他领域还有更多的原创问题等待“起源”去解决,我们坚定的走着。
以上是百度识别原创内容的“起源”算法的描述,与这些内容相关的还有一些描述,关于优质原创内容的说法,利用自动文章生成器等工具,“独创”一篇文章,然后安一个吸引眼球的title,现在的成本也低得很,而且一定具有独创性。然而,原创是要具有社会共识价值的,而不是胡乱制造一篇根本不通的垃圾就能算做有价值的优质原创内容。内容虽然独特,但是不具社会共识价值,此类伪原创是搜索引擎需要重点识别出来并予以打击的。
虽然只有短短的几行字,但足以给我们这些SEOer很大的启发,给了我们原创的方向,做SEO做的就是细节,不仅仅为了获得排名,为用户提供有价值的东西才是SEOer真正应该努力的方向。搜索引擎不排斥SEO,但也不接受为了获得排名钻排名算法漏洞的SEO做法。
下面来总结一下百度判断原创的几个基本标准:
1、内容的独特性
2、作者
3、发布时间
4、链接指向
5、用户评论
6、作者和站点的历史原创情况
7、转发轨迹
8、社会价值
以上这些只是在这次文章中例举出来的,还有很多判断细节的标准有待研究,希望对广大站长有用,也希望站长们多研究,研究出更多百度判断原创的标准,以帮助提升SEO的效率。
本文版权归通王科技所有,可任意转载,转载请注明作者和出处!
本文首发:www.seo.net.cn