1. 转载网页的识别:例如:对于网页A,B,要判断这两个页面是否互为转载网页,那么搜索引擎首先会把这两个网页的主体内容(如文章内容)划分为若干个独立的区域,再按顺序对这些区域进行比较,如果这些区域的内容大部分都是相同,那么搜索引擎就认为这两个页面互为转载页面;然后,再根据网页建立的时间等多方面的因素判断哪个是原创页面,哪个是转载页面。
2.镜像页面的识别:例如:对于网页A,B,要判断这两个页面是否互为镜像网页,那么搜索引擎首先会把这两个网页划分为若干个独立的区域,再按顺序对这些区域进行比较,如果这些区域的内容完全相同,那么搜索引擎就认为这两个页面互为镜像页面;然后,再根据网页建立的时间等多方面的因素判断哪个是原创页面,哪个是镜像页面。
从上面的内容里,我们得知了搜索引擎识别转载页面的原理。简单地说,如要我们要让搜索引擎认为我们的内容是原创内容,那么首要的条件就是我们的网页跟另外一个网页在主体内容(如文章内容)上存在明显的差别。例如:一篇文章有四个段落,当有三个段落的内容存在差异时,会被认为是原创网页,而两个段落内容存在80%以上的差别上,才会被认为是不同的段落。