我首先来介绍下搜索引擎发展的过程和趋势,搜索引擎整个的分成三个部分,第一个是信息收集(Crawler),第二是信息索引(Indexer),第三部分是信息查询(Querier)。整个的搜索引擎发展的历史,就是这三个历史的演变。最早的搜索引擎是雅虎的搜索引擎,雅虎的时候可以说信息收集靠的是人工,由用户自己收集网址,那时候就是一个网址的收集和展示,后来通过自动化方式查询网页,使整个的搜索过程变得比较快。
后来随着信息的爆炸,大家对搜索引擎的关注程度越来越高。最初的算法非常的简单,直到Google出现。Google当时提出了Page Rank的算法,这在搜索行业是个突破。那时候Google的运算速度非常慢,信息的索引建立得不够完善,查询速度是一秒到两秒,2000年的时候,Google做了大规模的技术改进,整个系统大幅度提高,Google跟雅虎正式建立合作。
后来发展的历史,一方面是在信息收集部分尽量多的收集信息,后来是尽量的使查询过程加快,在查询上算法不断的优化。
搜索引擎整个大方向的改进,基本上离不开这三个领域。前不久百度发布的阿拉丁计划,主要是在信息收集的层面,加大了信息收集广度。互联网最开始的时候是一个静态的网页,后来出现了动态的网页,我对阿拉丁字面的理解,就是把动态页面的整理更广了,不光是动态网页,还包括网页背后的数据库,感觉往这方面走,能把所有的信息收集到它的系统里。
这块对互联网也是一个挑战,信息的内容越来越多,通过什么样的渠道和方式,把这些信息从各个企业、网站,私有库里面汇总到总的搜索引擎的大系统里,这个是一个挑战,百度在往这方面走。
信息的索引也有大的发展,当前的整个的信息索引停留在文字索引的基础上,不管是互联网搜索图片、录像,最终还是环绕文字,没有能力去把图片和录像能力分解下来。如果分解下来,我查一个人可能不是从文字,而是把这个人真正的录像提取下来,通过录像进行查找,现在处再一个比较初步的阶段,整个的互联网对文字的检索功能是一个完善的阶段,对于图片是刚刚的初步,对于录像,现在还没有特别有效的办法,我想这是以后大家发展的方向。
另外,在搜索的信息查询方面,也有很多提高的方面,一个是查询的个性化,一个是查询的互动性。从整个的研发来讲,在个性化的搜索上已经是走出了很远,Google在04年收购了一家公司,现在做的是革新化的PageRank算法,有一点个性化的东西。但是完全的个性化需要更大的演算量,现在很多公司面临很大的挑战,未来应该有所突破。
还有互动性。当你不知道的时候,搜索引擎可以给你一些互动,互动的过程中,更好的了解你的需求,给你更准确的一些结果,这方面也是搜索引擎发展的一个方向。总的来讲 99年以前,大家使用搜索引擎普遍不满意。之后随着Google的出现和技术的普及,整个搜索引擎使用的满意度得到很大的提高。现在大家对各个搜索引擎的感受不错,用户的满意度提高了很多,搜索引擎似乎进入了一个平台期,大家都走到一个蛮成熟的阶段了。
从我个人看,搜索引擎可能未来有很多突破的机会,毕竟搜索引擎还是围绕着99年、2000年时的市场环境制造的。一个明显的特点:大家面对是一个索搜框,这样一个界面不是很好的人机交互界面,但这是当时的互联网环境决定的。对信息加以分析理解,包括更好的人机交互,个性化理解,搜索引擎在这几方面有很多突破的机会。我个人觉得未来有可能大家不叫它搜索引擎,但是可以帮助大家更好的找到需要的信息。