做互联网已经2年,一直是做技术的,在网络运营上却是一片空白,说来真是惭愧的很。前一阵子决定自己做个站练练手,为将来从技术转向运营铺一下路。
由于从来没有做过运营和网站推广,运营方面的朋友认识的不是很多,因此做交换链接的可能性不大。而自己刚做站,就那么一点点流量做交换也实在对 不起人家。思前想后,对我来说最快的也是最可行的网站运营方法就是seo了,而且用seo来做网站运营和网站推广跟技术更近一点,上手也比较快。于是看了 很多seo的资料,不管是seo优化网站的,还是用seo来作弊搞流量的,能看的都看了。但是写这篇文章的目的不是告诉大家如何用seo优化更不是教大家 如何用seo作弊,毕竟我也是刚刚学,而且seo的教材和资料已经相当多了。我写的肯定也没有人家写的好。我只是想用我的大米站的一些数据来对搜索引擎和 seo建立一些假设,然后推测一些结论,最后大家再讨论一下,希望可以共同得到进步。
好了,废话不说了,先说一下我大米站的基本情况。我的站是一个小说导航网站(多迷小说之家 http://www.duomimi.com/),基本思想就是把各大小说网站的小说资料都采集下来,然后分类整理放到我的网站上,用户通过访问我的网站就可以同时搜索到几个大小说网站的所有小说资料并点击观看,同时也可以看到各站的排名,推荐,更新等信息。好了,不多说了,不然大家该以为我是在AD了。
首先是网站开发,界面仿照hao123,采用最简单方便的asp+access,也是因为我的400mb的虚拟空间空间只支持asp和 access,系统一共只有4个页面,分别是index.asp(主页)、list.asp(列表页)、search.asp(搜索 页)\bookReader.asp(详细页),一天的时间搞定。其中主页还做了一个模版用来生成静态页(由于服务器空间有限,不能把所有的页面都生成静 态页,遗憾啊!把动态页生成静态页这点很重要,搜索引擎更喜欢静态页,这点在所有的搜索引擎官方说明中都有说明的)。接下来是数据采集,先选定了5个小说 网站,分别是起点中文、小说阅读、红袖、潇湘、新浪读书,然后写了个程序,自动把数据采集下来并保存到sqlserver数据库上,用了2天的时间。大概 采集了190000多条吧,最后把数据再手动导入到access上(这里也有个小插曲,由于access数据库是单文件单用户的,功能非常有限。不能写存 储过程,所以翻页只能用asp的Recordset对象,每次把所有符合条件的结果都放到内存中,然后再分页,我的19万数据每次都放到内存中,然后再从 中拿出20条来,速度和占用内存量可想而知。所以这里教大家一个小技巧,就是把每条要分页的数据都加一个字段用来表示他出现的页数,这样每次只需要寻找这 个页的数据就可以了,而且以后数据增加或者减少,只需要用毕加树算法重新改一下页字段问题就解决了。另一个头痛的问题是access没有全文检索。所以数 据搜索基本靠like,我做过测试,数据量超过2万就有可能出现内存溢出的现象,解决这个问题的办法没有别的,只有自己建倒排索引。这是我在用 access做大数据量处理时遇到的两个问题和解决办法,算是抛砖引玉吧)
网站做好,数据采集完毕,装上51la免费流量统计,做个搜索引擎跟踪器,就开始做试验了。上线20多天,没有做过什么推广,只在贴吧中发过帖 子(很幸运有个帖子被顶起来了)。流量中,60%是百度搜索引擎来的,16%回头客,16%贴吧(就是那个被顶起来的帖子),其它的是其它搜索引擎来的。 基本统计信息和收录记录如下图:
(这里有个问题要说一下,我的域名和空间是去年9月份前后申请的,但是放了一个垃圾系统就再也没有管。所以我在做多迷之前这个域名已经被bd和 gg收录了,但是只有不到10页的收录量,所以我没有花太多的时间让搜索引擎收录我,只是重新让搜索引擎重新检索我的网站而已)
再给大家看两个数据,是我记录的bd和gg的搜索机器人(bot)每天取我网站的次数。(如图)
ok!现在开始分析,首先说一下网页的设计,没有frame,没有没必要的ajax,所有内链接都加上了title,没有隐藏和堆砌关键词,没 有同色链接,就是说没有进行seo作弊。(注:以下假设和分析只代我目前的一些看法,不一定是正确的,希望大家也可以分析一下,指出我不对的地方)
现象1
我的title中是这么写的——duomimi 多迷小说之家---青春校园|散文|玄幻小说|小说连载|灵异恐怖|短篇小说|
灵异推理|童话寓言|言情小说|网络小说|历史武侠|武侠小说。搜索结果显示我在“青春校园短篇小说”这个长尾
关键词中是第一位。
假设:
页面关键词主要根据title标签中的关键词定,但是title中的关键词堆砌没有用,只会取第一个关键词做为你网页的主关键词并在搜索引擎的索引上建立相关性排序。
现象2
同样的时间bd收录1170,gg收录17。相差甚多
假设:
前人说的是对的,bd对新站感兴趣,而gg对新站有考验期的,考验时间肯定在20天以上!
现象3
bd机器人每天搜索的次数变化很大,而gg每天的搜索的次数比较稳定。但是bd搜索的页数和收录的页数差不多,而gg搜索的页数和收录的差很远
假设:
bd对于新站是来着不惧,有多少收多少。只要是爬下来的页,只要没有作弊,都收录上去先。而gg爬的页不会马上放上去。是扔了还是放在什么地方了就不知道了。
现象4
假设主页的深度是0,主页上的内链接是1,深度为1的页上的内链接为2以此类推,深度越潜的页面搜索的次数越多
假设:搜索引擎对深度潜的页面更感兴趣,可能使用这种方法来判断更新的数据,当确定潜层页面的数据都没有
变化了才继续往下爬。所以做站一定要时常更新,而且把更新的东西放得越潜越好,不要藏起来。
现象5
搜索引擎收录的页面中我的search页面比例最大(bookreader页是我后来加上去的以前没有)。
假设:搜索引擎不喜欢列表页,更喜欢详细页,作为判定的方法估计主要是通过内链接的数量来判断,我的search页的内链接很少,基本都是外链接。所以它把我的search页当成是详细页了。
现象6
我在期间加了一个页面bookreader页,用户点击小说名称后不再直接打开小说页面,而是进入我的bookreader页面,就是说我把以前的外连接变成了内链接。结果第二天,几乎所有的搜索引擎的搜索数量都变少了。
假设:搜索引擎很讨厌对页面内链接的改变。所以尽量不要随便改动页面的内链接。
现象7
每次搜索一次list页会隔比较长的时间再搜索下一个页,而bookreader和search页则会相隔的时间较短。
假设:由于list的内链接多,而bookreader和search页内链接多,所以可能bd每天收录的新链接数是有一个极限的。就是说,每天就收你这么多个链接,而这个数量应该对不同的站不同,我计算一下,我的站应该是在3000~4000左右
现象8
今天bd对我的搜索次数忽然有几十变成1000多
假设:现在还没有弄清楚怎么回事,要看以后的变化,可以肯定的是我没有对站做过什么改动,只是每5分钟更新一次主页而已。难道是对我的站升级了??
目前为止就想到这8个现象,以后我会继续跟踪并回帖分析的。算是抛砖引玉吧,希望大家一起来讨论