Google这位搜索引擎巨无霸时至今日到底收录了多少网页,其中中文网页又有多少呢?又如何即时地查到这个搜索引擎老大的肚量呢?这些信息对于研究谷歌收录网站的特点是非常重要的。当然,关于这些信息的确切数据是谷歌公司的机密,我们无从知晓。但是却可以利用一些线索来估算其网页收录总量。下面是本人的估算思路,仅供参考。
首先,为了估算上的方便,本人将网页按如下分类方法进行分类:
1、网页的内容、标题或链接中含有“www”的网页:这部分网页的收录量可以用这个检索式查询。
2、网页的内容、标题或链接中不含有“www”但含有“com”的网页:这部分网页的收录量可以这个检索式查询。
3、网页的内容、标题或链接中既不含有“www”,同时也不含有“com”的网页:尚难搜索统计,但估计只占少部分。
通过将三项结果数量相加,即可得到Google收录网页数量的即时数值。本人通过上述方法估算了一下,并与2008年7月Google官方博客中由两位基础设施小组软件工程师耶西·阿尔波特(Jesse Alpert)和尼森·哈扎伊(Nissan Hajaj)公布的一万亿幅网页数量相比较,仍然相差20~30倍之多!由此可以得出在日常利用谷歌进行搜索时所返回的实际结果总量不到实际收录总量的十分之一。