本书在豆瓣网上的评分8.1分,这个分数算是比较不错的了。本书系统地介绍了互联网搜索引擎的工作原理、实现技术及其系统构建方案。虽说是搜索引擎入门教材,不过对于没有编程和数学基础不好的人来说,里面的内容基本上很难看懂。适合搜索引擎技术开发人员入门用。不过我还是建议从事搜索引擎优化的人读一读,这样可以清楚搜索引擎的工作原理及最基本的排名规则。
本书是在2005年出版的,以天网搜索引擎为案例,介绍搜索引擎的相关原理及技术实现方式,好多人可能没有听说过天网,天网搜索引擎算是中国最早的搜索引擎了,是北大的一个科研项目,不过由于种种原因没有商业化。倒是为百度培养了不少的搜索引擎人才,负责天网搜索引擎的人后来大多去了百度。
书中介绍了搜索引擎的工作方式,从互联网网页的搜集、处理到查询服务,每个阶段都有详细的介绍。可能书中介绍的一些技术,现在的搜索引擎不再使用,不过对于,以了解搜索引擎工作原理的我们来说已经足够了。例如书中讲到的网页的搜集方式,由于互联网信息繁多,就把抓取信息的方式分为定期抓取和增量抓取,这样就可以解决信息的及时性和广泛性。站在SEO的角度来看,为了让搜索引擎尽量多的抓取网页,就是不断提高网页的权重,对已有页面不断定期抓取更新,新页面做增量抓取,以此来提高网站的收录量。书中还说明了网页消重的几种算法,详细介绍了搜索引擎怎样分辨相同内容的网页。从书中介绍的方法看“伪原创”的方法确实有用,不过搜索引擎发展到今天,这个方法已基本失去效用。
书中对于搜索引擎抓取网页的存储,如何定义抓取的URL类和Page类,域名和IP的对应关系,怎样抓取重要网页,中文分词,网页净化和消重,用户行为都有详细的介绍。这些内容都是从事搜索引擎优化人员必备的基本知识。希望从事SEO的童鞋们能静下心来好好读读此书。



no comment untill now