这就是搜索引擎

作者：张俊林

副标题：核心技术详解

出版社：电子工业出版社

出版年：2012-01

ISBN：9787121148651

行业：因特网

浏览数：51

内容简介

搜索引擎作为互联网发展中至关重要的一种应用，已经成为互联网各个领域的制高点，其重要性不言而喻。搜索引擎领域也是互联网应用中不多见的以核心技术作为其命脉的领域，搜索引擎各个子系统是如何设计的？这成为广大技术人员和搜索引擎优化人员密切关注的内容。

本书的最大特点是内容新颖全面而又通俗易懂。对于实际搜索引擎所涉及的各种核心技术都有全面细致的介绍，除了作为搜索系统核心的网络爬虫、索引系统、排序系统、链接分析及用户分析外，还包括网页反作弊、缓存管理、网页去重技术等实际搜索引擎必须关注的技术，同时用相当大的篇幅讲解了云计算与云存储的核心技术原理。另外，本书也密切关注搜索引擎发展的前沿技术：Google的咖啡因系统及Megastore等云计算新技术、百度的暗网抓取技术阿拉丁计划、内容农场作弊、机器学习排序等。诸多新技术在相关章节都有详细讲解，同时对于社会化搜索、实时搜索及情境搜索等搜索引擎的未来发展方向做了技术展望。为了增进读者的理解，全书大量引入形象的图片来讲解算法原理，相信读者会发现原来搜索引擎的核心技术理解起来比原先想象的要简单得多。

......(更多)

作者简介

张俊林：本科毕业于天津大学管理学院，2004年于中科院软件所直接获得博士学位并留所从事科研工作，研究方向为搜索引擎与自然语言处理。2005年在CSDN博客发布系列博文“搜索引擎设计实用教程：以百度为例”，在网络上获得了广泛转载与良好口碑。2006年作为联合创始人建立了智能信息聚合网站“玩聚网”，曾先后于阿里巴巴搜索技术中心任资深搜索技术研究员、房价网首席研究员，现任职于新浪微博，从事微博搜索与语义分析及推荐方面的研发工作。

......(更多)

读书文摘

文本检索的一代使用经典的信息检索模型, 如布尔模型,向量空间模型或概率模型, 来计算用户查选关键词和网页文本内容的相关程度. 网页之间有丰富的链接关系, 而这一代搜索引擎并未使用这些信息. 目前几乎所有的商业搜索引擎都采取了链接分析技术

1995年是搜索引擎商业公司发展的重要起点, 其对应的背景是: 互联网上的Web站点数量首次超过100万, 此时普通用户已无法依赖手工浏览的方式来获得自己想要的信息, 在这一年产生了很多风云一时的早期搜索引擎公司. Yahoo, InfoSeek, Fast Search, AltaVista, Excite等曾经非常著名的搜索引擎公司都创建于1995年

......(更多)

猜你喜欢

这就是搜索引擎

内容简介

作者简介

目录

读书文摘

猜你喜欢