几年前,“数学之美”系列文章原刊载于谷歌黑板报,获得上百万次点击,得到读者高度评价。读者说,读了“数学之美”,才发现大学时学的数学知识,比如马尔可夫链、矩阵计算,甚至余弦函数原来都如此亲切,并且栩栩如生,才发现自然语言和信息处理这么有趣。
今年,作者吴军博士几乎把所有文章都重写了一遍,为的是把高深的数学原理讲得更加通俗易懂,让非专业读者也能领略数学的魅力。读者通过具体的例子学到的是思考问题的方式 —— 如何化繁为简,如何用数学去解决工程问题,如何跳出固有思维不断去思考创新。
......(更多)
吴军博士,现任腾讯公司主管搜索、在线广告和云计算基础架构的副总裁,毕业于清华大学(本科、硕士)和美国约翰·霍普金斯大学(博士)。在清华大学和约翰·霍普金斯大学期间,吴军博士致力于语音识别、自然语言处理,特别是统计语言模型的研究。他曾获得1995年全国人机语音智能接口会议的最佳论文奖和2000年Eurospeech的最佳论文奖。
吴军博士于2002年加入Google公司。在Google,他和Amit Singhal(Google院士,世界著名搜索专家)、Matt Cutts(Google反作弊官方发言人)等三位同事一起开创了网络搜索反作弊的研究领域,并因此获得Google工程奖。2003年,他和Google全球架构的总工程师朱会灿博士等共同成立了中日韩文搜索部门。吴军博士是当前Google中日韩文搜索算法的主要设计者。在Google期间,他还领导了许多研发项目,包括许多与中文相关的产品和自然语言处理的项目,并得到了当时公司首席执行官埃里克·施密特和创始人谢尔盖·布林的高度评价。
吴军博士在国内外发表过数十篇论文,并获得和申请了十余项美国和国际专利。他撰写的《浪潮之巅》一书深受业界的好评。他于2007年起担任风险投资基金中国世纪基金的董事。2011年起,当选为约翰·霍普金斯大学工学院董事会董事,并在该校的国际事务委员会担任顾问。他是国家重大专项“新一代搜索引擎和浏览器”项目的总负责人,从2012年起任职工业与信息化部的专家和顾问。
......(更多)
出版说明
序言1
序言2
前言
第1章 文字和语言 vs 数字和信息
第2章 自然语言处理 — 从规则到统计
第3章 统计语言模型
第4章 谈谈中文分词
第5章 隐含马尔可夫模
第6章 信息的度量和作用
第7章 贾里尼克和现代语言处理
第8章 简单之美 — 布尔代数和搜索引擎的索引
第9章 图论和网络爬虫
第10章 PageRank — Google的民主表决式网页排名技术
第11章 如何确定网页和查询的相关性
第12章 地图和本地搜索的最基本技术 — 有限状态机和动态规划
第13章 Google AK-47的设计者 — 阿米特 · 辛格博士
第14章 余弦定理和新闻的分类
第15章 矩阵运算和文本处理中的两个分类问题
第16章 信息指纹及其应用
第17章 由电视剧《暗算》所想到的 — 谈谈密码学的数学原理
第18章 闪光的不一定是金子 — 谈谈搜索引擎反作弊问题
第19章 谈谈数学模型的重要性
第20章 不要把鸡蛋放到一个篮子里 — 谈谈最大熵模型
第21章 拼音输入法的数学原理
第22章 自然语言处理的教父马库斯和他的优秀弟子们
第23章 布隆过滤器
第24章 马尔可夫链的扩展 — 贝叶斯网络
第25章 条件随机场和句法分析
第26章 维特比和他的维特比算法
第27章 再谈文本自动分类问题 — 期望最大化算法
第28章 逻辑回归和搜索广告
第29章 各个击破算法和Google云计算的基础
附录
后记
索引
......(更多)
1. 一个正确的数学模型应当在形式上是简单的. 2. 一个正确的模型一开始可能还不如一个精雕细琢过的错误模型来的准确, 但是, 如果我们认定大方向是对的, 就应该坚持下去. 3. 大量准确的数据对研发很重要. 4. 正确的模型也可能受噪音干扰, 而显得不准确; 这时不应该用一种凑合的修正方法来弥补它, 而是要找到噪音的根源, 这也许能通往重大的发现.
......(更多)