Mahout实战

作者：[美] Sean Owen / [美] Robin Anil / [美] Ted Dunning / [美] Ellen Friedman

译者：王斌 / 韩冀中 / 万吉

出版社：人民邮电出版社

出版年：2014-03

ISBN：9787115347220

行业：其它

浏览数：49

内容简介

通过收集数据来学习和演进的计算机系统威力无穷。Mahout作为Apache的开源机器学习项目，把推荐系统、分类和聚类等领域的核心算法浓缩到了可扩展的现成的库中。使用Mahout，你可以立即在自己的项目中应用亚马逊、Netflix及其他互联网公司所采用的机器学习技术。

本书出自Mahout核心成员之手，得到Apache官方推荐，权威性毋庸置疑。作者凭借多年实战经验，为读者展现了丰富的应用案例，并细致地介绍了Mahout的解决之道。本书还重点讨论了可扩展性问题，介绍了如何利用Apache Hadoop框架应对大数据的挑战。

本书内容：

• 利用分组数据实现个性化推荐；

• 寻找数据中的逻辑簇；

• 通过即时分类实现过滤与调优。

Sean Owen

现为大数据公司Cloudera数据产品总监，Myrrix创始人，曾任Apache Mahout项目管理委员会委员、谷歌高级软件工程师，是Mobile Web和Taste框架（现属于Mahout项目）的主力开发者。Owen拥有哈佛大学计算机科学专业学士学位。

Robin Anil

谷歌公司负责地图与广告方向的软件工程师，Apache Mahout项目管理委员会委员，为Mahout开发了贝叶斯分类器和频繁模式挖掘实现，曾经在雅虎公司任高级软件工程师。

Ted Dunning

MapR Technologies公司首席应用架构师，Apache Mahout和Zookeeper项目管理委员会成员，为Mahout聚类、分类、矩阵分解算法做出了贡献，曾任DeepDyve公司CTO及多家公司首席科学家。

Ellen Friedman

Apache Mahout项目代码提交者，生物化学博士学位，经验丰富的科技作家，作品涵盖计算机、分子生物学、医学和地球科学。

Mahout 是一个开源的机器学习库，现在它主要包含的内容是协同过滤（collaborative filtering）、聚类和分类。Mahout用Java实现，并且是scalable的，和Hadoop结合紧密。