(美)桑迪·里扎等著;龚少成;邱鑫译2018 年出版226 页ISBN:9787115482525
本书是使用Spark进行大规模数据分析的实战宝典,在第1版的基础上,针对Spark近年来的发展,对样例代码和所使用的资料进行了大量更新。本书能为关注Spark发展趋势的读者提供与时俱进的资料,例如Spark 2.0中Dataset...
郑奇煌著2017 年出版703 页ISBN:9787115469380
Kafka自LinkedIn开源以来就以高性能、高吞吐量、分布式的特性著称,本书以0.10版本的源码为基础,深入分析了Kafka的设计与实现,包括生产者和消费者的消息处理流程,新旧消费者不同的设计方式,存储层的实现,协调者和...
顾立平,马景源编著2017 年出版83 页ISBN:9787518930159
Spark是由伯克利大学(Berkeley)开源的计算框架,其特点是能够将任务的中间结果保存在内存中,不进行读写磁盘的操作,因而能够实现更快地处理。它在解决复杂线性代数、某些优化问题、迭代计算、机器学习等方面具...
(澳)杰夫瑞·艾文(Jeffrey Aven)著2019 年出版238 页ISBN:9787111622727
本书包括从Spark基本编程到高级编程,再到Spark SQL和机器学习的广泛内容。你会学到如何使用Spark高效管理各种形式的数据:流式数据、结构化数据、半结构化数据,还有非结构化数据。在全书中,精准的主题可以让你...
谢型果,任焕文,严军等著2017 年出版298 页ISBN:9787111578420
诞生于2006年的Ceph,是开源社区的明星项目,也是私有云事实上的标准——OpenStack的默认存储后端。作为当前炙手可热的分布式存储系统,Ceph拥有诸多引人注目的特性。本书侧重介绍RADOS及三大核心应用组件——R...
(美)里扎等著2015 年出版262 页ISBN:9787564159108
在这本实用书籍中,四位Cloudera公司的数据科学家讲解了一系列自包含模式,用于在Spark中进行大规模数据分析。本书作者们把Spark、统计原理和现实世界中的数据集合放到一起,通过实例教你如何解决数据分析问题。...
(美)RussellJurney著;王道远译2018 年出版323 页ISBN:9787121351662
本书介绍了作者提出的敏捷数据科学的方法论,结合作者在行业中多年的实际工作经验,为数据科学团队提供了一套以类似敏捷开发的方法开展数据科学研究的实践经验。全书基于Spark做全栈数据分析,书中展示了工业界...
彭文波,吕雪峰,宋泽宇著2012 年出版448 页ISBN:9787111380382
本书主要介绍了计算机网络分析的原理。同时,结合著名开源软件库WinPcap说明了如何通过实际的程序设计来实现网络分析的方方面面。其中,包括网络设备的打开、数据包的发送、数据包的过滤、数据包的捕获、数据...
PySpark实战指南 利用Python和Spark构建数据密集型应用并规模化布署
(美)托马兹·卓巴斯,丹尼·李著2017 年出版186 页ISBN:7111582380
刘驰主编;符积高,徐闻春编著2016 年出版264 页ISBN:9787111529286
本书是一本以Spark 1.4为基础,详细介绍了Spark技术的概况、内部机制和企业界的应用情况。作者结合国内外众多资料和项目经验,力求深入浅出地讲解Spark技术的生态应用和发展状况,此外还选取了Spark Summit中的...