当前位置: 首页 > 大数据

Apache Spark大数据分析:基于Azure Databricks云平台 pdf电子书[34MB]

  • 大数据
  • 更新时间:2025-10-03 07:24:24
简介《Apache Spark大数据分析》是由罗伯特·伊利杰森编著,Azure Databricks是一款基于云的大数据分析和机器学习平台,用于实现基于Apache Spark的数据处理,为快速增长的海量数据的处理和决策需求分析提供了良好的支撑。《Apache Spa...
《Apache Spark大数据分析:基于Azure Databricks云平台》pdf电子书下载
《Apache Spark大数据分析:基于Azure Databricks云平台》pdf百度网盘
《Apache Spark大数据分析:基于Azure Databricks云平台》pdf百度网盘
《Apache Spark大数据分析:基于Azure Databricks云平台》pdf百度网盘
《Apache Spark大数据分析:基于Azure Databricks云平台》pdf百度网盘

 

Azure Databricks是一款基于云的大数据分析和机器学习平台,用于实现基于Apache Spark的数据处理,为快速增长的海量数据的处理和决策需求分析提供了良好的支撑。《Apache Spark大数据分析:基于Azure Databricks云平台》详细介绍基于Azure Databricks云平台来使用Apache Spark完成大规模数据处理和分析的方法。本书总计11章,首先介绍大规模数据分析相关的概念;然后介绍受管的Spark及其与Databricks的关系,以及Databricks的版本差异和使用方法(涵盖工作区、集群、笔记本、Databricks文件系统、数据导入/导出等内容);接着介绍使用SQL和Python分别实现数据分析的过程,数据提取、变换、加载、存储、优化技巧等高阶数据处理方法以及外部连接工具、生产环境集成等内容;最后探讨了运行机器学习算法、合并数据更新以及通过API运行Databricks、Delta流处理等高阶主题。

作为数据分析领域的入门书,本书具有很强的实用性,可供数据工程师、数据分析师和决策分析人员等学习和参考。


作者简介:
罗伯特•伊利杰森(Robert Ilijason),商务智能领域深耕20年的战场老兵,曾担任过欧洲一些大公司的外包人,并在零售、电信、银行、政府机构等领域做过大规模数据分析项目。多年来,数据分析领域的各种风尚潮起潮落,但他深信云端Apache Spark(尤其是与Databricks一起)与众不同,将是游戏规则的改变者。

目录:
第1章 大规模数据分析简介 1
第2章 Spark和Databricks 14
第3章 Databricks初步 25
第4章 工作区、集群和笔记本 35
第5章 将数据载入Databricks 46
第6章 使用SQL查询数据 67
第7章 Python的威力 92
第8章 ETL和高级数据整理 123
第9章 在Databricks和外部工具之间建立连接 155
第10章 在生产环境中运行解决方案 176
第11章 杂项 200

点击下载