PySpark-Learning-Tutorial

Hadoop+PySpark大数据挖掘、处理与分析

第1章：深入浅出入门大数据

1.1走进大数据

1.1.1 传统数据库介绍
1.1.2 传统数据分析痛点
1.1.3 大数据的诞生
1.1.4 大数据时代—Hadoop生态圈
1.1.5 大数据分析利刃—Spark

1.2 Hadoop介绍

1.2.1 Hadoop概述
1.2.2 Hadoop的特点
1.2.3 分布式文件系统—HDFS
1.2.4 分布式计算框架—MapReduce
1.2.5 集群资源管理器—Yarn
1.2.6 Hadoop应用场景

1.3 Spark介绍

1.3.1 Spark概述
1.3.2 Spark的特点
1.3.3 Spark工作原理
1.3.4 Spark核心组件
1.3.5 Spark机器学习
1.3.6 Spark应用场景

第2章：Hadoop集群环境搭建

2.1 Hadoop集群环境介绍

2.1.1 Hadoop组件选择
2.1.1 Hadoop集群节点配置
2.2 VMware虚拟机软件安装与配置
2.2.1 虚拟机软件安装
2.2.2 创建Linux虚拟机
2.2.3 Linux设置固定IP

2.3 Java软件安装

2.3.1 Windows安装JDK
2.3.2 Linux安装JDK

2.4 Hadoop完全分布式集群搭建

2.4.1 安装Hadoop
2.4.2 克隆虚拟机
2.4.3 修改配置文件
2.4.4 配置SSH免密登录
2.4.5 HDFS初始格式化
2.4.6 启动Hadoop
2.4.7 Hadoop集群监控

第3章：大数据开发工具装备

3.1 大数据开发语言

3.1.1 Python语言介绍
3.1.2 Scala语言介绍
3.2 Anaconda安装与配置
3.2.1 Anaconda介绍
3.2.2 Anaconda下载与安装
3.2.3 Anaconda镜像源配置
3.2.4 Jupyter Notenbook配置
3.2.5 Jupyter Notebook初体验

3.3 Scala安装

3.3.1 Window下Scala安装
3.3.2 Linux下Scala安装
3.3.3 Scala交互式体验

3.4 Maven安装与配置

3.4.1 Maven介绍
3.4.2 Maven下载与安装
3.4.3 Maven镜像源配置

3.5 IDEA安装与应用

3.5.1 IDEA工具介绍
3.5.2 IDEA下载与安装
3.5.3 Hello Scala—创建第一个Scala程序

第4章：Hadoop命令快速上手

4.1 Hadoop集群信息查询

4.1.1 集群节点信息查询
4.1.2 集群存储系统信息查询
4.1.3 集群计算资源信息查询

4.2 HDFS操作灵活应用

4.2.1 HDFS目录操作命令
4.2.2 HDFS文件操作命令
4.2.3 HDFS Web操作HDFS

第5章：MapReduce计算引擎应用

5.1 你的第一个MapReduce程序

5.1.1 Hadoop官方实例程序介绍
5.1.2 提交集群MapReduce程序
5.1.3 查询MapReduce任务
5.1.4 MapReduce程序结果分析

5.2 手把手WordCount实战

5.2.1 WordCount介绍
5.2.2 带你Mapper.py编写
5.2.3 带你Reducer.py编写
5.2.4 提交WordCount 程序
5.2.5 WordCount程序结果分析

第6章：Spark集群环境搭建

6.1 Spark集群环境介绍

6.1.1 Spark组件选择
6.1.2 Spark集群节点配置

6.2 Spark集群监控

6.2.1 启动Spark集群
6.2.2 Spark 集群监控页面

6.3 Spark交互式界面

6.3.1 Spark Shell交互界面
6.3.2 Local模式Pyspark交互界面
6.3.3 Yarn模式Pyspark交互界面
6.3.4 Standalone模式Pyspark交互界面

6.4 Jupyter Notebook PySpark搭建

6.4.1 Local模式运行PySpark Notebook
6.4.2 Yarn 模式运行PySpark Notebook

6.5 PySpark Notebook初体验

6.5.1 PySpark在Jupyter Notebook中的交互
6.5.2 Pyspark WordCount实战

第7章：Spark Core基础计算框架

Code

7.1 RDD介绍

7.1.1 什么是RDD
7.1.2 RDD特点与特性

7.2 RDD工作原理

7.2.1 RDD工作机制原理
7.2.2 RDD依赖关系

7.3 RDD API应用

7.3.1 RDD 的创建
7.3.2 RDD基本信息
7.3.3 RDD Transform基本运算
7.3.4 RDD Action基本运算
7.3.5 RDD Key-Value Transform基本运算
7.3.6 RDD Key-Value Action基本运算
7.3.7 共享变量

7.3.8 RDD持久化
7.3.9 WordCount代码详解

第8章：数据分析—电商PV、UV榜实战

Code

8.1 数据统计实战介绍

8.1.1 电商PV、UV需求介绍
8.1.2 需求分析及思路

8.2 电商PV、UV榜代码实战

8.2.1 数据集介绍
8.2.2 读取数据集
8.2.3 PV统计计算与分析
8.2.4 UV统计计算与分析

8.3 代码实现详解

第9章：Spark SQL结构化数据处理

Code

9.1 Spark SQL与DataFrame

9.1.1 什么是Spark SQL
9.1.2 Spark SQL的特点
9.1.3 什么是DataFrame
9.1.4 什么是DataSet

9.2 DataFrame快速入门

9.2.1 创建SparkSession
9.2.2 创建DataFrame
9.2.3 展示DataFrame初体验
9.2.4 使用DataFrame查询数据
9.2.5 使用DataFrame增加数据
9.2.6 使用DataFrame修改数据
9.2.7 使用DataFrame筛选数据
9.2.8 使用DataFrame合并数据
9.2.9 使用DataFrame进阶处理
9.2.10 自定义UDF函数
9.2.11 DataFrame数据存储
9.2.11 DataFrame与RDD的交互

9.3 Spark SQL编程

9.3.1 Spark SQL数据源创建
9.3.2 使用Spark SQL查询数据
9.3.3 使用Spark SQL增加数据
9.3.4 使用Spark SQL修改数据
9.3.5 使用Spark SQL筛选数据
9.3.6 使用Spark SQL合并数据
9.3.7 使用Spark SQL进阶处理
9.3.8 自定义UDF函数

9.4 RDD、DataFrame、Spark SQL比较

第10章：Spark DataFrame实战—空气质量指数PM2.5分析

Code

10.1 Spark DataFrame实战介绍

10.1.1 空气质量指数分析需求介绍
10.1.2 需求分析及思路

10.2 空气质量指数PM2.5分析实战

10.2.1 数据集介绍
10.2.2 读取数据集
10.2.3 数据预处理
10.2.4 空气质量统计与分析

10.3 Pyspark与Pandas交互

10.3.1 Pyspark与Pandas的转换
10.3.2 Pandas数据绘图

第11章：Spark机器学习利器

Code

11.1 Spark ML与Spark Mlib

11.1.1 Spark Mlib介绍
11.1.2 Spark ML介绍
11.1.3 Spark ML与Spark Mlib区别

11.2 Spark Mlib数据类型

11.2.1 本地向量集
11.2.2 向量标签
11.2.3 本地矩阵

11.3 Spark Mlib数据统计类型

11.3.1 统计量基本数据
11.3.2 相关系数计算
11.3.3 卡方检验计算

11.4 线性回归

11.4.1 线性回归介绍
11.4.2 最小二乘法
11.4.3 创建SparkSession
11.4.4 读取数据集
11.4.5 特征工程
11.4.6 构建训练集和测试集
11.4.7 模型训练
11.4.8 模型评估

11.5 逻辑回归

11.5.1 逻辑回归介绍
11.5.2 逻辑回归模型评估
11.5.3 创建SparkSession
11.5.4 读取数据集
11.5.5 数据分析
11.5.6 特征工程
11.5.7 构建训练集和测试集
11.5.8 模型测试与测试
11.5.9 混淆矩阵计算

11.6 K-Means聚类

11.6.1 K-Means聚类介绍
11.6.2 创建SparkSession
11.6.3 读取数据集
11.6.4 特征工程
11.6.5 模型测试与评估

11.7 随机森林

11.7.1 决策树介绍
11.7.2 随机森林介绍
11.7.3 创建SparkSession
11.7.4 读取数据集
11.7.5 数据分析
11.7.6 特征工程
11.7.7 构建训练集和测试集
11.7.8 模型训练测试
11.7.9 评估指标分析
11.7.10 模型保存与导入

第12章：Spark ML Pipeline让机器学习更丝滑

Code

12.1 Pipline主要概念

12.1.1 Pipline简介
12.1.2 Pipline组件
12.1.3 Pipline工作流程

12.2 ML Pipline常用方法

12.2.1 StringIndexer
12.2.2 OneHotEncoder
12.2.3 VectorAssembler
12.2.4 MinMaxScaler
12.2 Pipline逻辑回归实战
12.2.1 创建数据集
12.2.2 建立ML Pipline
12.2.3 模型训练
12.2.4 使用模型预测
12.2.5 模型评估

第13章：大数据分析最佳实战—电影推荐系统

Code

13.1 推荐系统介绍

13.1.1 推荐系统
13.1.2 推荐系统需求

13.2 常见推荐系统方法

13.2.1 基于内容推荐系统
13.2.2 协同过滤推荐系统
13.2.3 混合推荐系统

13.3 电影推荐系统实战

13.3.1 数据集介绍
13.3.2 读取数据集
13.3.3 探究数据集
13.3.4 特征工程构建
13.3.5 创建训练数据集
13.3.6 ALS模型原理介绍
13.3.7 模型训练与评估
13.3.8 模型系统展示

Name		Name	Last commit message	Last commit date
Latest commit History 10 Commits
.idea		.idea
Chapter01		Chapter01
Chapter02		Chapter02
Chapter03		Chapter03
Chapter04		Chapter04
Chapter05		Chapter05
Chapter06		Chapter06
Chapter07		Chapter07
Chapter08		Chapter08
Chapter09		Chapter09
Chapter10		Chapter10
Chapter11		Chapter11
Chapter12		Chapter12
Chapter13		Chapter13
data		data
.DS_Store		.DS_Store
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md

License

HenryBao91/PySpark-Learning-Tutorial

Folders and files

Latest commit

History

Repository files navigation

PySpark-Learning-Tutorial

1.1走进大数据

1.2 Hadoop介绍

1.3 Spark介绍

2.1 Hadoop集群环境介绍

2.3 Java软件安装

2.4 Hadoop完全分布式集群搭建

3.1 大数据开发语言

3.3 Scala安装

3.4 Maven安装与配置

3.5 IDEA安装与应用

4.1 Hadoop集群信息查询

4.2 HDFS操作灵活应用

5.1 你的第一个MapReduce程序

5.2 手把手WordCount实战

6.1 Spark集群环境介绍

6.2 Spark集群监控

6.3 Spark交互式界面

6.4 Jupyter Notebook PySpark搭建

6.5 PySpark Notebook初体验

7.1 RDD介绍

7.2 RDD工作原理

7.3 RDD API应用

8.1 数据统计实战介绍

8.2 电商PV、UV榜代码实战

8.3 代码实现详解

9.1 Spark SQL与DataFrame

9.2 DataFrame快速入门

9.3 Spark SQL编程

9.4 RDD、DataFrame、Spark SQL比较

10.1 Spark DataFrame实战介绍

10.2 空气质量指数PM2.5分析实战

10.3 Pyspark与Pandas交互

11.1 Spark ML与Spark Mlib

11.2 Spark Mlib数据类型

11.3 Spark Mlib数据统计类型

11.4 线性回归

11.5 逻辑回归

11.6 K-Means聚类

11.7 随机森林

12.1 Pipline主要概念

12.2 ML Pipline常用方法

13.1 推荐系统介绍

13.2 常见推荐系统方法

13.3 电影推荐系统实战

About

Topics

Resources

License

Uh oh!

Stars

Watchers

Forks

Languages