Hadoop+PySpark大数据挖掘、处理与分析
1.1.1 传统数据库介绍
1.1.2 传统数据分析痛点
1.1.3 大数据的诞生
1.1.4 大数据时代—Hadoop生态圈
1.1.5 大数据分析利刃—Spark
1.2.1 Hadoop概述
1.2.2 Hadoop的特点
1.2.3 分布式文件系统—HDFS
1.2.4 分布式计算框架—MapReduce
1.2.5 集群资源管理器—Yarn
1.2.6 Hadoop应用场景
1.3.1 Spark概述
1.3.2 Spark的特点
1.3.3 Spark工作原理
1.3.4 Spark核心组件
1.3.5 Spark机器学习
1.3.6 Spark应用场景
2.1.1 Hadoop组件选择
2.1.1 Hadoop集群节点配置
2.2 VMware虚拟机软件安装与配置
2.2.1 虚拟机软件安装
2.2.2 创建Linux虚拟机
2.2.3 Linux设置固定IP
2.3.1 Windows安装JDK
2.3.2 Linux安装JDK
2.4.1 安装Hadoop
2.4.2 克隆虚拟机
2.4.3 修改配置文件
2.4.4 配置SSH免密登录
2.4.5 HDFS初始格式化
2.4.6 启动Hadoop
2.4.7 Hadoop集群监控
3.1.1 Python语言介绍
3.1.2 Scala语言介绍
3.2 Anaconda安装与配置
3.2.1 Anaconda介绍
3.2.2 Anaconda下载与安装
3.2.3 Anaconda镜像源配置
3.2.4 Jupyter Notenbook配置
3.2.5 Jupyter Notebook初体验
3.3.1 Window下Scala安装
3.3.2 Linux下Scala安装
3.3.3 Scala交互式体验
3.4.1 Maven介绍
3.4.2 Maven下载与安装
3.4.3 Maven镜像源配置
3.5.1 IDEA工具介绍
3.5.2 IDEA下载与安装
3.5.3 Hello Scala—创建第一个Scala程序
4.1.1 集群节点信息查询
4.1.2 集群存储系统信息查询
4.1.3 集群计算资源信息查询
4.2.1 HDFS目录操作命令
4.2.2 HDFS文件操作命令
4.2.3 HDFS Web操作HDFS
5.1.1 Hadoop官方实例程序介绍
5.1.2 提交集群MapReduce程序
5.1.3 查询MapReduce任务
5.1.4 MapReduce程序结果分析
5.2.1 WordCount介绍
5.2.2 带你Mapper.py编写
5.2.3 带你Reducer.py编写
5.2.4 提交WordCount 程序
5.2.5 WordCount程序结果分析
6.1.1 Spark组件选择
6.1.2 Spark集群节点配置
6.2.1 启动Spark集群
6.2.2 Spark 集群监控页面
6.3.1 Spark Shell交互界面
6.3.2 Local模式Pyspark交互界面
6.3.3 Yarn模式Pyspark交互界面
6.3.4 Standalone模式Pyspark交互界面
6.4.1 Local模式运行PySpark Notebook
6.4.2 Yarn 模式运行PySpark Notebook
6.5.1 PySpark在Jupyter Notebook中的交互
6.5.2 Pyspark WordCount实战
7.1.1 什么是RDD
7.1.2 RDD特点与特性
7.2.1 RDD工作机制原理
7.2.2 RDD依赖关系
7.3.1 RDD 的创建
7.3.2 RDD基本信息
7.3.3 RDD Transform基本运算
7.3.4 RDD Action基本运算
7.3.5 RDD Key-Value Transform基本运算
7.3.6 RDD Key-Value Action基本运算
7.3.7 共享变量
7.3.8 RDD持久化
7.3.9 WordCount代码详解
8.1.1 电商PV、UV需求介绍
8.1.2 需求分析及思路
8.2.1 数据集介绍
8.2.2 读取数据集
8.2.3 PV统计计算与分析
8.2.4 UV统计计算与分析
9.1.1 什么是Spark SQL
9.1.2 Spark SQL的特点
9.1.3 什么是DataFrame
9.1.4 什么是DataSet
9.2.1 创建SparkSession
9.2.2 创建DataFrame
9.2.3 展示DataFrame初体验
9.2.4 使用DataFrame查询数据
9.2.5 使用DataFrame增加数据
9.2.6 使用DataFrame修改数据
9.2.7 使用DataFrame筛选数据
9.2.8 使用DataFrame合并数据
9.2.9 使用DataFrame进阶处理
9.2.10 自定义UDF函数
9.2.11 DataFrame数据存储
9.2.11 DataFrame与RDD的交互
9.3.1 Spark SQL数据源创建
9.3.2 使用Spark SQL查询数据
9.3.3 使用Spark SQL增加数据
9.3.4 使用Spark SQL修改数据
9.3.5 使用Spark SQL筛选数据
9.3.6 使用Spark SQL合并数据
9.3.7 使用Spark SQL进阶处理
9.3.8 自定义UDF函数
10.1.1 空气质量指数分析需求介绍
10.1.2 需求分析及思路
10.2.1 数据集介绍
10.2.2 读取数据集
10.2.3 数据预处理
10.2.4 空气质量统计与分析
10.3.1 Pyspark与Pandas的转换
10.3.2 Pandas数据绘图
11.1.1 Spark Mlib介绍
11.1.2 Spark ML介绍
11.1.3 Spark ML与Spark Mlib区别
11.2.1 本地向量集
11.2.2 向量标签
11.2.3 本地矩阵
11.3.1 统计量基本数据
11.3.2 相关系数计算
11.3.3 卡方检验计算
11.4.1 线性回归介绍
11.4.2 最小二乘法
11.4.3 创建SparkSession
11.4.4 读取数据集
11.4.5 特征工程
11.4.6 构建训练集和测试集
11.4.7 模型训练
11.4.8 模型评估
11.5.1 逻辑回归介绍
11.5.2 逻辑回归模型评估
11.5.3 创建SparkSession
11.5.4 读取数据集
11.5.5 数据分析
11.5.6 特征工程
11.5.7 构建训练集和测试集
11.5.8 模型测试与测试
11.5.9 混淆矩阵计算
11.6.1 K-Means聚类介绍
11.6.2 创建SparkSession
11.6.3 读取数据集
11.6.4 特征工程
11.6.5 模型测试与评估
11.7.1 决策树介绍
11.7.2 随机森林介绍
11.7.3 创建SparkSession
11.7.4 读取数据集
11.7.5 数据分析
11.7.6 特征工程
11.7.7 构建训练集和测试集
11.7.8 模型训练测试
11.7.9 评估指标分析
11.7.10 模型保存与导入
12.1.1 Pipline简介
12.1.2 Pipline组件
12.1.3 Pipline工作流程
12.2.1 StringIndexer
12.2.2 OneHotEncoder
12.2.3 VectorAssembler
12.2.4 MinMaxScaler
12.2 Pipline逻辑回归实战
12.2.1 创建数据集
12.2.2 建立ML Pipline
12.2.3 模型训练
12.2.4 使用模型预测
12.2.5 模型评估
13.1.1 推荐系统
13.1.2 推荐系统需求
13.2.1 基于内容推荐系统
13.2.2 协同过滤推荐系统
13.2.3 混合推荐系统
13.3.1 数据集介绍
13.3.2 读取数据集
13.3.3 探究数据集
13.3.4 特征工程构建
13.3.5 创建训练数据集
13.3.6 ALS模型原理介绍
13.3.7 模型训练与评估
13.3.8 模型系统展示