Skip to content

Latest commit

 

History

History
507 lines (294 loc) · 23.7 KB

学习笔记:斯坦福大学机器学习公开课.md

File metadata and controls

507 lines (294 loc) · 23.7 KB

目录

斯坦福大学机器学习公开课笔记

斯坦福大学机器学习公开课笔记

1. 符号约定 目录

2. 线性回归与优化方法 目录

2.1. 目标函数 目录

2.2. 优化方法一:批量梯度下降 (Batch Gradient Descent) 目录

2.3. 优化方法二:随机梯度下降 (Stochastic Gradient Descent) 目录

随机梯度下降方法与批量梯度下降相比,每次迈出一步不一定是下降最快的方向,有时甚至是相反的方向,但是它的总体趋势是下降的。迭代次数多,但是每次迭代所用的时间少,总体效率更高。

2.4. 优化方法三:线性代数方法 目录

定义矩阵导数,以及矩阵的迹的性质

用线性代数方法求解θ

最终得到:

θ = (XTX)-1XTY

2.5. 参数与非参数学习算法 目录

  • Parametric Learning Algorithm : find set of parametric

  • No-parametric Learning Algorithm : no of parametric goes with m

2.5.1. 非参数学习算法的例子:Local weighted regression (局部加权回归) 目录

2.6. 线性回归目标函数(最小二乘)的来源 目录

So maximize L(θ) is the same as minimize

3. 分类 目录

3.1. 对Logistic回归的理解 目录

3.2. 分类问题描述,及用梯度上升方法进行求解 目录

L(θ)的导数推导过程:

3.3. 优化方法二:Newtown's Method 目录

3.4. 目标函数 Logistic function 的来源 目录

3.4.1. 指数分布族 (Exponential Family) 目录

3.4.2. 广义线性模型 (GLM) 目录

4. 生成学习算法 目录

4.1. 比较:判别学习算法与生产学习算法 目录

4.2. 多元高斯分布 目录

改变协方差矩阵主对角线上的数值

改变协方差矩阵副对角线上的数值

以等高线图展示

4.3. 生成学习算法一:高斯判别分析 目录

4.3.1. 高斯判别分析与logistic回归的关系 目录

4.4. 生成学习算法二:Naive Bayes 目录

4.4.1. Laplace Smoothing 目录

4.4.2. Naive Bayes的一般化 目录

4.4.2.1. x(i)有多个取值 目录

4.4.2.2. 多项式事件模型:考虑词出现的次数 目录

5. 非线性分类器 目录

5.1. Neural Network 目录

5.2. SVM 目录

5.2.1. 最大间隔分类器 目录

5.2.1.1. 函数间隔与几何间隔 目录

5.2.1.1.1. 函数间隔 目录

5.2.1.1.2. 几何间隔 目录

5.2.1.2. 最大化间隔分类器优化目标 目录

由于约束条件 ||w||=1 是非凸性约束,这给求解带来困难

5.2.1.2.1. 改变优化目标的表述方式 目录

5.2.1.2.2. 拉格朗日乘数法 目录

拉格朗日乘数法的一般化形式

5.2.1.3. 对偶问题 目录

5.2.1.3.1 原始问题与对偶问题获得相同解的情况 目录

5.2.2. Support Vector Machine 目录

5.2.2.1. 对SVM的理解 目录

5.2.2.2. 符号改动与优化目标 目录

5.2.2.3. 对偶问题及求解 目录

5.2.2.4. 算法內积化,引出Kernel 目录

5.2.3. 核函数Kernels 目录

5.2.3.1. 核函数定义 目录

5.2.3.2. Kernel如何实现高效计算? 目录

5.2.3.3. 测试Kernel是否合法 目录

5.2.3.4. Kernel在SVM中的应用 目录

5.2.4. 解决非线性决策问题:L1 Norm Soft Margin SVM 目录

5.2.4.1. 两种非线性决策情况 目录

5.2.4.2. L1 Norm Soft Margin SVM 目录

5.2.5. 坐标上升法 目录

5.2.5.1. 原算法 目录

5.2.5.2. 算法改进:SMO算法 目录

6. 学习理论 目录

6.1. 偏差-方差权衡 目录

6.1.1. 偏差与方差的直观理解 目录

6.1.2. 欠拟合与过拟合 目录

6.1.3. ERM(经验风险最小化) 目录

6.1.4. 证明:|ε(h)-ε^(h)| 有上界 目录

开始证明:|ε(h)-ε^(h)| 有上界

基于引理(1)得到:

6.1.4.1. 概率界形式 目录

6.1.4.2. 样本复杂度界形式 目录

6.1.4.3. 误差界形式 目录

误差界 (error bound) 的另一种形式及其推导过程:

6.1.4.3.1. 有助于量化偏差-方差权衡 目录

6.1.5. 探究样本复杂度 目录

6.1.5.1. 基于浮点数 64bit 的不严谨推论 目录

6.1.5.2. 正式表示形式:基于VC维 目录

6.1.5.2.1. VC维定义 目录

6.1.5.2.2. 基于VC维评估样本复杂度 目录

6.1.5.2.3. SVM的VC维 目录

6.1.6. 将ERM联系到之前讲过的学习算法上 目录

6.2. 模型选择 目录

6.2.1. 问题描述 目录

6.2.2. 策略一:Hold-on cross validation 目录

6.2.3. 策略二:Feature Selection 目录