Summary 引言 1 机器学习策略的原因 2 如何使用本书来帮助您的团队 3 预备知识和注释 4 规模推动机器学习进步 设置开发集和测试集 5 您的开发和测试集 6 你的开发集和测试集应该来自相同的分布 7 开发集/测试集需要多大 8 为您的团队建立单一数字的评估指标以进行优化 9 优化指标和满足指标 10 通过开发集和评估标准加速迭代 11 何时更改开发/测试集和评估指标 12 小结:建立开发集和测试集 基本错误分析 13 快速构建您的第一个系统,然后迭代 14 误差分析:查看开发集样本以评估想法 15 在误差分析期间并行评估多个想法 16 清理错误标注的开发和测试集样本 17 如果你有一个大的开发集,将其分成两个子集,只着眼于其中的一个 18 Eyeball 和 Blackbox 开发集应该多大? 19 小贴士:基本误差分析 偏差和方差 20 偏差和方差:误差的两大来源 21 偏差和方差的例子 22 比较最优错误率 23 处理偏差和方差 24 偏差和方差间的权衡 25 减少可避免偏差的方法 26 训练集上的误差分析 27 减少方差的方法 学习曲线 28 诊断偏差和方差:学习曲线 29 绘制训练误差曲线 30 解读学习曲线:高偏差 31 解释学习曲线:其他情况 32 绘制学习曲线 和人类水平相比较 33 为何我们要与人类水平的表现作对比 34 如何定义人类水平的表现 35 超越人类水平表现 在不同分布下训练和测试 36 何时应该在不同的分布下训练和测试 37 如何决定是否使用所有数据 38 如何决定是否包含不一致的数据 39 加权数据 40 从训练集到开发集的泛化 41 识别偏差、方差和数据不匹配误差 42 处理数据不匹配 43 人工数据合成 调试推理算法 44 优化验证测试 45 优化验证集的一般形式 46 强化学习样本 端到端深度学习 47 端到端学习的兴起 48 更多端到端学习示例 49 端到端学习的优点和缺点 50 选择流水线组件:数据可用性 51 选择流水线组件:任务简单 52 直接学习丰富的输出 组件错误分析 53 组件错误分析 54 将错误归因于某个组件 55 错误归因的一般情况 56 组件错误分析和与人类水平的对比 57 发现有瑕疵的ML流水线 总结 58 组建一个超级英雄团队——让你的队友阅读本书