-
Notifications
You must be signed in to change notification settings - Fork 8
KenLM工具‐‐discount_fallback 选项的应用逻辑
在使用 --discount_fallback 选项时,三个值分别表示折扣因子、回退折扣因子和极低频项的最大回退值。下面是每个参数的详细说明、常见的取值范围以及如何调整它们来测试最好的效果。
--discount_fallback 参数详解
--discount_fallback 的三个值用来控制 Kneser-Ney 折扣 和 回退机制,其作用是通过调整高频、低频以及极低频项的平滑方式来实现更精确的模型。
- 第一个值:折扣因子(用于高频 n-gram)
作用: 控制 高频项 的折扣程度,值越小,高频项的概率就会被压得越低,值越大,高频项的概率就越大。
范围: 通常在 0.1 到 1.0 之间,较小的值(如 0.1 或 0.2)会压低高频项,较大的值(如 0.7 或 0.9)会使高频项保持较大的概率。
常见值: 通常推荐设置在 0.5 到 0.9 之间,以确保高频项不会过度压缩,同时不会影响低频项。
- 第二个值:低频 n-gram 回退折扣因子(用于低频 n-gram)
作用: 控制 低频项 在回退时所获得的折扣程度。较低的折扣因子使得低频 n-gram 在平滑时获得更多的概率,而较高的折扣因子则使得低频项获得较少的权重。
范围: 建议在 0.1 到 1.0 之间,较小的值(如 0.2 或 0.3)可以增加低频项的概率,较大的值则使低频项的概率减少。
常见值: 0.5 是一个常用的设置,表示在处理低频 n-gram 时,会给它们适当的概率。
- 第三个值:极低频项的回退最大值(用于极低频 n-gram)
作用: 控制 极低频项(即出现次数非常少的 n-gram)的回退最大值。这个值通常决定在回退时,为极低频 n-gram 提供多少最大概率。
范围: 通常取值范围是 1.0 到 2.0,它表示回退时的最大值,较高的值使得极低频项获得更高的估计概率。
常见值: 通常取值为 1.2 到 1.5,确保低频项不会过度抬高。
参数设置举例
--discount_fallback 0.5 0.5 1.5
0.5:高频项的折扣因子,表示适度压低高频项的概率。
0.5:低频项的回退折扣因子,表示低频项在回退时获得较高的概率。
1.5:极低频项的回退最大值,确保它们在回退时不会被过度忽视。
如何测试最佳效果
- 交叉验证
使用 交叉验证 来评估不同折扣因子组合下模型的性能。可以通过将文本数据集划分为多个部分(例如 10 折交叉验证),然后在每一折上训练模型并评估性能。
常用的评估指标包括:
困惑度(Perplexity):困惑度越低,模型对语言的建模效果越好。
精确度、召回率和 F1 分数:适用于基于 n-gram 的分类任务。
- 使用训练数据与验证数据集
在训练模型时,使用一部分数据来训练,另一部分数据用于验证模型的泛化能力。通过不同的折扣因子值组合,选择在验证集上表现最好的组合。
例如:将训练集分为 80% 用于训练,20% 用于验证,计算每次训练后模型在验证集上的困惑度或准确性,选择最佳的 discount_fallback 配置。
- 调整不同的组合
可以试着调整三个值,观察其对模型效果的影响。以下是几个常见的实验设置:
小折扣因子设置(高频项更被压低):
lmplz -o 2 --discount_fallback 0.2 0.3 1.5 --text corpus.txt --arpa bigram_model.arpa
中等折扣因子设置(适中):
lmplz -o 2 --discount_fallback 0.5 0.5 1.5 --text corpus.txt --arpa bigram_model.arpa
高折扣因子设置(高频项较少被压低):
lmplz -o 2 --discount_fallback 0.7 0.8 1.5 --text corpus.txt --arpa bigram_model.arpa
- 逐步调整参数
你可以通过逐步调整三个值并比较结果。例如,首先从高频项开始调整,然后测试低频项和极低频项的回退值,看看哪些设置最能提高模型性能。
总结:
第一个值(折扣因子):影响高频项,推荐设置 0.5 到 0.9,通过测试选择最优。
第二个值(低频回退折扣因子):影响低频项,推荐设置 0.2 到 0.5。
第三个值(极低频回退最大值):影响极低频项,推荐设置 1.2 到 1.5。
通过调整这些值并在验证集上进行评估,可以找到最佳的参数组合,使高频项得到适当压缩,低频项和极低频项能够获得适当的放大,从而优化模型性能。