Skip to content

语言模型参数配置说明

amzxyz edited this page Dec 19, 2024 · 6 revisions

在使用之前我先要告知,首先要明白效果是词库和模型共同决定的,因此建议在使用更为激进和高命中率的版本时候可以开启调频,但是如果使用v3以上版本建议关闭调频,因为调频会让结果一塌糊涂

例如:各个国家有各个国家的国歌 ,如果上屏多次德国,这句话就不再能打出来!

只需要将这一段内容放在方案文件末尾,不要自己修改格式。除非你非常了解!

参数介绍:

__include: octagram   #启用语言模型
#语言模型
octagram:
  __patch:
    grammar:
      language: amz-v2n3m1-zh-hans  
      collocation_max_length: 5
      collocation_min_length: 2
    translator/contextual_suggestions: true
    translator/max_homophones: 7
    translator/max_homographs: 7

这样一个句式结构可以放在方案配置文件里,可以实现简单开关语言模型的特点

max_homophones - 同音字/词覆盖数量

该参数定义了每组同音字或同音词中,将多少个进行成句。 数值越高,生僻字词的覆盖率越高,但运算量也会显著增加。对于较少使用的字词,通常在同音字词列表中排名较后,其组成句子的成功率较低,因此设置较大的值并不经济,可能会影响运算性能。 一般推荐使用程序的默认值,适当调节到适合的同音字覆盖范围,既保留必要的覆盖率,也节省资源。

collocation_{min,max}_length - 配对词组的字符长度范围

此参数用于设置词组的最小和最大字符数,以提高对自然语言文本的匹配效果。 min_length 通常可以设置为 2,表示最小匹配为两个字符的词组。 max_length 建议根据语言模型中的最大词组长度来决定。设置过大会导致无效的查找和计算资源浪费,且不易命中词库中的词组。 适当的范围不仅可以增强模型的有效性,还能减少冗余计算。 bgc 和 tgc - 匹配单位选择

bgc (bigram character)tgc (trigram character) 表示在生成匹配单位时的分段策略。bgc 通常用于二元组,也即按两个字为单位,而 tgc 则是三元组,每三个字为单位。 bgc 的 max_length 应设置为 2,满足二元匹配;tgc 的 max_length 设置为 3,以支持三元组合。这些设置使模型的匹配策略更具针对性,提高运行效率。 扩展说明 在自然语言处理任务中,同音字、词汇组对、配对长度等参数影响着成句的准确性与模型的运行效率。根据语言模型与硬件条件,合理调整上述参数不仅有助于生成自然、连贯的句子,还能节省系统资源。以下是几种实用调整建议:

优化max_homophones设置:通常默认的同音字数量即可满足大部分情况;若需要特定同音字或词汇的覆盖,可以适当增大数值,但避免过大,否则会影响运算。

根据模型能力设置合适的collocation_length:匹配长度设置为最小2、最大与模型支持的长度匹配,有助于在确保覆盖常用组合的同时,避免多余的计算。

使用合适的匹配单位:在日常应用中,使用bgc的二元组合与tgc的三元组合即可满足大部分情况,设置适当的最大值可以提高匹配效率。