语言模型参数配置说明

在使用之前我先要告知，首先要明白效果是词库和模型共同决定的，因此建议在使用更为激进和高命中率的版本时候可以开启调频，但是如果使用v3以上版本建议关闭调频，因为调频会让结果一塌糊涂

例如：各个国家有各个国家的国歌，如果上屏多次德国，这句话就不再能打出来！

只需要将这一段内容放在方案文件末尾，不要自己修改格式。除非你非常了解！

参数介绍：

__include: octagram   #启用语言模型
#语言模型
octagram:
  __patch:
    grammar:
      language: amz-v2n3m1-zh-hans  
      collocation_max_length: 5
      collocation_min_length: 2
    translator/contextual_suggestions: true
    translator/max_homophones: 7
    translator/max_homographs: 7

这样一个句式结构可以放在方案配置文件里，可以实现简单开关语言模型的特点

max_homophones - 同音字/词覆盖数量

该参数定义了每组同音字或同音词中，将多少个进行成句。数值越高，生僻字词的覆盖率越高，但运算量也会显著增加。对于较少使用的字词，通常在同音字词列表中排名较后，其组成句子的成功率较低，因此设置较大的值并不经济，可能会影响运算性能。一般推荐使用程序的默认值，适当调节到适合的同音字覆盖范围，既保留必要的覆盖率，也节省资源。

collocation_{min,max}_length - 配对词组的字符长度范围

此参数用于设置词组的最小和最大字符数，以提高对自然语言文本的匹配效果。 min_length 通常可以设置为 2，表示最小匹配为两个字符的词组。 max_length 建议根据语言模型中的最大词组长度来决定。设置过大会导致无效的查找和计算资源浪费，且不易命中词库中的词组。适当的范围不仅可以增强模型的有效性，还能减少冗余计算。 bgc 和 tgc - 匹配单位选择

bgc (bigram character) 和 tgc (trigram character) 表示在生成匹配单位时的分段策略。bgc 通常用于二元组，也即按两个字为单位，而 tgc 则是三元组，每三个字为单位。 bgc 的 max_length 应设置为 2，满足二元匹配；tgc 的 max_length 设置为 3，以支持三元组合。这些设置使模型的匹配策略更具针对性，提高运行效率。扩展说明在自然语言处理任务中，同音字、词汇组对、配对长度等参数影响着成句的准确性与模型的运行效率。根据语言模型与硬件条件，合理调整上述参数不仅有助于生成自然、连贯的句子，还能节省系统资源。以下是几种实用调整建议：

优化max_homophones设置：通常默认的同音字数量即可满足大部分情况；若需要特定同音字或词汇的覆盖，可以适当增大数值，但避免过大，否则会影响运算。

根据模型能力设置合适的collocation_length：匹配长度设置为最小2、最大与模型支持的长度匹配，有助于在确保覆盖常用组合的同时，避免多余的计算。

使用合适的匹配单位：在日常应用中，使用bgc的二元组合与tgc的三元组合即可满足大部分情况，设置适当的最大值可以提高匹配效率。

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

语言模型参数配置说明

Clone this wiki locally