Skip to content

诗词内容、绕口令、顺口溜模型建立的思考

amzxyz edited this page Oct 31, 2024 · 1 revision

对于诗词内容,分词方法可以基于以下几点来优化,以适应其独特的语言结构和语义需求:

  • 基于固定词汇的分词:

因为诗词常包含特定词汇和成语,可以根据古汉语的词典或专门的诗词词汇表进行分词。比如,对于“白日依山尽,黄河入海流”,可以识别出“白日”、“黄河”、“入海”等常用词。 一些开源的古汉语词典可以帮助构建这种词汇表,确保诗词分词的准确性。

  • 基于双字词的分词:

诗词中常见双字词,如“江水”、“长安”、“月夜”等,甚至虚词(如“之”、“乎”)也起到分词边界的作用。 可以通过双字窗口来识别句中双字结构,这对古诗词尤其有效,可以尽量避免拆分成单字的情况。

  • 使用规则化分词:

诗词结构常具有对仗和对称性,因此可以根据句法结构拆分。如将一句诗按字数等分,四言、五言、七言分别作为固定长度单位处理,有助于保持句式结构。 例如,五言绝句每句五个字,可以按照两两或三两一组分词。对于七言律诗,则可以按三字、四字的结构分组。

  • 引入拼音或音韵辅助分词:

诗词中常有押韵的需求,可以通过拼音或平仄韵律来辅助分词,确保韵脚的完整性。 在 n-gram 模型中加入音节或拼音信息,让模型在分词时考虑韵脚,如在“春眠不觉晓,处处闻啼鸟”中保留“晓”和“鸟”作为独立词。

  • 语料清洗和调整:

可以使用正则表达式去除标点和空格,将原诗按行或句分割处理,保留原始格式;在一些特殊情况(如合并同义词)时,对诗句进行必要的替换调整,确保词频的准确性。