传统蒙古文基础自然语言处理工具包
pip install -U git+https://github.com/aronsoyol/tmtk
from tmtk import convert2unicode
convert2unicode("")
'ᠠᠷᠣ\u202fᠬᠣᠷᠴᠢᠨ\u202fᠬᠣᠰᠢᠭᠣ\u202f\u202fᠨᠠᠭᠠᠳ᠋ᠣᠮ\u202fᠳ᠋ᠡᠭᠢ\u202fᠲᠠᠯᠠᠨᠨᠣᠸᠠ\u202fᠢᠨ\u202fᠪᠠᠭᠣᠴᠠ\u202f'
text = """ᠪᠢᠳᠡ ᠪᠣᠯ ᠬᠥᠮᠦᠨ ᠲᠥᠷᠦᠯᠬᠢᠲᠡᠨ ᠦ᠌ ᠰᠢᠨᠡ ᠲᠡᠦᠬᠡ ᠶ᠋ᠢ ᠨᠡᠭᠡᠭᠡᠵᠦ ᠪᠠᠢᠭᠠ ᠭᠡᠷᠡᠯ ᠰᠠᠴᠤᠷᠠᠩᠭᠤᠢ ᠴᠠᠭ ᠦᠶᠡ ᠳ᠋ᠦ ᠠᠮᠢᠳᠤᠷᠠᠵᠤ ᠪᠠᠢᠭᠠ ᠶᠤᠮ᠃ ᠡᠨᠡ ᠬᠦ ᠴᠠᠭ ᠦᠶᠡ ᠳ᠋ᠦ ᠮᠠᠰᠢ ᠣᠯᠠᠨ ᠬᠡᠷᠡᠭ᠌ ᠪᠣᠳᠠᠰ ᠲᠤ ᠬᠥᠮᠦᠰ ᠰᠢᠨᠡ ᠪᠣᠳᠤᠯ ᠰᠢᠨᠡ ᠲᠥᠷᠦᠭᠳᠡᠯ ᠣᠷᠤᠵᠤ ᠪᠠᠢᠨᠠ᠃"""
from tmtk import tokenizer
tokens = [a for a in tokenizer.tokenize(text,split_suffix=True,only_mongolian=True)]
print(tokens)
['ᠪᠢᠳᠡ', 'ᠪᠣᠯ', 'ᠬᠥᠮᠦᠨ', 'ᠲᠥᠷᠦᠯᠬᠢᠲᠡᠨ', 'ᠦ᠌', 'ᠰᠢᠨ\u180eᠡ', 'ᠲᠡᠦᠬᠡ', 'ᠶ᠋ᠢ', 'ᠨᠡᠭᠡᠭᠡᠵᠦ', 'ᠪᠠᠢᠭ\u180eᠠ', 'ᠭᠡᠷᠡᠯ', 'ᠰᠠᠴᠤᠷᠠᠩᠭᠤᠢ', 'ᠴᠠᠭ', 'ᠦᠶ\u180eᠡ', 'ᠳ᠋ᠦ', 'ᠠᠮᠢᠳᠤᠷᠠᠵᠤ', 'ᠪᠠᠢᠭ\u180eᠠ', 'ᠶᠤᠮ', 'ᠡᠨᠡ', 'ᠬᠦ', 'ᠴᠠᠭ', 'ᠦᠶ\u180eᠡ', 'ᠳ᠋ᠦ', 'ᠮᠠᠰᠢ', 'ᠣᠯᠠᠨ', 'ᠬᠡᠷᠡᠭ᠌', 'ᠪᠣᠳᠠᠰ', 'ᠲᠤ', 'ᠬᠥᠮᠦᠰ', 'ᠰᠢᠨ\u180eᠡ', 'ᠪᠣᠳᠤᠯ', 'ᠰᠢᠨ\u180eᠡ', 'ᠲᠥᠷᠦᠭᠳᠡᠯ', 'ᠣᠷᠤᠵᠤ', 'ᠪᠠᠢᠨ\u180eᠠ']
(这个功能暂不支持Windows)
现行蒙古文编码 UNICODE和蒙科立都存在一个单词多重编码的问题,所以蒙古文的自然语言处理必须先解决单词编码的统一问题。本工具包可以有效地统一同形不同编码的单词。
具体用法请参照 how_to_use.ipynb
即将登场...
how_to_use.ipynb