Skip to content

aronsoyol/tmtk

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Traditional Mongolian Toolkit

传统蒙古文基础自然语言处理工具包

安装方法

pip install -U git+https://github.com/aronsoyol/tmtk

功能

1. 编码转换(蒙科立 -> UNICODE)

from tmtk import convert2unicode

convert2unicode("")
'ᠠᠷᠣ\u202fᠬᠣᠷᠴᠢᠨ\u202fᠬᠣᠰᠢᠭᠣ\u202f\u202fᠨᠠᠭᠠᠳ᠋ᠣᠮ\u202fᠳ᠋ᠡᠭᠢ\u202fᠲᠠᠯᠠᠨᠨᠣᠸᠠ\u202fᠢᠨ\u202fᠪᠠᠭᠣᠴᠠ\u202f'

2. 分词

text = """ᠪᠢᠳᠡ ᠪᠣᠯ ᠬᠥᠮᠦᠨ ᠲᠥᠷᠦᠯᠬᠢᠲᠡᠨ ᠦ᠌ ᠰᠢᠨ᠎ᠡ ᠲᠡᠦᠬᠡ ᠶ᠋ᠢ ᠨᠡᠭᠡᠭᠡᠵᠦ ᠪᠠᠢᠭ᠎ᠠ ᠭᠡᠷᠡᠯ ᠰᠠᠴᠤᠷᠠᠩᠭᠤᠢ ᠴᠠᠭ ᠦᠶ᠎ᠡ ᠳ᠋ᠦ ᠠᠮᠢᠳᠤᠷᠠᠵᠤ ᠪᠠᠢᠭ᠎ᠠ ᠶᠤᠮ᠃ ᠡᠨᠡ ᠬᠦ ᠴᠠᠭ ᠦᠶ᠎ᠡ ᠳ᠋ᠦ ᠮᠠᠰᠢ ᠣᠯᠠᠨ ᠬᠡᠷᠡᠭ᠌ ᠪᠣᠳᠠᠰ ᠲᠤ ᠬᠥᠮᠦᠰ ᠰᠢᠨ᠎ᠡ ᠪᠣᠳᠤᠯ ᠰᠢᠨ᠎ᠡ ᠲᠥᠷᠦᠭᠳᠡᠯ ᠣᠷᠤᠵᠤ ᠪᠠᠢᠨ᠎ᠠ᠃"""
from tmtk import tokenizer

tokens = [a for a in tokenizer.tokenize(text,split_suffix=True,only_mongolian=True)]
    
print(tokens)

['ᠪᠢᠳᠡ', 'ᠪᠣᠯ', 'ᠬᠥᠮᠦᠨ', 'ᠲᠥᠷᠦᠯᠬᠢᠲᠡᠨ', 'ᠦ᠌', 'ᠰᠢᠨ\u180eᠡ', 'ᠲᠡᠦᠬᠡ', 'ᠶ᠋ᠢ', 'ᠨᠡᠭᠡᠭᠡᠵᠦ', 'ᠪᠠᠢᠭ\u180eᠠ', 'ᠭᠡᠷᠡᠯ', 'ᠰᠠᠴᠤᠷᠠᠩᠭᠤᠢ', 'ᠴᠠᠭ', 'ᠦᠶ\u180eᠡ', 'ᠳ᠋ᠦ', 'ᠠᠮᠢᠳᠤᠷᠠᠵᠤ', 'ᠪᠠᠢᠭ\u180eᠠ', 'ᠶᠤᠮ', 'ᠡᠨᠡ', 'ᠬᠦ', 'ᠴᠠᠭ', 'ᠦᠶ\u180eᠡ', 'ᠳ᠋ᠦ', 'ᠮᠠᠰᠢ', 'ᠣᠯᠠᠨ', 'ᠬᠡᠷᠡᠭ᠌', 'ᠪᠣᠳᠠᠰ', 'ᠲᠤ', 'ᠬᠥᠮᠦᠰ', 'ᠰᠢᠨ\u180eᠡ', 'ᠪᠣᠳᠤᠯ', 'ᠰᠢᠨ\u180eᠡ', 'ᠲᠥᠷᠦᠭᠳᠡᠯ', 'ᠣᠷᠤᠵᠤ', 'ᠪᠠᠢᠨ\u180eᠠ']

3. UNICODE同形不同码单词的统一

(这个功能暂不支持Windows)

现行蒙古文编码 UNICODE和蒙科立都存在一个单词多重编码的问题,所以蒙古文的自然语言处理必须先解决单词编码的统一问题。本工具包可以有效地统一同形不同编码的单词。

具体用法请参照 how_to_use.ipynb

4. 词干提取

即将登场...

使用方法

how_to_use.ipynb

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published