nlp_for_korean

한국어 자연어처리를 위한 repo

1.make_korean_tokenizer

Korean corpus에 pretokenizer(mecab)로 교착어의 조사, 복합명사를 분절한 후 huggingface의 tokenizers와 sentencepiece로

subword를 학습한 후 속도를 비교

Konlpy 사용법

konlpy_사용법.ipynb

Hannanum(6.87s/1000sentence) : ['37', '.', '다음', '은', '3D', '애니메이션', '제작', '을', '위하', 'ㄴ', '계획', '의', '일부', '이', '다', '.', '윗글', '을', '바탕', '으로', '하', 'ㄹ', '때', '적절', '하', '지', '않', '은', '것', '은', '?', '[', '3점', ']']
Kkma(1min 57s/1000sentence) : ['37', '.', '다음', '은', '3', 'D', '애니메이션', '제작', '을', '위하', 'ㄴ', '계획', '의', '일부', '이', '다', '.', '윗', '글', '을', '바탕', '으로', '하', 'ㄹ', '때', '적절', '하', '지', '않', '은', '것', '은', '?', '[', '3', '점', ']']
komoran(3.23/1000sentence) : ['37', '.', '다음', '은', '3D', '애니메이션', '제작', '을', '위하', 'ㄴ', '계획', '의', '일부', '이', '다', '.', '윗', '글', '을', '바탕', '으로', '하', 'ㄹ', '때', '적절', '하', '지', '않', '은', '것', '은', '?', '[', '3', '점', ']']
Okt(11.2s/1000sentence) : ['37', '.', '다음', '은', '3', 'D', '애니메이션', '제작', '을', '위', '한', '계획', '의', '일부', '이다', '.', '윗', '글', '을', '바탕', '으로', '할', '때', '적절하지', '않은', '것', '은', '?', '[', '3', '점', ']']

Name		Name	Last commit message	Last commit date
Latest commit History 12 Commits
1.make_korean_tokenizer		1.make_korean_tokenizer
README.md		README.md
konlpy _사용법.ipynb		konlpy _사용법.ipynb