jieba-Hakka

以 jieba 的演算法替換其詞庫及 HMM 機率表所製作的客家語斷詞程式

Requirement

Python3

Usage

將 jieba 資料夾放在你程式的資料夾底下

import jieba

seg_list = jieba.cut("原來你就係狗仔个阿哥") 
print("|".join(seg_list))
# 原來|你|就|係|狗仔|个|阿哥

資料來源

語料來源

苗栗、東勢、新屋、楊梅、龍潭、花蓮客語故事集
客家笑科、徐老師講古
共257,718字、189,497個詞、12,668個不重複單詞

斷詞標準

詞的定義採與中研院資所之中文線上斷系統所公佈的精簡詞類相同標準
用字修訂及拼音轉文字以教育部臺灣客家語常用詞辭典為標準

Acknowledgement

感謝國立政治大學語言所賴惠玲教授提供資源及機會來完成這支程式；也感謝賴惠玲教授主持的計畫底下的助理人員（圖書資訊與檔案學研究所王勻芊同學，語言學研究所胡雪瀅、蔡宛玲、紀立昕同學，英國語文學系譚雅庭、陳怡如、洪培綸同學，等10人）耗費大量心力建立訓練資料。

Name		Name	Last commit message	Last commit date
Latest commit History 4 Commits
jieba		jieba
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

jieba-Hakka

Requirement

Usage

資料來源

語料來源

斷詞標準

Acknowledgement

About

Releases 1

Packages

Languages

License

ldkrsi/jieba-Hakka

Folders and files

Latest commit

History

Repository files navigation

jieba-Hakka

Requirement

Usage

資料來源

語料來源

斷詞標準

Acknowledgement

About

Topics

Resources

License

Stars

Watchers

Forks

Releases 1

Packages 0

Languages

Packages