forked from NLPchina/ansj_seg
-
Notifications
You must be signed in to change notification settings - Fork 0
用户自定义词典的添加
ansjsun edited this page Sep 29, 2012
·
1 revision
用户自定义词典默认路径是
项目目录/library/userLibrary/userLibrary.dic
如果你导入的是jar包。会看不到这个目录所以。需要手动创建
格式为如下:
安全别 userDefine 1000
意思第一列 是自定义词。 第二列是词性。第三列是词频。中间按照【TAB】键隔开。也就是这个“ ”,也就是“\t”
词性可以随便写。词频可以随便写。建议写个1000.
下面给大家一个例子
public static void main(String[] args) throws IOException {
List paser = ToAnalysis.paser("csdn创新院是一个好公司") ;
System.out.println(paser);
}
分词结果如下 [csdn, 创新, 院, 是, 一个, 好, 公司]
现在我们添加新词:“csdn创新院”
格式如下 在userLibrary.dic添加如下
csdn创新院 csdn 521
csdn为这个词语的词性。512为这个词语的词频
就这么简单。记得保存啊。然后重新运行我们的代码 得到如下结果。发现没有。我们的自定义词典。尽然支持中英文混搭。哈哈 [csdn创新院, 是, 一个, 好, 公司]