Releases: howl-anderson/chinese-wikipedia-corpus-creator
Releases · howl-anderson/chinese-wikipedia-corpus-creator
维基百科-2018年8月28-opencc-jieba分词-拆分多个文件
采用维基百科在2018年8月28的全量数据,使用 opencc 做了繁体中文到简体简体的转换,使用 jieba 分词,拆分多个文件
中国地区的用户,请使用下面的链接下载(下载速度快):
文件名 | 下载链接 |
---|---|
token_cleaned_plain_files.tar.bz2 | https://eyun.baidu.com/s/3i6aNG0l |
Supported by 百度企业云
维基百科-2018年7月份-opencc-jieba分词-拆分多个文件
采用维基百科在2018年7月份的全量数据,使用 opencc 做了繁体中文到简体简体的转换,使用 jieba 分词,拆分多个文件
中国地区的用户,请使用下面的链接下载(下载速度快):
文件名 | 下载链接 |
---|---|
token_cleaned_plain_files.tar.bz2 | https://eyun.baidu.com/s/3dGTKAuH |
Supported by 百度企业云