本项目提供了工作流和脚本工具,从零开始创建中文维基百科语料库。
克隆或者下载本 repo 至本地文件系统
支持 python 3.4+, 不支持 python2
脚本 install_dependencies_on_ubunut.bash
会帮你自动安装好所有的依赖
使用如下命令安装所需的 python 依赖:
pip install -r ./requirements.txt
需要安装 OpenCCC,用户按照官方的指示,安装即可。
Ubuntu / Debian 用户,使用 apt
命令即可:
sudo apt-get install opencc
allinone_process.bash
见 workflow