Name		Name	Last commit message	Last commit date
Latest commit History 7 Commits
cut_data		cut_data
data		data
raw_data		raw_data
.gitignore		.gitignore
api.py		api.py
coding.py		coding.py
data_pre.py		data_pre.py
model.py		model.py
readme.md		readme.md
stopword.lib		stopword.lib

Repository files navigation

Zh-Word2Vec 中文Word2Vec

选用历年《矛盾文学奖作品》为语料库，训练word vector

详细博客：word2vec在中文数据集上的实验

项目说明

数据集

历年矛盾文学奖作品
数据下载地址 (encoding = utf-8)
- 百度盘_raw (未处理 encoding = gb18030)
- 百度盘
- dropbox_raw
- dropbox
数据存放说明（参考每个目录下的readme）
- raw_data （数据堂的源数据存放位置；[可选] 文本编码：gb18030）
- data （其他来源的数据存放位置；文本编码：utf-8）
- cut_data （分词后的文本）

项目依赖库

gensim （word2vec）
jieba （分词）

运行说明

coding.py (可选)
- 如果使用数据堂数据，需要先做编码的encoding，把所有的txt文件放在raw_data里，运行coding.py即可在 data/ 目录下生成转码的后的文本
data_pre.py
- 数据预处理，读取 data/ 下的txt文本，运行后会在 cut_data/ 目录下生成分词后的结果，每行是一个句子，每句话的单词用空白符分割
model.py
- 训练word2vec模型，生成的模型会保存为根目录下的my.model
api.py
- 直接调用模型，用户输入中文词语，返回相似的词
stopword.lib
- 每行是一个stopword，可以自行添加和修改

结果

参考

具体说明参考： word2vec在中文数据集上的实验

About

Chinese word2vec word embedding

word2vec word-embeddings word2vec-zh

Report repository

Releases

No releases published

Packages

No packages published

Languages

Python 100.0%