Skip to content

hyosmos/text_para

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

5 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

说明文档

介绍:该程序用于获得汉语文本参数,可获取的文本参数包括:文本所用汉字及其对应字频,用词及其词频,标点分句及其句长,总字数,用字数(去重),平均字频,总词数(有重复/无重复),平均词频,平均句长(长句/短句),最长句长。


相关说明:

字频和词频参考来自语料库在线,目前已知有词库不全的问题。

切分词引入了pkuseg,使用默认分词库。十分感谢其作者提供的基础功能。

分句匹配中文标点,没有添加英文标点,所以暂不支持英文文本的分句。

使用说明:

讲要分析的文本以txt的格式放入files文件夹下。

运行text_para.py获得result文件夹下的各个文本分析参数,保存为以各个文件名命名的excel文件。

运行con_excel.py获得根目录下合并各个文本参数的合并excel文件。

已知问题:

由于词库不全,很多词语匹配不到,所以单独做了一页排除词表格。

仅支持中文标点做分句,英文标点暂未添加。

About

中文文本参数分析

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages