Skip to content

tinaj0508/TextFilter

 
 

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

25 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

敏感词过滤系统

更多详见TextMining


Ubuntu Linux下环境搭建:

sudo apt-get install python-pip  
pip install nltk  
pip install jieba  
pip install pymongo  

Config下config文件:

  • 可以进行服务器配置,针对数据库中制订collection的不同字段column,
  • 可以选择语言(中文,英文),
  • 可以设置要过滤的文章数目,时间默认从最近前推
  • 添加邮件通知系统,SendMailFlag = "Yes" # "No" 一行可以修改是否接收邮件通知
  • 结果:字段filter_status为1表示通过过滤,为0表示不通过过滤

stopwords_chs和stopwords_eng为过滤词黑名单

  • 可以随时添加要过滤的单词,一行一个
  • 如果添加的过滤词无法正确被jieba分词,则同样方法将该需要过滤的词及词频加入到主词典dict文件中或者用户词典user_dict,一行一个(词频也可省略)
  • 如stopwords_chs,加入了“阿尼玛”换行, 在dict中加入“阿尼玛 3”,3表示词频,词频越大分词越准确

About

敏感词过滤系统

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages

  • Python 99.8%
  • Batchfile 0.2%