Skip to content

Latest commit

 

History

History
67 lines (43 loc) · 1.78 KB

README.md

File metadata and controls

67 lines (43 loc) · 1.78 KB

pygen

Why pygen?

用于生成有关联的个人信息,包括人名,邮箱,ID Card (ssn),电话,地址等信息,并且可以选择保存为 pandas dataframe格式, 数据库".db" 文件, Excel 文件和csv 文件格式,用于机器学习训练。

效果图:

Motivation

项目需要生成一些个人信息进行模型的预训练,没有找到开源的项目,目前使用最为广泛的开源库 faker在中文方面支持有限,所以开始造轮子。

Prerequisites

Installation

>>> pip install xpinyin
>>> pip install faker
>>> pip install namesex

Usage

基本用法:

from pygen import pygen
db =pygen()
# generate phone number 
db.simple_ph_num()
# generate dataframe
db.gen_dataframe(fields =['name', 'ssn', 'phone', 'email'])
# save as csv
db.gen_csv(filename =filename, fields =['name', 'ssn', 'phone', 'email'])
db =pygen()

更多详细用法介绍请参见我的blog:

ToDo

  • 提高根据姓名预测性别的精度,
  • 优化姓氏和名字的列表,提高生成姓名的可读性(繁体/简体)
  • 提供更多方面的个人数据的生成,比如邮编、工作职能

Related Projects

ID Card Calculation

pydbgen

Contribute

You're welcome to fork and make pull requests!

License

LICENSE