pygen

Why pygen?

用于生成有关联的个人信息，包括人名，邮箱，ID Card (ssn)，电话，地址等信息，并且可以选择保存为 pandas dataframe格式, 数据库".db" 文件, Excel 文件和csv 文件格式，用于机器学习训练。

效果图：

Motivation

项目需要生成一些个人信息进行模型的预训练，没有找到开源的项目，目前使用最为广泛的开源库 faker在中文方面支持有限，所以开始造轮子。

Prerequisites

Python 3.6
xpinyin
faker
namesex

Installation

>>> pip install xpinyin
>>> pip install faker
>>> pip install namesex

Usage

基本用法：

from pygen import pygen
db =pygen()
# generate phone number 
db.simple_ph_num()
# generate dataframe
db.gen_dataframe(fields =['name', 'ssn', 'phone', 'email'])
# save as csv
db.gen_csv(filename =filename, fields =['name', 'ssn', 'phone', 'email'])
db =pygen()

更多详细用法介绍请参见我的blog：

ToDo

提高根据姓名预测性别的精度，
优化姓氏和名字的列表，提高生成姓名的可读性（繁体/简体）
提供更多方面的个人数据的生成，比如邮编、工作职能

Related Projects

ID Card Calculation

pydbgen

Contribute

You're welcome to fork and make pull requests!

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

README.md

README.md

pygen

Why pygen?

Motivation

Prerequisites

Installation

Usage

ToDo

Related Projects

Contribute

License

Files

README.md

Latest commit

History

README.md

File metadata and controls

pygen

Why pygen?

Motivation

Prerequisites

Installation

Usage

ToDo

Related Projects

Contribute

License