晨星基金数据爬取

selenium 模拟登录：
- 可采用验证码识别方式
- 设置已经登录好的账号 cookies
利用BeautifulSoup 解析 html，提取当前页的基金列表信息，存入到 mysql 中，或者追加到 csv 中（目前仅 acquire_fund_snapshot.py 支持导出 csv）
selenium 模拟切换分页，重复第二，第三步
所有的页数据爬取完，退出浏览器

本地运行

本地前置条件：安装好 chromedriver 驱动，安装 tesseract 并将 tesseract 加到环境变量下(识别二维码需要，如果是设置 cookies 方式则不需要)，如果是需要连接数据库的话，还要配置好表结构

从环境参数模板（.env.example）中复制一份文件（.env）,修改本地环境变量

cp .env.example .env

根据自己情况改环境变量值，例如晨星用户名，密码，执行特定的爬虫脚本

.
├── .env                         #本地环境配置参数
├── .env.example                 #环境配置参数模板实例
├── .gitignore
├── README.md
├── requirements.txt
└── src
    ├── acquire_fund_base.py     # 爬取基金基础数据-- 一些不变动的数据，例如成立时间
    ├── acquire_fund_quarter.py  # 爬取基金季度变动 -- 例如持仓数据
    ├── acquire_fund_snapshot.py # 基金列表快照数据 —— 列表数据
    ├── assets                   # 一些静态资源,例如星级图片
    │   └── star
    │       ├── star0.gif
    │       ├── star1.gif
    │       ├── star2.gif
    │       ├── star3.gif
    │       ├── star4.gif
    │       ├── star5.gif
    │       └── tmp.gif
    ├── fund_info_crawler.py     # 封装的爬取class
    ├── fund_statistic.py        # 统计数据
    ├── db
    │   └── connect.py           # 连接数据库
    ├── lib
    │   └── mysnowflake.py       # 雪花id生成
    └── utils.py                 # 一些工具函数，比如登录，设置cookies等

tip: 首次执行，现执行 python ./src/acquire_fund_snapshot, 列表快照数据是其他数据的来源

其他

涉及到一些细节有：

验证码识别错误的话，怎么处理
切换分页如果是最后一页时，怎么处理下一页点击
晨星评级是用图片表示，如果转化成数字表示
如何保证循环当前页与浏览器当前页一致
多线程爬取时，线程锁

以上问题，我都做了相对应的处理。

数据汇总

基于上面的数据，简单做了如下数据汇总，统计股票在这些基金中出现的频率，可用于投资理财辅助，如图：

如果有问题，有兴趣的话，欢迎提 issue，私聊，star。

Name		Name	Last commit message	Last commit date
Latest commit History 25 Commits
code-record		code-record
output		output
screenshot		screenshot
src		src
.env.example		.env.example
.gitignore		.gitignore
README.md		README.md
requirements.txt		requirements.txt

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

晨星基金数据爬取

Table of Contents

前言

数据爬取

晨星列表数据

晨星基金详情页数据--不变数据

晨星基金详情页数据--季度变动数据

晨星基金详情页数据--十大持仓股票信息

晨星基金经理

技术点

爬虫流程

本地运行

其他

数据汇总

About

Releases

Packages

Languages

anchor-tech/fund-morning-star-crawler

Folders and files

Latest commit

History

Repository files navigation

晨星基金数据爬取

Table of Contents

前言

数据爬取

晨星列表数据

晨星基金详情页数据--不变数据

晨星基金详情页数据--季度变动数据

晨星基金详情页数据--十大持仓股票信息

晨星基金经理

技术点

爬虫流程

本地运行

其他

数据汇总

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages