该系统分为三个部分:
- 一个 web 服务器
- 算法核心
- 爬虫
celery 用于计划任务和调度.
我们为这个系统建立了一个简单的客户端.
- 可选, 创建一个虚拟环境.
pip install -r config/requirements.txt
来安装所有依赖.- 安装 MySQL 并创建两个数据库
bbk-spider
,bbk-server
, 确保.config
文件中的数据库 uri 是正确的. 创建后配置正确的用户名和密码. - 安装 Redis.
python manage.py db init
python manage.py db migrate
python manage.py db upgrade
这些命令会初始化bbk-server
.
python manage.py server
来启动 web 服务器.scrapy crawl XXX
来单独启动某个爬虫启动爬虫.python manage.py spider
来启动所有的爬虫.python manage.py alg
来启动聚类算法.
TeamDDH, 2018.