该系统分为三个部分:
- 一个 web 服务器
- 算法核心
- 爬虫
celery 用于计划任务和调度.
我们为这个系统建立了一个简单的客户端.
- 可选, 创建一个虚拟环境.
pip install -r config/requirements.txt来安装所有依赖.- 安装 MySQL 并创建两个数据库
bbk-spider,bbk-server, 确保.config文件中的数据库 uri 是正确的. 创建后配置正确的用户名和密码. - 安装 Redis.
python manage.py db initpython manage.py db migratepython manage.py db upgrade这些命令会初始化bbk-server.
python manage.py server来启动 web 服务器.scrapy crawl XXX来单独启动某个爬虫启动爬虫.python manage.py spider来启动所有的爬虫.python manage.py alg来启动聚类算法.
TeamDDH, 2018.