Skip to content

Latest commit

 

History

History
25 lines (13 loc) · 615 Bytes

README.md

File metadata and controls

25 lines (13 loc) · 615 Bytes

80s_spider

www.80s.tw 爬虫,用 pyspider, 只爬电影、电视剧、动漫、综艺,爬取后存储至 MongoDB

model

model 见 model/resource.py,数据清洗和保存更新操作都放在 utils.py 中。

运行

pyspider --config config.json

先爬一遍整站的话成功率在 94% 左右,电影、电视剧、综艺基本都爬下来了,动漫的失败率最高,应该是数据解析处理没有完全考虑到位。

LICENCE

MIT