www.80s.tw 爬虫,用 pyspider, 只爬电影、电视剧、动漫、综艺,爬取后存储至 MongoDB
model 见 model/resource.py
,数据清洗和保存更新操作都放在 utils.py
中。
pyspider --config config.json
先爬一遍整站的话成功率在 94% 左右,电影、电视剧、综艺基本都爬下来了,动漫的失败率最高,应该是数据解析处理没有完全考虑到位。
MIT
www.80s.tw 爬虫,用 pyspider, 只爬电影、电视剧、动漫、综艺,爬取后存储至 MongoDB
model 见 model/resource.py
,数据清洗和保存更新操作都放在 utils.py
中。
pyspider --config config.json
先爬一遍整站的话成功率在 94% 左右,电影、电视剧、综艺基本都爬下来了,动漫的失败率最高,应该是数据解析处理没有完全考虑到位。
MIT