- 设计一个爬虫
- 学号-姓名-专业
- 报告,作业
- 网络爬虫,是一种按照一定的规则,自动地抓取万维网信息的程序或脚本。
- 在万维网高速发展的时代,从网页中获取数据和信息非常重要。网络爬虫是一种很有用的工具
-
Many names:
- Crawler
- spider
- Robot(or bot)
- Web agent
- Wanderer,worm,...
-
famous instances
- googlebot,scooter,slurp,msnbot,...
-
注:数据集中的数据是经过爬取、处理、清洗的。后两者是必要的步骤
-
网页中的内容:标签和内容
- 爬虫需要对源代码进行解析,去除标签。
-
爬虫从若干个url(种子)开始
- 然后不断链接其他的url,进行数据爬取
- 对网页进行解析,把其中的url都抽取出来,放入队列
- 直到满足系统的一定停止条件
-
网页爬取算法
- 从已知种子URL开始,放入url队列
- 从url队列中取出url获取对应网页内容p
- 对网页p进行解析,
- 获得内容 如何处理?
- 获取超级链接,放入URL队列
- 何种遍历方式?
- URL查重问题?
- 转入step2
- 如何设置终止条件?
- 分布式爬虫?
- 法律风险
- 为违法违规组织提供爬虫服务(验证码识别,SEO)
- 个人隐私数据抓取与贩卖
- 利用无版权商业数据获利
- 合法操作
- 经网站允许
- robots协议
- 无反爬策略
- 数据用途合法
- 保护个人信息(消隐处理)
- 经网站允许
- 具有爬虫功能的软件
- excel2013
- GOOGLE SHEET
- 开源爬虫
- JAVA:WebCollector,Heritrix,Nutch
- C/C++:larbin
- Python:pyspider,scrapy
- You-Get
- 命令行形式的工具,不提供软件界面
- 支持多个视频网站和音乐网站
- 八爪鱼采集器(有模板,针对反趴策略,付费)
- 集搜客GooSeeker
- 后羿采集器(小说推荐)
- 自动识别表格
- 深入采集
- 略