01.介绍 BeautifulSoup
(现已内嵌到bs4库下面)的用法,实例爬取的是北京新发地的蔬菜价格,并且进行可持久化存储(csv文件),网页蔬菜的价格主要以表格的形式表现,首先获取表格的源代码,先找到每行,在遍历每一列即可。
from Crypto.Cipher import AES
目标网址:https://music.163.com (任意网易云音乐的评论即可)
01.在单线程的状态下,爬取相关的网站数据缓慢,在本节项目下使用多线程 ThreadPoolExecutor
模块进行高效率爬取北京新发地的菜价(对照BS4 01项目),首先对蔬菜价格进行提取,然后创建线程池,将任务传送给线程池,最后将数据写入 csv 文件,进行可视化存储。
目标网址:http://www.xinfadi.com.cn/marketanalysis/0/list/1.shtml (页码1换成 i 进行遍历,可以获取多个网页)。
目标网址:http://kr.shanghai-jiuxin.com/file/2020/1031/small774218be86d832f359637ab120eba52d.jpg 等三张图片,采用异步操作来下载图片。
浏览器的驱动:网址:https://npm.taobao.org/mirrors/chromedriver 默认情况下是谷歌浏览器(根据自己浏览器的版本进行下载,如果没有可以下载上一个版本,把解压好的文件复制到python 文件夹下即可。
目标网址:http://www.lagou.com
目标网址:http://www.lagou.com
chaojiying = Chaojiying_Client('注册的用户名', '用户密码', '注册码')