爬取关键词搜索的微博内容及其评论
先在weibo.com上根据关键词进行搜索,会得到一串网址,之后尝试翻页,得到一个仅有page参数不同的网址。就可以得到所有和关键词相关的微博列表。
之后对得到的html内容进行解析,得到各条微博对应的id。
使用参数id构造url访问m.weibo.cn,其比较方便容易爬取。可得到微博的内容以及微博的评论。
对于评论,可以根据得到的数据包中的参数,再次构造下一页的评论
对于回复评论的评论,也可以根据用户id构造网址,之后翻页再次获取参数,和获取评论类似
weibo.com和m.weibo.cn的cookie值可能不同
注意访问不要过快,否则可能响应数据包的content-type
会变为text/html,此时当作json解析就会发生错误。我在代码中设置每3秒发起一次访问,可以连续两个小时(我需要的爬取结束了)爬取不发生错误。
此处涉及隐私,将代码中的cookie留空,在使用时使用自己的cookie。
此处data中仅保留部分数据作为参考
得到的csv文件如果直接打开可能会乱码,可以在excel中依次选择数据
>从文本/CSV导入
,然后将编码格式改为utf-8
即可