Skip to content

NewPaulWalker/WeiboCrawler

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 
 
 

Repository files navigation

WeiboCrawler

爬取关键词搜索的微博内容及其评论

代码思路及使用方法

1.

先在weibo.com上根据关键词进行搜索,会得到一串网址,之后尝试翻页,得到一个仅有page参数不同的网址。就可以得到所有和关键词相关的微博列表。

2.

之后对得到的html内容进行解析,得到各条微博对应的id。

3.

使用参数id构造url访问m.weibo.cn,其比较方便容易爬取。可得到微博的内容以及微博的评论。

4.

对于评论,可以根据得到的数据包中的参数,再次构造下一页的评论

5.

对于回复评论的评论,也可以根据用户id构造网址,之后翻页再次获取参数,和获取评论类似

注意事项

1.

weibo.com和m.weibo.cn的cookie值可能不同

2.

注意访问不要过快,否则可能响应数据包的content-type会变为text/html,此时当作json解析就会发生错误。我在代码中设置每3秒发起一次访问,可以连续两个小时(我需要的爬取结束了)爬取不发生错误。

3.

此处涉及隐私,将代码中的cookie留空,在使用时使用自己的cookie。

4.

此处data中仅保留部分数据作为参考

5.

得到的csv文件如果直接打开可能会乱码,可以在excel中依次选择数据>从文本/CSV导入,然后将编码格式改为utf-8即可

About

爬取关键词搜索的微博内容及其评论

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages