WeiboCrawler

爬取关键词搜索的微博内容及其评论

代码思路及使用方法

1.

先在weibo.com上根据关键词进行搜索，会得到一串网址，之后尝试翻页，得到一个仅有page参数不同的网址。就可以得到所有和关键词相关的微博列表。

2.

之后对得到的html内容进行解析，得到各条微博对应的id。

3.

使用参数id构造url访问m.weibo.cn,其比较方便容易爬取。可得到微博的内容以及微博的评论。

4.

对于评论，可以根据得到的数据包中的参数，再次构造下一页的评论

5.

对于回复评论的评论，也可以根据用户id构造网址，之后翻页再次获取参数，和获取评论类似

注意事项

1.

weibo.com和m.weibo.cn的cookie值可能不同

2.

注意访问不要过快，否则可能响应数据包的content-type会变为text/html，此时当作json解析就会发生错误。我在代码中设置每3秒发起一次访问，可以连续两个小时（我需要的爬取结束了）爬取不发生错误。

3.

此处涉及隐私，将代码中的cookie留空，在使用时使用自己的cookie。

4.

此处data中仅保留部分数据作为参考

5.

得到的csv文件如果直接打开可能会乱码，可以在excel中依次选择数据>从文本/CSV导入，然后将编码格式改为utf-8即可

Name		Name	Last commit message	Last commit date
Latest commit History 2 Commits
data/1.尼格		data/1.尼格
README.md		README.md
crawler.py		crawler.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

WeiboCrawler

代码思路及使用方法

1.

2.

3.

4.

5.

注意事项

1.

2.

3.

4.

5.

About

Releases

Packages

Languages

NewPaulWalker/WeiboCrawler

Folders and files

Latest commit

History

Repository files navigation

WeiboCrawler

代码思路及使用方法

1.

2.

3.

4.

5.

注意事项

1.

2.

3.

4.

5.

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages