正大杯比赛帮他们做的一个b站视频的爬取工具,包括词频分析,词云图生成
生成的文件会在src目录里面
里面有之前爬取过评论的示例
但是这个无法爬取楼中楼的评论
- 第一次请求视频评论接口时,它会返回一个session_id
- 后面请求需要带上这个session_id
- 请求翻页是通过时间戳来实现的(也就是翻页的时候,当前时间戳必须要大于之前请求的时间戳,这样服务器默认翻到下一页)
- 因为时间戳给的是秒为单位的,所以即使是恶意的爬虫也必须要像正常的刷评论一样等待时间
- 请求头的部分信息进行md5加密后得到w_rid(包括转义字符也要带上)
- 服务器会校验w_rid是否正确,才会进行响应
- header
- 请求头信息,自行抓包获取
- payload
- 里面包括爬取评论按照默认排序还是时间顺序等,但是我没有用到,需要的可以自己改,自行抓包获取
- oid
- 视频唯一标识符,可以一次填入多个,自行抓包获取