Skip to content

pot-not-fish/bilibili_comment_spider

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

1 Commit
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

bilibili_comment_spider

说明

正大杯比赛帮他们做的一个b站视频的爬取工具,包括词频分析,词云图生成
生成的文件会在src目录里面
里面有之前爬取过评论的示例
但是这个无法爬取楼中楼的评论

逆向工作

  1. 第一次请求视频评论接口时,它会返回一个session_id
  2. 后面请求需要带上这个session_id
  3. 请求翻页是通过时间戳来实现的(也就是翻页的时候,当前时间戳必须要大于之前请求的时间戳,这样服务器默认翻到下一页)
    1. 因为时间戳给的是秒为单位的,所以即使是恶意的爬虫也必须要像正常的刷评论一样等待时间
  4. 请求头的部分信息进行md5加密后得到w_rid(包括转义字符也要带上)
  5. 服务器会校验w_rid是否正确,才会进行响应

配置说明

  • header
    • 请求头信息,自行抓包获取
  • payload
    • 里面包括爬取评论按照默认排序还是时间顺序等,但是我没有用到,需要的可以自己改,自行抓包获取
  • oid
    • 视频唯一标识符,可以一次填入多个,自行抓包获取

About

b站评论的JS逆向及其爬取

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages