weibo-crawler

微博爬虫,爬取订阅的微博账号博文,分析记录

使用

配置mysql数据库,建库,建表
安装依赖,配置config.json抓取间隔等信息
启动项目

运行

克隆

  git clone https://github.com/jydeng/weibo-crawler.git;

安装依赖

  npm install;

编辑config.json

{
  "connection": {
    "host": "mysql ip",
    "port": "mysql 端口号",
    "user": "mysql 用户名",
    "password": "mysql 密码",
    "database": "mysql 数据库名"
  },
  "weiboAccount": {
    "username": "微博账号",
    "password": "微博账号密码"
  },
  "interval": "0 */10 * * * *",
  "intervalDesc": "间隔10分钟执行一次任务"
}

启动项目

  npm start;

说明

项目使用了puppeteer抓取微博博文,puppeteer需要chromeium,若本机已安装了chrome,可用以下命令跳过

  set PUPPETEER_SKIP_CHROMIUM_DOWNLOAD=1

实际入库的时候发现,微博博文有大量的emoji表情,会导致mysql入库失败,此时需要更改一下mysql的编码即可
db部分实现较为简单,大量数据入库未有启用事务处理,若数据量较大此处需要改进
爬虫部分实现每次启动一个页面抓取,实际上可以启动多个页面，并行抓取,效率应该会有显著提升,此处可以继续优化
当前爬取的是 "weibo.cn" 下的博文,显示效果没有触屏版好,触屏版采用了滚动加载机制,处理难度比较高,待续...

Name		Name	Last commit message	Last commit date
Latest commit History 25 Commits
.vscode		.vscode
crawler		crawler
models		models
sql		sql
utils		utils
.gitignore		.gitignore
README.md		README.md
config.json		config.json
index.js		index.js
logger.js		logger.js
package-lock.json		package-lock.json
package.json		package.json

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

weibo-crawler

使用

运行

说明

About

Releases

Packages

Languages

jydeng/weibo-crawler

Folders and files

Latest commit

History

Repository files navigation

weibo-crawler

使用

运行

说明

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages