Skip to content

kimchen003/NodeJS-Robot

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

29 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

###nodeJs 爬虫实例

####使用步骤:

先安装项目依赖包 打开终端输入: npm install

1.打开终端输入 : node app

2.打开浏览器输入 : http://localhost:8312/Robot

3.输入你想要下载的网站链接

4.下载完成后,点击下载压缩包至本地


####版本:version 1.4.0 #####升级内容: 1.兼容"gbk"字符编码
2.抓取后端页面自动保存成前端格式
3.强化DOM页面的嗅探能力 #####修复问题: 暂无

####测试成功网站: 1.http://www.one-pieces-html5.com/
2.http://www.kundian.net/default.aspx
3.http://www.one-pieces-html5.com/waibao/crossfire/shakeh5/project/index.html
4.http://www.one-pieces-html5.com/waibao/cf/index.html
5.http://www.one-pieces-html5.com/waibao/lol/index.html
6.http://bbs.datangtianzi.com/portal.php

####特性: 1.爬虫特性明细嗅探及抓取同时进行
2.能抓取常规前端资源及代码(如 js css html 音频及图片资源)
3.可以以约定规则抓取后端服务生成的页面
4.可通过在线服务下载到本地(暂未开放)
5.抓取完成后提供压缩包下载链接

####缺陷: 1.能抓取的资源相对较少,暂不能抓取如视频 svg font等。
2.https不兼容
3.不支持站点内容全抓取,只抓取相对路径资源
4.抓取速度不够快
5.嗅探功能存在缺陷
6.页面回退样式错乱

#####(现版本缺陷相对较多,后续版本将会逐步完善)

About

NodeJS Robot 爬虫实例

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published