baike_spider

一个简单爬虫开发

语言版本：python3.5.1

功能说明：爬取百度百科词条和词条简介内容并输出到网页中

注：面向对象编程全部采用对象来调用方法

程序执行流程：

1.将入口URL（root_url）添加到 URL管理器

2.启动爬虫的循环

3.获取 URL管理器待爬取列表中的一个URL并将其移出待爬取列表，添加到已爬取列表

4.使用HTML下载器下载这个页面

5.使用解析器解析下载的页面,得到新的URL和数据

6.将得到的新的URL批量添加到URL管理器中,在过程中判断得到的URL是否是已经爬取过的URL,采取舍去或者保留

7.收集得到的页面内容,存入输出器，解析后输出

8.循环3-7

9.循环条件不符合退出循环时,将结果输出到html文件中

模块设计：

URL管理器：UrlManager

HTML下载器：HTMLDownloader

网页解析器：HtmlParser

结果输出器：HtmlOutputer

Name		Name	Last commit message	Last commit date
Latest commit History 56 Commits
.travis.yml		.travis.yml
README.md		README.md
html_downloader.py		html_downloader.py
html_outputer.py		html_outputer.py
html_parser.py		html_parser.py
spider_main.py		spider_main.py
url_manager.py		url_manager.py

Provide feedback