GitHub - wangchaofan2018/Covid19-News-Crawl: 全国省级政务网站新闻数据收集（主要面向新闻发布会）

疫情信息收集项目

此爬虫爬取不同地区政务网站发布的新冠疫情历史发布会,用于数据分析,用到的技术栈有 scrapy、selenium、mongodb

需要下载最新环境chromedriver

sudo mv ~/Downloads/chromedriver /usr/bin

vi ~/.bash_profile

export PATH=$PATH:/usr/local/bin/ChromeDriver

下载mongodb

进入 /usr/local

cd /usr/local

下载

sudo curl -O https://fastdl.mongodb.org/osx/mongodb-osx-ssl-x86_64-4.0.9.tgz

解压

sudo tar -zxvf mongodb-osx-ssl-x86_64-4.0.9.tgz

重命名为 mongodb 目录

sudo mv mongodb-osx-x86_64-4.0.9/ mongodb

安装完成更新bash_profile

export PATH=/usr/local/mongodb/bin:$PATH

数据存放路径：

sudo mkdir -p /usr/local/var/mongodb

日志文件路径：

sudo mkdir -p /usr/local/var/log/mongodb

确保权限

sudo chown 账户名 /usr/local/var/mongodb
sudo chown 账户名 /usr/local/var/log/mongodb

后台启动mongodb服务 启动之前记得更新配置 source ~/.bash_profile

mongod --dbpath /usr/local/var/mongodb --logpath /usr/local/var/log/mongodb/mongo.log --fork

安装 python包

pip install selenium
pip install scrapy
pip install xlwt
pip install pymongo

大佬做的匹配文本的项目，可以保证无论数据量多大处理的时间都是不变的，本项目用于做mongo数据清洗对他的实现感兴趣可以看他论文

pip install flashtext

项目根目录下创建logs来存放日志文件

mkdir logs

Name		Name	Last commit message	Last commit date
Latest commit History 64 Commits
.vscode		.vscode
covid_19		covid_19
.DS_Store		.DS_Store
.gitignore		.gitignore
README.md		README.md
export_mongo_data.py		export_mongo_data.py
mongo_data_clean.py		mongo_data_clean.py
scrapy.cfg		scrapy.cfg
scrapy.sh		scrapy.sh

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

疫情信息收集项目

需要下载最新环境chromedriver

下载mongodb

安装 python包

项目根目录下创建logs来存放日志文件

About

Releases

Packages

Contributors 2

Languages

wangchaofan2018/Covid19-News-Crawl

Folders and files

Latest commit

History

Repository files navigation

疫情信息收集项目

需要下载最新环境chromedriver

下载mongodb

安装 python包

项目根目录下创建logs来存放日志文件

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Languages

Packages