--
代码 here:GitHub:scrapy_hotel_review
采用scrapy爬取酒店评论数据。
总共有28W条记录。
做某NLP任务,需要一些hotel reviews, 选择从www.booking.com
搞一点数据来。
根据主页显示总共有20个城市from diferrent countries,每个城市下有若干个酒店,每个酒店下若干条评论。
数据源:www.booking.com
具体:
设定一条记录有如下字段:
- 目标酒店名target
- 分数score
- 总体评价overall_comment
- 正评论positive_comment
- 负评论negative_comment
- 入住日期date
- 城市名city_name
用CSV文件保存with seperator "\t".
-hotel_review_booking:hotel_data数据文件
-hotel_review_booking:scrapy理解的项目目录
-hotel_review_booking:scrapy的真正项目目录
-entrypoint
……
- 新建项目 (Project):新建一个新的爬虫项目
- 明确目标(Items):明确你想要抓取的目标
- 制作爬虫(Spider):制作爬虫开始爬取网页
- 存储内容(Pipeline):设计管道存储爬取内容
略……