- wrangle_report describes the data wrangling process.
- act_report describes the data analysis process.
- wrangle_act_cn(1).ipynb is the code file.
- other documents are data files.
背景 你的目标:清洗 WeRateDogs 推特数据,创建有趣且可靠的分析和可视化。这份推特档案很棒,但是只包含基本的推特信息。要达到 "Wow!" 的效果,在分析和可视化前,还需要收集额外的数据、然后进行评估和清洗。
WeRateDogs 的推特档案包括 5000 多条推特的基本信息,但并不包括所有内容。不过档案中有一列包含每个推特的文本,我用这一列数据提取了评分、狗的名字和“地位”(即 doggo、floofer、pupper 和 puppo)——这使数据得以“完善”。在这 5000 多条中,我只筛选出了 2356 条包含评分的推特数据。
以该表格中的最后一行数据来理解各列数据:
tweet_id 是推特链接的最后一部分,位于 "status/" 后面 → https://twitter.com/dog_rates/status/889531135344209921 jpg_url 是预测的图像资源链接 img_num 最可信的预测结果对应的图像编号 → 1 推特中的第一张图片 p1 是算法对推特中图片的一号预测 → 金毛犬 p1_conf 是算法的一号预测的可信度 → 95% p1_dog 是一号预测该图片是否属于“狗”(有可能是其他物种,比如熊、马等) → True 真 p2 是算法对推特中图片预测的第二种可能性 → 拉布拉多犬 p2_conf 是算法的二号预测的可信度 → 1% p2_dog 是二号预测该图片是否属于“狗” → True 真 以此类推... 从推特中可以看到,对该图像的一号预测(p1)是准确的:
清洗这个项目的数据时要牢记几个要点:
我们只需要含有图片的原始评级 (不包括转发)。尽管数据集中有 5000 多条数据,但是并不是所有都是狗狗评分,并且其中有一些是转发。 完整地评估和清理整个数据集将需要大量时间,实践和展示数据处理技巧没有必要将这个数据集全部清理。因此,本项目的要求只是评估和清理此数据集中的至少 8 个质量问题和至少 2 个整洁度问题。 根据 整洁数据 tidy data 的规则要求,本项目的数据清理应该包括将三个数据片段进行合并。 如果分子评级超过分母评级,不需要进行清洗。这个 特殊评分系统 是 WeRateDogs 人气度较高的主要原因。(同样,也不需要删除分子小于分母的数据) 不必收集 2017 年 8 月 1 日之后的数据,你可以收集到这些推特的基本信息,但是你不能收集到这些推特对应的图像预测数据,因为你没有图像预测算法的使用权限。