Skip to content

Latest commit

 

History

History
150 lines (111 loc) · 5.97 KB

pre_data_cn.md

File metadata and controls

150 lines (111 loc) · 5.97 KB

简体中文 | English

准备公开数据集

对于公开数据集,大家只需要下载并存放到特定目录,就可以使用PaddleSeg进行模型训练评估。

公开数据集存放目录

PaddleSeg是按照如下数据集存放目录,来定义配置文件中默认的公开数据集路径。 所以,建议大家下载公开数据集,然后存放到PaddleSeg/data目录下。 如果公开数据集不是按照如下目录进行存放,大家需要根据实际情况,手动修改配置文件中的数据集目录。

PaddleSeg
├── data
│   ├── cityscapes
│   │   ├── leftImg8bit
│   │   │   ├── train
│   │   │   ├── val
│   │   ├── gtFine
│   │   │   ├── train
│   │   │   ├── val
│   ├── ADEChallengeData2016
│   │   │── annotations
│   │   │   ├── training
│   │   │   ├── validation
│   │   │── images
│   │   │   ├── training
│   │   │   ├── validation
│   ├── VOCdevkit
│   │   ├── VOC2012
│   │   │   ├── JPEGImages
│   │   │   ├── SegmentationClass
│   │   │   ├── SegmentationClassAug
│   │   │   ├── ImageSets
│   │   │   │   ├── Segmentation

公开数据集下载

CityScapes数据集

Cityscapes是关于城市街道场景的语义理解图片数据集。它主要包含来自50个不同城市的街道场景,拥有5000张(2048 x 1024)高质量像素级注释图像,包含19个类别。Cityscapes数据集的训练集2975张,验证集500张,测试集1525张。

请前往CityScapes官网下载数据集。 数据集结构如下:

    cityscapes
    |
    |--leftImg8bit
    |  |--train
    |  |--val
    |  |--test
    |
    |--gtFine
    |  |--train
    |  |--val
    |  |--test

下载原始数据集后,运行下面命令进行转换,其中cityscapes_path是数据集保存的根目录,num_workers是进程数。执行完成后,转换后的数据集依旧保存在原先数据集目录下。

pip install cityscapesscripts
python tools/data/convert_cityscapes.py --cityscapes_path data/cityscapes --num_workers 8

ADE20K数据集

ADE20K数据集由MIT发布的可用于场景感知、分割和多物体识别等多种任务的数据集,其涵盖了150个语义类别,包括训练集20210张,验证集2000张。

大家可以到官方网站下载该数据集。

Pascal VOC 2012数据集

Pascal VOC 2012数据集以对象分割为主,包含20个类别和背景类,其中训练集1464张,验证集1449张。

大家可以到官方网站下载该数据集。

通常情况下,大家会利用SBD(Semantic Boundaries Dataset)对VOC 2012数据集进行扩充,得到的训练集是10582张。

运行下列命令进行SBD数据集进行扩充,其中voc_path应根据实际数据集路径进行设置。

cd PaddleSeg
python tools/data/voc_augment.py --voc_path data/VOCdevkit --num_workers 8

Coco Stuff数据集

Coco Stuff是基于Coco数据集的像素级别语义分割数据集。它主要覆盖172个类别,包含80个'thing',91个'stuff'和1个'unlabeled',我们忽略'unlabeled'类别,并将其index设为255,不记录损失。因此提供的训练版本为171个类别。其中,训练集118k, 验证集5k。

在使用Coco Stuff数据集前, 请自行前往COCO-Stuff主页下载数据集,或者下载coco2017训练集原图, coco2017验证集原图标注图

我们建议您将数据集存放于PaddleSeg/data中,以便与我们配置文件完全兼容。数据集下载后请组织成如下结构:

    cocostuff
    |
    |--images
    |  |--train2017
    |  |--val2017
    |
    |--annotations
    |  |--train2017
    |  |--val2017

运行下列命令进行标签转换,其中annotation_path应根据下载cocostuff/annotations文件夹的实际路径填写,save_path决定转换后标签的存放位置。

python tools/data/convert_cocostuff.py --annotation_path /PATH/TO/ANNOTATIONS --save_path /PATH/TO/CONVERT_ANNOTATIONS

Pascal Context数据集

Pascal Context是基于PASCAL VOC 2010数据集额外标注的像素级别的语义分割数据集。我们提供的转换脚本支持60个类别,index为0是背景类别。该数据集中训练集4996, 验证集5104张.

在使用Pascal Context数据集前, 请先下载VOC2010,随后自行前往Pascal-Context主页下载数据集及标注

我们建议您将数据集存放于PaddleSeg/data中,以便与我们配置文件完全兼容。数据集下载后请组织成如下结构:

    VOC2010
    |
    |--Annotations
    |
    |--ImageSets
    |
    |--SegmentationClass
    |  
    |--JPEGImages
    |
    |--SegmentationObject
    |
    |--trainval_merged.json

运行下列命令进行标签转换:

python tools/data/convert_voc2010.py --voc_path /PATH/TO/VOC ----annotation_path /PATH/TO/JSON

其中voc_path应根据下载VOC2010文件夹的实际路径填写。 annotation_path决定下载trainval_merged.json的存放位置。

其中,标注图像的标签从0,1,2依次取值,不可间隔。若有需要忽略的像素,则按255(默认的忽略值)进行标注。在使用Pascal Context数据集时,需要安装Detail