Name	Name	Last commit message	Last commit date
parent directory ..
configs	configs
README.md	README.md
paddle_inference_eval.py	paddle_inference_eval.py
paddle_inference_eval_uie.py	paddle_inference_eval_uie.py
run.py	run.py
run.sh	run.sh
run_uie.py	run_uie.py

自然语言处理模型自动压缩示例

1. 简介
2. Benchmark
3. 自动压缩流程
4. 压缩配置介绍
5. 预测部署
6. FAQ

1. 简介

本示例将以自然语言处理模型PP-MiniLM和ERNIE 3.0-Medium为例，介绍如何使用PaddleNLP中Inference部署模型进行自动压缩.

2. Benchmark

PP-MiniLM: 6层的预训练中文小模型，使用PaddleNLP中from_pretrained导入PP-MiniLM之后，就可以在自己的数据集上进行fine-tuning，具体介绍可参考PP-MiniLM文档。
ERNIE 3.0-Medium: 中文预训练模型, 关键参数为(6-layer, 768-hidden, 12-heads), 详情请参考PaddleNLP ERNIE 3.0

模型精度对比如下：

模型	策略	AFQMC	TNEWS	IFLYTEK	CMNLI	OCNLI	CLUEWSC2020	CSL	AVG
PP-MiniLM	Base模型	74.03	56.66	60.21	80.98	76.20	84.21	77.36	72.81
PP-MiniLM	剪枝蒸馏+离线量化	74.03	56.62	60.18	80.87	75.28	80.92	75.03	71.85
ERNIE 3.0-Medium	Base模型	75.35	57.45	60.17	81.16	77.19	80.59	79.70	73.09
ERNIE 3.0-Medium	剪枝+量化训练	74.17	56.84	59.75	80.54	76.03	76.97	80.80	72.16

模型	策略	报销工单数据
UIE-base	Base模型	91.83
UIE-base	量化训练	95.80

注：UIE模型精度为在5-shot(每个类别包含5条标注数据)数据集上进行模型微调的结果，压缩后精度更高可能原因是过拟合在当前数据集。

模型在不同任务上平均精度以及加速对比如下：

模型	策略	Accuracy（avg）	预测时延^FP32	预测时延^FP16	预测时延^INT8	加速比
PP-MiniLM	Base模型	72.81	94.49ms	23.31ms	-	-
PP-MiniLM	剪枝+离线量化	71.85	-	-	15.76ms	5.99x
ERNIE 3.0-Medium	Base模型	73.09	89.71ms	20.76ms	-	-
ERNIE 3.0-Medium	剪枝+量化训练	72.16	-	-	14.08ms	6.37x
UIE-base	Base模型	91.83	42.66ms	14.23ms	-	-
UIE-base	量化训练	95.80	-	-	10.94ms	3.90x

性能测试的环境为

硬件：NVIDIA Tesla T4 单卡
软件：CUDA 11.2, cuDNN 8.1, TensorRT 8.4
测试配置：batch_size: 32, max_seq_len: 128

3. 自动压缩流程

3.1 准备环境

python >= 3.6
PaddlePaddle ==2.5 （可从Paddle官网下载安装）
PaddleSlim ==2.5
PaddleNLP ==2.6

安装paddlepaddle：

# CPU
pip install paddlepaddle==2.5.0
# GPU 以Ubuntu、CUDA 11.2为例
python -m pip install paddlepaddle-gpu==2.5.0.post116 -f https://www.paddlepaddle.org.cn/whl/linux/mkl/avx/stable.html

安装paddleslim：

pip install paddleslim

安装paddlenlp：

pip install paddlenlp

注：安装PaddleNLP的目的是为了下载PaddleNLP中的数据集和Tokenizer。

3.2 准备数据集

本案例默认以CLUE数据进行自动压缩实验，如数据集为非CLUE格式数据，请修改启动文本run.sh中dataset字段，PaddleNLP会自动下载对应数据集。

3.3 准备预测模型

预测模型的格式为：model.pdmodel 和 model.pdiparams两个，带pdmodel的是模型文件，带pdiparams后缀的是权重文件。

注：其他像__model__和__params__分别对应model.pdmodel 和 model.pdiparams文件。

直接下载已微调模型

模型	AFQMC	TNEWS	IFLYTEK	CMNLI	OCNLI	CLUEWSC2020	CSL
PP-MiniLM	afqmc	tnews	iflytek	cmnli	ocnli	cluewsc2020	csl
ERNIE 3.0-Medium	afqmc	tnews	iflytek	cmnli	ocnli	cluewsc2020	csl

从上表获得模型超链接, 并用以下命令下载推理模型文件:

wget https://bj.bcebos.com/v1/paddle-slim-models/act/afqmc.tar
tar -zxvf afqmc.tar

重新微调模型

可参考PaddleNLP PP-MiniLM 中文小模型微调后保存下每个数据集下有最高准确率的模型。其他模型可根据PaddleNLP文档导出Inference模型。

3.4 自动压缩并产出模型

自动压缩示例通过run.py脚本启动，会使用接口paddleslim.auto_compression.AutoCompression对模型进行自动压缩。配置config文件中训练部分的参数，将任务名称、模型类型、数据集名称、压缩参数传入，配置完成后便可对模型进行剪枝、蒸馏训练和离线量化。数据集为CLUE，不同任务名称代表CLUE上不同的任务，可选择的任务名称有：afqmc, tnews, iflytek, ocnli, cmnli, cluewsc2020, csl。具体运行命令为：：

export CUDA_VISIBLE_DEVICES=0
python run.py --config_path='./configs/pp-minilm/auto/afqmc.yaml' --save_dir='./save_afqmc_pruned/'

如仅需验证模型精度，或验证压缩之后模型精度，在启动run.py脚本时，将配置文件中模型文件夹 model_dir 改为压缩之后保存的文件夹路径 ./save_afqmc_pruned ，命令加上--eval True即可：

export CUDA_VISIBLE_DEVICES=0
python run.py --config_path='./configs/pp-minilm/auto/afqmc.yaml'  --eval True

4. 压缩配置介绍

自动压缩需要准备config文件，并传入config_path字段，configs文件夹下可查看不同任务的配置文件，以下示例以afqmc数据集为例介绍。训练参数需要自行配置。蒸馏、剪枝和离线量化的相关配置，自动压缩策略可以自动获取得到，也可以自行配置。PaddleNLP模型的自动压缩实验默认使用剪枝、蒸馏和离线量化的策略。

训练参数

训练参数主要设置学习率、训练轮数（epochs）和优化器等。origin_metric是原模型精度，如设置该参数，压缩之前会先验证模型精度是否正常。

TrainConfig:
  epochs: 6
  eval_iter: 1070
  learning_rate: 2.0e-5
  optimizer_builder:
    optimizer:
      type: AdamW
    weight_decay: 0.01
  origin_metric: 0.7403

以下是默认的蒸馏、剪枝和离线量化的配置：

蒸馏参数

蒸馏参数包括teacher网络模型路径（即微调后未剪枝的模型），自动压缩策略会自动查找教师网络节点和对应的学生网络节点进行蒸馏，不需要手动设置。

Distillation:
  teacher_model_dir: ./afqmc
  teacher_model_filename: inference.pdmodel
  teacher_params_filename: inference.pdiparams

剪枝参数

剪枝参数包括裁剪算法和裁剪度。

Prune:
  prune_algo: transformer_pruner
  pruned_ratio: 0.25

离线量化超参搜索

本示例的离线量化采取了超参搜索策略，以选择最优的超参数取得更好的离线量化效果。首先，配置待搜索的参数：

HyperParameterOptimization:
  batch_num:
  - 4
  - 16
  bias_correct:
  - true
  hist_percent:
  - 0.999
  - 0.99999
  max_quant_count: 20
  ptq_algo:
  - KL
  - hist
  weight_quantize_type:
  - channel_wise_abs_max

其次，配置离线量化参数：

量化参数主要设置量化比特数和量化op类型，其中量化op包含卷积层（conv2d, depthwise_conv2d）和全连接层（mul，matmul_v2）。

QuantPost:
  activation_bits: 8
  quantize_op_types:
  - conv2d
  - depthwise_conv2d
  - mul
  - matmul_v2
  weight_bits: 8

5. 预测部署

量化模型在GPU上可以使用TensorRT进行加速，在CPU上可以使用MKLDNN进行加速。

TensorRT预测：

首先下载量化好的模型：

wget https://bj.bcebos.com/v1/paddle-slim-models/act/save_ppminilm_afqmc_new_calib.tar
tar -xf save_ppminilm_afqmc_new_calib.tar

python paddle_inference_eval.py \
      --model_path=save_ppminilm_afqmc_new_calib \
      --model_filename=inference.pdmodel \
      --params_filename=inference.pdiparams \
      --task_name='afqmc' \
      --use_trt \
      --precision=int8

ERNIE 3.0-Medium:

python paddle_inference_eval.py \
      --model_path=TNEWS \
      --model_filename=infer.pdmodel \
      --params_filename=infer.pdiparams \
      --task_name='tnews' \
      --use_trt \
      --precision=fp32

python paddle_inference_eval.py \
      --model_path=save_tnews_pruned \
      --model_filename=infer.pdmodel \
      --params_filename=infer.pdiparams \
      --task_name='tnews' \
      --use_trt \
      --precision=int8

MKLDNN预测：

python paddle_inference_eval.py \
      --model_path=save_ppminilm_afqmc_new_calib \
      --model_filename=inference.pdmodel \
      --params_filename=inference.pdiparams \
      --task_name='afqmc' \
      --device=cpu \
      --use_mkldnn=True \
      --cpu_threads=10 \
      --precision=int8

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

nlp

nlp

README.md

自然语言处理模型自动压缩示例

1. 简介

2. Benchmark

3. 自动压缩流程

3.1 准备环境

3.2 准备数据集

3.3 准备预测模型

直接下载已微调模型

重新微调模型

3.4 自动压缩并产出模型

4. 压缩配置介绍

5. 预测部署

6. FAQ

Files

nlp

Directory actions

More options

Directory actions

More options

Latest commit

History

nlp

Folders and files

parent directory

README.md

自然语言处理模型自动压缩示例

1. 简介

2. Benchmark

3. 自动压缩流程

3.1 准备环境

3.2 准备数据集

3.3 准备预测模型

直接下载已微调模型

重新微调模型

3.4 自动压缩并产出模型

4. 压缩配置介绍

5. 预测部署

6. FAQ