资讯 社区 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

创建模型压缩任务

目录

1.创建模型压缩任务

2.任务计费说明

3.模型压缩支持范围

创建模型压缩任务

登录到本平台,在左侧功能列选择模型压缩,进入模型压缩主任务界面。

点击“创建压缩任务”按钮,进入新建压缩任务页面。(若没有该按钮,请查看任务计费说明

image.png

由用户填写评估任务所需的基本信息、压缩配置、资源配置。

image.png

基本信息

填写压缩任务名称、压缩任务描述。

压缩配置

  • 选择源模型: 此处支持选择用户希望压缩的模型,支持从『我的模型』中选择(不支持选择预置模型)。具体支持范围详见模型压缩支持范围
  • 模型创建方式:选择压缩后模型的保存方式,支持保存为已有模型新版本(默认为最新版本)或保存为新模型(默认V1版本)。
  • 选择已有模型:同一模型各版本的基础模型需保持一致,已自动过滤不符合要求的模型。
    压缩策略:
  • 量化压缩:
    WxAxCx中W、A、C分别代表模型权重(weight)、激活(activation)和键值缓存(kv cache),数字x代表模型压缩后相应部分的比特数。模型压缩过程后,高比特浮点数会映射到低比特量化空间,从而达到降低显存占用、提升推理性能等目的。 模型的推理性能收益均需要通过实际测试获得,表中策略类型仅做参考。
策略类型 权重bit 激活bit KV Cache bit 适用范围
W8A8C16-PTQ 8 8 16 文心系列大模型
W8A8C8-PTQ 8 8 8 文心系列大模型
W8A16C16 8 16 16 多用于第三方开源大模型
W4A16C16 4 16 16 多用于第三方开源大模型
  • 稀疏化:
策略类型 描述 适用范围
比例50% 在同等算力资源下,降低单Token时延、提升QPS 第三方开源大模型

任务计费说明

当前模型压缩功能限时免费。

模型压缩支持范围

模型版本 量化压缩 > W8A8C8-PTQ 量化压缩 > W8A8C16-PTQ 量化压缩 > W8A16C16 量化压缩 > W4A16C16
ERINE-Lite-128K-0419
ERNIE-Lite-8K-0308
ERNIE-Tiny-8K
Qianfan-Chinese-Llama-2-7B
Qianfan-Chinese-Llama-2-13B-v1
BLOOMZ-7B

注意:1. PTQ压缩策略依赖模型精调时所使用的全部数据集,该数据集有删除时无法选择PTQ压缩策略。
   2. 量化压缩是一种将模拟量转换为离散量的方法,它可以模型参数的存储字节数压缩。INT8代表将模型参数压缩至8位字节。
   3. 2024.5.30以后产出的训练发布的ERNIE模型,默认都是wint8格式。

上一篇
模型评估
下一篇
查看模型压缩任务