厂内定制模型导入及推理
ERNIE-Lite-32k
单卡L20
整体描述
工具链版本:4.5rc
模型:lite-128k,pdc导出32k
精度:ptq-wint8 (后续更新,请保持关注~)
卡型:单卡L20
场景:极致满足
采样:sampling
导入配置
您可在平台我的模型模块,选择创建模型,进行导入配置。
注意:基座模型选择lite-128k,上下文长度按照pdc导出的长度进行导入。
自定义启动参数
您在发布服务时,需开启自定义参数,设置自定义参数。
卡型Ⅱ配置
自定义参数:
{
"BATCH_SIZE": "128",
"BLOCK_BS": "7"
}
卡型Ⅴ配置
自定义参数:
{
"BATCH_SIZE": "128",
"BLOCK_BS": "8.5"
}
ERNIE-BLM-4K
beam-search
工具链版本:<4.4
您可在平台我的模型模块,选择创建模型,进行导入配置。
创建完成后,基本信息如下所示:
部署卡型:AI加速卡l型
sampling
工具链版本:4.4
部署卡型:AI加速卡l型
BLM-Chat模型
diverse beam search
整体描述
模型:blm-chat
精度:wint8
卡型:L20两卡
采样:diverse beam search
导入配置
您可在平台我的模型模块,选择创建模型,进行导入配置。
自定义启动参数
您在发布服务时,需开启自定义参数,设置自定义参数。
{
"BATCH_SIZE": "128",
"BLOCK_BS": "7",
"MAX_SEQ_LEN": "2048",
"MAX_DEC_LEN": "128",
"BEAM_SIZE": "8",
"BEAM_GROUP_NUM": "4"
}
支持diverse beam search的配置要求:
- BEAM_GROUP_NUM >=2
- 2 <= BEAM_SIZE <= 16
- BEAM_SIZE % BEAM_GROUP_NUM == 0
启动参数说明:
- BEAM_SIZE:一个请求生成的结果个数
- BEAM_GROUP_NUM:此参数可将BEAM_SIZE分成不同group,不同group之间生成结果的diversity
推理入参设置
对应上面的自定义去启动参数,推理接口请求入参需求:
① 业务侧保障prompt token不大于2048,建议方案:
- 业务调用token接口,大于2048的不调用推理接口可查看文档指导。
- 业务侧先计算strlen。按照strlen/1.6>2048,判断是否可以请求接口。
② 设置最大输出token为128,max_output_tokens
③ 推理入参增加diversity_penalty
④ 注意不支持stream=true
参数名 | 参数类型 | 是否必须 | 参数位置 | 参数描述 |
---|---|---|---|---|
diversity_penalty | float32 | 否 | body | 此参数仅需在模型采用diversity- beamsearch策略时,与group_beam_seasrch配合使用;通过调节这一参数,可以灵活控制生成序列的多样性和质量:值越大,施加的惩罚越严重,生成的序列之间差异越大;默认为0.0;参考值:5.0,10.0参数限制:0-100 |
输入请求
{
"messages": [
{
"role": "user",
"content": "标题的改写参考推广信息,无需全部带入。\n推广信息如下:\n关键词:减肥怎么才能瘦的快。\n原始标题:减肥怎么才能瘦的快,试过100种减肥法,这个减肥法就够了。\n品牌:谷城忠辉科技有限公司。\n行业:药品。\n实体:印尼景点。\n类目:旅游服务->旅行社->欧洲旅游。\n请基于以上创作要求改写出1个标题。"
}
],
"n":4,
"diversity_penalty":1.0,
"max_output_tokens":100
}
返回
{
"id": "as-xjib5my4ia",
"object": "chat.completion",
"created": 1720441122,
"result": "",
"is_truncated": false,
"need_clear_history": false,
"usage": {
"prompt_tokens": 89,
"completion_tokens": 68,
"total_tokens": 157
},
"choices": [
{
"index": 0,
"is_truncated": false,
"message": {
"role": "assistant",
"content": "\"快速瘦身秘诀揭秘:谷城忠辉科技减肥法\""
}
},
{
"index": 1,
"is_truncated": false,
"message": {
"role": "assistant",
"content": "\"快速瘦身秘诀揭秘:谷城忠辉科技减肥法,印尼景点旅游推荐\""
}
},
{
"index": 2,
"is_truncated": false,
"message": {
"role": "assistant",
"content": "谷城忠辉科技推荐:快速减肥法,无需100种尝试!"
}
},
{
"index": 3,
"is_truncated": false,
"message": {
"role": "assistant",
"content": "谷城忠辉科技推荐:快速减肥法,无需100种尝试。"
}
}
]
}
postman示例
n=4
n=6
ERNIE-BLM-Chat
双卡A30
整体描述
模型:blm-chat
精度:ptq-wint8,小流量优化
卡型:A30两卡
场景:智能体
采样:sampling
导入配置
您可在平台我的模型模块,选择创建模型,进行导入配置。
自定义启动参数
您在发布服务时,需开启自定义参数,设置自定义参数。
{
"BATCH_SIZE": "32",
"BLOCK_BS": "3.1",
"MAX_SEQ_LEN": "2048",
"MAX_DEC_LEN": "128",
"BLOCK_RATIO": "0.85"
}
推理入参设置
对应上面的自定义去启动参数,推理接口请求入参需求:
① 业务侧保障prompt token不大于2048,建议方案:
- 业务调用token接口,大于2048的不调用推理接口,可查看文档指导。
- 业务侧先计算strlen。按照strlen/1.6>2048,判断是否可以请求接口。
② 设置最大输出token为128,max_output_tokens
双卡L20
整体描述
背景:已经在单卡L20部署成功,但是延时不满足需求,希望在双卡L20部署。
模型:blm-chat
精度:wint8(无ptq)
卡型:L20双卡
采样:sampling
导入配置
您可在平台我的模型模块,选择创建模型,进行导入配置。
自定义启动参数
您在发布服务时,需开启自定义参数,设置自定义参数。
{
"BATCH_SIZE": "32",
"BLOCK_BS": "2.8",
"MAX_SEQ_LEN": "8192",
"MAX_DEC_LEN": "128",
"BLOCK_RATIO": "0.85"
}
推理入参设置
对应上面的自定义去启动参数,推理接口请求入参需求:
- 设置最大输出token为128,
max_output_tokens
【必须】
输入
{
"messages": [
{
"role": "user",
"content": "标题的改写参考推广信息,无需全部带入。\n推广信息如下:\n关键词:减肥怎么才能瘦的快。\n原始标题:减肥怎么才能瘦的快,试过100种减肥法,这个减肥法就够了。\n品牌:谷城忠辉科技有限公司。\n行业:药品。\n实体:印尼景点。\n类目:旅游服务->旅行社->欧洲旅游。\n请基于以上创作要求改写出1个标题。"
}
],
"max_output_tokens":100
}
输出
{
"id": "as-ubbuxyvmsp",
"object": "chat.completion",
"created": 1720444711,
"result": "谷城忠辉科技:试过100种减肥法,这个减肥法就够了!",
"is_truncated": false,
"need_clear_history": false,
"usage": {
"prompt_tokens": 89,
"completion_tokens": 19,
"total_tokens": 108
}
}
单卡L20
整体描述
模型:blm-chat
精度:wint8(无ptq)
卡型:L20单卡
采样:sampling
导入配置
您可在平台我的模型模块,选择创建模型,进行导入配置。
自定义启动参数
您在发布服务时,需开启自定义参数,设置自定义参数。
{
"BATCH_SIZE": "16",
"BLOCK_BS": "1.5",
"MAX_SEQ_LEN": "8192",
"MAX_DEC_LEN": "128",
"BLOCK_RATIO": "0.85"
}
推理入参设置
对应以上的自定义去启动参数,推理接口请求入参需求:
- 设置最大输出token为128,
max_output_tokens
相关参考
模型导入
您可查看通用模型帮助文档,获取导入模型基本步骤。
备注说明:
- 从pdc上导出信息显示是sampling+4.3版本的,使用4.4工具链可以向下兼容
模型推理
您可查看通用模型帮助文档,获取导入模型基本步骤,并开启自定义参数。
- L20单卡推理
{
"BATCH_SIZE": "16",
"BLOCK_BS": "1.5",
"MAX_SEQ_LEN": "8192",
"MAX_DEC_LEN": "128",
"BLOCK_RATIO": "0.85"
}