资讯 社区 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

厂内定制模型导入及推理

ERNIE-Lite-32k

单卡L20

整体描述

工具链版本:4.5rc

模型:lite-128k,pdc导出32k

精度:ptq-wint8 (后续更新,请保持关注~)

卡型:单卡L20

场景:极致满足

采样:sampling

导入配置

您可在平台我的模型模块,选择创建模型,进行导入配置。

image.png

注意:基座模型选择lite-128k,上下文长度按照pdc导出的长度进行导入。

自定义启动参数

您在发布服务时,需开启自定义参数,设置自定义参数。

image.png

卡型Ⅱ配置

自定义参数:

{
    "BATCH_SIZE": "128",
    "BLOCK_BS": "7"
}

卡型Ⅴ配置

自定义参数:

{
    "BATCH_SIZE": "128",
    "BLOCK_BS": "8.5"
}

ERNIE-BLM-4K

工具链版本:<4.4

您可在平台我的模型模块,选择创建模型,进行导入配置。

image.png

创建完成后,基本信息如下所示:

image.png

部署卡型:AI加速卡l型

sampling

工具链版本:4.4

image.png

部署卡型:AI加速卡l型

BLM-Chat模型

整体描述

模型:blm-chat

精度:wint8

卡型:L20两卡

采样:diverse beam search

导入配置

您可在平台我的模型模块,选择创建模型,进行导入配置。

image.png

自定义启动参数

您在发布服务时,需开启自定义参数,设置自定义参数。

{
    "BATCH_SIZE": "128",
    "BLOCK_BS": "7",
    "MAX_SEQ_LEN": "2048",
    "MAX_DEC_LEN": "128",
    "BEAM_SIZE": "8",
    "BEAM_GROUP_NUM": "4"
}

支持diverse beam search的配置要求:

  • BEAM_GROUP_NUM >=2
  • 2 <= BEAM_SIZE <= 16
  • BEAM_SIZE % BEAM_GROUP_NUM == 0

启动参数说明:

  • BEAM_SIZE:一个请求生成的结果个数
  • BEAM_GROUP_NUM:此参数可将BEAM_SIZE分成不同group,不同group之间生成结果的diversity

推理入参设置

对应上面的自定义去启动参数,推理接口请求入参需求:

① 业务侧保障prompt token不大于2048,建议方案:

  1. 业务调用token接口,大于2048的不调用推理接口可查看文档指导
  2. 业务侧先计算strlen。按照strlen/1.6>2048,判断是否可以请求接口。

② 设置最大输出token为128,max_output_tokens
③ 推理入参增加diversity_penalty
④ 注意不支持stream=true

参数名 参数类型 是否必须 参数位置 参数描述
diversity_penalty float32 body 此参数仅需在模型采用diversity- beamsearch策略时,与group_beam_seasrch配合使用;通过调节这一参数,可以灵活控制生成序列的多样性和质量:值越大,施加的惩罚越严重,生成的序列之间差异越大;默认为0.0;参考值:5.0,10.0参数限制:0-100

输入请求

{
    "messages": [
        {
            "role": "user",
            "content": "标题的改写参考推广信息,无需全部带入。\n推广信息如下:\n关键词:减肥怎么才能瘦的快。\n原始标题:减肥怎么才能瘦的快,试过100种减肥法,这个减肥法就够了。\n品牌:谷城忠辉科技有限公司。\n行业:药品。\n实体:印尼景点。\n类目:旅游服务->旅行社->欧洲旅游。\n请基于以上创作要求改写出1个标题。"
        }
    ],
    "n":4,
    "diversity_penalty":1.0,
    "max_output_tokens":100

}

返回

{
    "id": "as-xjib5my4ia",
    "object": "chat.completion",
    "created": 1720441122,
    "result": "",
    "is_truncated": false,
    "need_clear_history": false,
    "usage": {
        "prompt_tokens": 89,
        "completion_tokens": 68,
        "total_tokens": 157
    },
    "choices": [
        {
            "index": 0,
            "is_truncated": false,
            "message": {
                "role": "assistant",
                "content": "\"快速瘦身秘诀揭秘:谷城忠辉科技减肥法\""
            }
        },
        {
            "index": 1,
            "is_truncated": false,
            "message": {
                "role": "assistant",
                "content": "\"快速瘦身秘诀揭秘:谷城忠辉科技减肥法,印尼景点旅游推荐\""
            }
        },
        {
            "index": 2,
            "is_truncated": false,
            "message": {
                "role": "assistant",
                "content": "谷城忠辉科技推荐:快速减肥法,无需100种尝试!"
            }
        },
        {
            "index": 3,
            "is_truncated": false,
            "message": {
                "role": "assistant",
                "content": "谷城忠辉科技推荐:快速减肥法,无需100种尝试。"
            }
        }
    ]
}

postman示例

n=4

img

n=6

img

ERNIE-BLM-Chat

双卡A30

整体描述

模型:blm-chat

精度:ptq-wint8,小流量优化

卡型:A30两卡

场景:智能体

采样:sampling

导入配置

您可在平台我的模型模块,选择创建模型,进行导入配置。

image.png

自定义启动参数

您在发布服务时,需开启自定义参数,设置自定义参数。

{
    "BATCH_SIZE": "32",
    "BLOCK_BS": "3.1",
    "MAX_SEQ_LEN": "2048",
    "MAX_DEC_LEN": "128",
    "BLOCK_RATIO": "0.85"
}

推理入参设置

对应上面的自定义去启动参数,推理接口请求入参需求:

① 业务侧保障prompt token不大于2048,建议方案:

  1. 业务调用token接口,大于2048的不调用推理接口,可查看文档指导
  2. 业务侧先计算strlen。按照strlen/1.6>2048,判断是否可以请求接口。

② 设置最大输出token为128,max_output_tokens

img

双卡L20

整体描述

背景:已经在单卡L20部署成功,但是延时不满足需求,希望在双卡L20部署。

模型:blm-chat

精度:wint8(无ptq)

卡型:L20双卡

采样:sampling

导入配置

您可在平台我的模型模块,选择创建模型,进行导入配置。

image.png

自定义启动参数

您在发布服务时,需开启自定义参数,设置自定义参数。

{
    "BATCH_SIZE": "32",
    "BLOCK_BS": "2.8",
    "MAX_SEQ_LEN": "8192",
    "MAX_DEC_LEN": "128",
    "BLOCK_RATIO": "0.85"
}

推理入参设置

对应上面的自定义去启动参数,推理接口请求入参需求:

  1. 设置最大输出token为128,max_output_tokens【必须】

img

输入

{
    "messages": [
        {
            "role": "user",
            "content": "标题的改写参考推广信息,无需全部带入。\n推广信息如下:\n关键词:减肥怎么才能瘦的快。\n原始标题:减肥怎么才能瘦的快,试过100种减肥法,这个减肥法就够了。\n品牌:谷城忠辉科技有限公司。\n行业:药品。\n实体:印尼景点。\n类目:旅游服务->旅行社->欧洲旅游。\n请基于以上创作要求改写出1个标题。"
        }
    ],
    "max_output_tokens":100
}

输出

{
    "id": "as-ubbuxyvmsp",
    "object": "chat.completion",
    "created": 1720444711,
    "result": "谷城忠辉科技:试过100种减肥法,这个减肥法就够了!",
    "is_truncated": false,
    "need_clear_history": false,
    "usage": {
        "prompt_tokens": 89,
        "completion_tokens": 19,
        "total_tokens": 108
    }
}

img

单卡L20

整体描述

模型:blm-chat

精度:wint8(无ptq)

卡型:L20单卡

采样:sampling

导入配置

您可在平台我的模型模块,选择创建模型,进行导入配置。

image.png

自定义启动参数

您在发布服务时,需开启自定义参数,设置自定义参数。

{
    "BATCH_SIZE": "16",
    "BLOCK_BS": "1.5",
    "MAX_SEQ_LEN": "8192",
    "MAX_DEC_LEN": "128",
    "BLOCK_RATIO": "0.85"
}

推理入参设置

对应以上的自定义去启动参数,推理接口请求入参需求:

  1. 设置最大输出token为128,max_output_tokens

img

相关参考

模型导入

您可查看通用模型帮助文档,获取导入模型基本步骤。

备注说明:

  • 从pdc上导出信息显示是sampling+4.3版本的,使用4.4工具链可以向下兼容

img

模型推理

您可查看通用模型帮助文档,获取导入模型基本步骤,并开启自定义参数。

  • L20单卡推理
{
    "BATCH_SIZE": "16",
    "BLOCK_BS": "1.5",
    "MAX_SEQ_LEN": "8192",
    "MAX_DEC_LEN": "128",
    "BLOCK_RATIO": "0.85"
}