厂内定制模型导入及推理

更新时间：2025-04-11

ERNIE-Lite-32k

单卡L20

整体描述

工具链版本：4.5rc

模型：lite-128k，pdc导出32k

精度：ptq-wint8 (后续更新，请保持关注～)

卡型：单卡L20

场景：极致满足

采样：sampling

导入配置

您可在平台我的模型模块，选择创建模型，进行导入配置。

注意：基座模型选择lite-128k，上下文长度按照pdc导出的长度进行导入。

自定义启动参数

您在发布服务时，需开启自定义参数，设置自定义参数。

卡型Ⅱ配置

自定义参数：

{
    "BATCH_SIZE": "128",
    "BLOCK_BS": "7"
}

卡型Ⅴ配置

自定义参数：

{
    "BATCH_SIZE": "128",
    "BLOCK_BS": "8.5"
}

ERNIE-BLM-4K

beam-search

工具链版本：<4.4

您可在平台我的模型模块，选择创建模型，进行导入配置。

创建完成后，基本信息如下所示：

部署卡型：AI加速卡l型

sampling

工具链版本：4.4

部署卡型：AI加速卡l型

BLM-Chat模型

diverse beam search

整体描述

模型：blm-chat

精度：wint8

卡型：L20两卡

采样：diverse beam search

导入配置

您可在平台我的模型模块，选择创建模型，进行导入配置。

自定义启动参数

您在发布服务时，需开启自定义参数，设置自定义参数。

{
    "BATCH_SIZE": "128",
    "BLOCK_BS": "7",
    "MAX_SEQ_LEN": "2048",
    "MAX_DEC_LEN": "128",
    "BEAM_SIZE": "8",
    "BEAM_GROUP_NUM": "4"
}

支持diverse beam search的配置要求：

BEAM_GROUP_NUM >=2
2 <= BEAM_SIZE <= 16
BEAM_SIZE % BEAM_GROUP_NUM == 0

启动参数说明：

BEAM_SIZE：一个请求生成的结果个数
BEAM_GROUP_NUM：此参数可将BEAM_SIZE分成不同group，不同group之间生成结果的diversity

推理入参设置

对应上面的自定义去启动参数，推理接口请求入参需求：

① 业务侧保障prompt token不大于2048，建议方案：

业务调用token接口，大于2048的不调用推理接口可查看文档指导。
业务侧先计算strlen。按照strlen/1.6>2048，判断是否可以请求接口。

② 设置最大输出token为128，max_output_tokens
③ 推理入参增加diversity_penalty
④ 注意不支持stream=true

参数名	参数类型	是否必须	参数位置	参数描述
diversity_penalty	float32	否	body	此参数仅需在模型采用diversity- beamsearch策略时，与group_beam_seasrch配合使用；通过调节这一参数，可以灵活控制生成序列的多样性和质量：值越大，施加的惩罚越严重，生成的序列之间差异越大；默认为0.0；参考值：5.0，10.0参数限制：0-100

输入请求

{
    "messages": [
        {
            "role": "user",
            "content": "标题的改写参考推广信息，无需全部带入。\n推广信息如下：\n关键词：减肥怎么才能瘦的快。\n原始标题：减肥怎么才能瘦的快,试过100种减肥法,这个减肥法就够了。\n品牌：谷城忠辉科技有限公司。\n行业：药品。\n实体：印尼景点。\n类目：旅游服务->旅行社->欧洲旅游。\n请基于以上创作要求改写出1个标题。"
        }
    ],
    "n":4,
    "diversity_penalty":1.0,
    "max_output_tokens":100

}

{
    "id": "as-xjib5my4ia",
    "object": "chat.completion",
    "created": 1720441122,
    "result": "",
    "is_truncated": false,
    "need_clear_history": false,
    "usage": {
        "prompt_tokens": 89,
        "completion_tokens": 68,
        "total_tokens": 157
    },
    "choices": [
        {
            "index": 0,
            "is_truncated": false,
            "message": {
                "role": "assistant",
                "content": "\"快速瘦身秘诀揭秘：谷城忠辉科技减肥法\""
            }
        },
        {
            "index": 1,
            "is_truncated": false,
            "message": {
                "role": "assistant",
                "content": "\"快速瘦身秘诀揭秘：谷城忠辉科技减肥法，印尼景点旅游推荐\""
            }
        },
        {
            "index": 2,
            "is_truncated": false,
            "message": {
                "role": "assistant",
                "content": "谷城忠辉科技推荐：快速减肥法，无需100种尝试！"
            }
        },
        {
            "index": 3,
            "is_truncated": false,
            "message": {
                "role": "assistant",
                "content": "谷城忠辉科技推荐：快速减肥法，无需100种尝试。"
            }
        }
    ]
}

postman示例

n=4

n=6

ERNIE-BLM-Chat

双卡A30

整体描述

模型：blm-chat

精度：ptq-wint8，小流量优化

卡型：A30两卡

场景：智能体

采样：sampling

导入配置

您可在平台我的模型模块，选择创建模型，进行导入配置。

自定义启动参数

您在发布服务时，需开启自定义参数，设置自定义参数。

{
    "BATCH_SIZE": "32",
    "BLOCK_BS": "3.1",
    "MAX_SEQ_LEN": "2048",
    "MAX_DEC_LEN": "128",
    "BLOCK_RATIO": "0.85"
}

推理入参设置

对应上面的自定义去启动参数，推理接口请求入参需求：

① 业务侧保障prompt token不大于2048，建议方案：

业务调用token接口，大于2048的不调用推理接口，可查看文档指导。
业务侧先计算strlen。按照strlen/1.6>2048，判断是否可以请求接口。

② 设置最大输出token为128，max_output_tokens

双卡L20

整体描述

背景：已经在单卡L20部署成功，但是延时不满足需求，希望在双卡L20部署。

模型：blm-chat

精度：wint8（无ptq）

卡型：L20双卡

采样：sampling

导入配置

您可在平台我的模型模块，选择创建模型，进行导入配置。

自定义启动参数

您在发布服务时，需开启自定义参数，设置自定义参数。

{
    "BATCH_SIZE": "32",
    "BLOCK_BS": "2.8",
    "MAX_SEQ_LEN": "8192",
    "MAX_DEC_LEN": "128",
    "BLOCK_RATIO": "0.85"
}

推理入参设置

对应上面的自定义去启动参数，推理接口请求入参需求：

设置最大输出token为128，max_output_tokens【必须】

输入

{
    "messages": [
        {
            "role": "user",
            "content": "标题的改写参考推广信息，无需全部带入。\n推广信息如下：\n关键词：减肥怎么才能瘦的快。\n原始标题：减肥怎么才能瘦的快,试过100种减肥法,这个减肥法就够了。\n品牌：谷城忠辉科技有限公司。\n行业：药品。\n实体：印尼景点。\n类目：旅游服务->旅行社->欧洲旅游。\n请基于以上创作要求改写出1个标题。"
        }
    ],
    "max_output_tokens":100
}

输出

{
    "id": "as-ubbuxyvmsp",
    "object": "chat.completion",
    "created": 1720444711,
    "result": "谷城忠辉科技：试过100种减肥法，这个减肥法就够了！",
    "is_truncated": false,
    "need_clear_history": false,
    "usage": {
        "prompt_tokens": 89,
        "completion_tokens": 19,
        "total_tokens": 108
    }
}

单卡L20

整体描述

模型：blm-chat

精度：wint8（无ptq）

卡型：L20单卡

采样：sampling

导入配置

您可在平台我的模型模块，选择创建模型，进行导入配置。

自定义启动参数

您在发布服务时，需开启自定义参数，设置自定义参数。

{
    "BATCH_SIZE": "16",
    "BLOCK_BS": "1.5",
    "MAX_SEQ_LEN": "8192",
    "MAX_DEC_LEN": "128",
    "BLOCK_RATIO": "0.85"
}

推理入参设置

对应以上的自定义去启动参数，推理接口请求入参需求：

设置最大输出token为128，max_output_tokens

模型推理

您可查看通用模型帮助文档，获取导入模型基本步骤，并开启自定义参数。

L20单卡推理

{
    "BATCH_SIZE": "16",
    "BLOCK_BS": "1.5",
    "MAX_SEQ_LEN": "8192",
    "MAX_DEC_LEN": "128",
    "BLOCK_RATIO": "0.85"
}

厂内定制模型导入及推理

ERNIE-Lite-32k

单卡L20

整体描述

导入配置

自定义启动参数

卡型Ⅱ配置

卡型Ⅴ配置

ERNIE-BLM-4K

beam-search

sampling

BLM-Chat模型

diverse beam search

整体描述

导入配置

自定义启动参数

推理入参设置

ERNIE-BLM-Chat

双卡A30

整体描述

导入配置

自定义启动参数

推理入参设置

双卡L20

整体描述

导入配置

自定义启动参数

推理入参设置

单卡L20

整体描述

导入配置

自定义启动参数

推理入参设置

相关参考

模型导入

模型推理