在线服务

更新时间：2025-10-10

平台支持将模型发布为在线服务，同时在服务发布后对服务进行详情查看和版本更新等操作。

登录到本平台，在左侧功能列选择模型推理，进入服务管理主任务界面。

预置服务

您可在此处查询到目前所有的预置服务，可以选择开通付费或者终止付费，也可以跳转到相关API文档进行参考，日志投递可查看更多信息内容。

如您在切换速率限制服务后遇到问题，可参考常见问题或提交工单。

在线服务

该页面用于管理账号下的所有在线服务。您可在该页面对在线服务进行发布、下线、扩缩容以及更新等操作。也支持在资源详情页面查看服务的基本信息、购买信息以及部署信息。

若您需要将模型发布成专属在线服务，可通过我的服务页面中的创建服务按钮进入创建服务页面配置服务信息。

基本信息

该模块用于服务的基本信息，包括名称、模型以及API地址等。

字段	内容	描述
服务名称	用户定义的服务名称	必填项，支持中文、英文、数字、中划线(-)、下划线(_)，1-32个字符以内
服务描述	用户定义的服务描述	非必填，最多支持300个字符
选择模型	模型名称	必选项，选择待发布的模型及版本
API地址	用户定义的接口地址	必填项,仅支持英文，接口地址需要多于5个字符但不能超过20个字符。同一个账户下的接口地址不支持重复。

部署资源

该模块用于配置发布服务时的资源信息，包括资源类型、副本数以及单副本QPS等。目前，已支持用户选择已购资源或新购资源进行服务部署，其中：

选择新购资源：新购资源用户服务发布，支持按发布服务消耗的算力单元付费以及按在线服务实际处理的tokens付费两种付费方案：

付费类型	说明	付费方式	适用场景	适用范围	功能入口
按算力单元	根据发布服务时购买算力单元的数量收费。服务发布成功后，不再收取任何费用。	预付费、后付费	长期使用	全量模型
按tokens用量	根据服务实际处理的tokens后付费，不收取部署服务时消耗的资源费用。	后付费	临时测试服务效果	部分训练后的模型，查看支持范围

选择已购资源：选择已经购买的算力单元实例用于发布服务，支持一次性选择多个同地域同类型的资源。选择资源后，您需要设置在每个算力单元实例上部署的副本数，需要注意的是，部署消耗算力单元数不得超过可用算力单元数，其中部署消耗算力单元数等于单副本算力单元数乘以副本数。

以下为部署资源模块涉及到的字段说明：

1、选择资源字段为新购资源且付费类型字段为按算力单元时：

字段	内容	描述
付费方式	预付费、后付费	按需选择算力单元预期的计算方式。
地域	华北-北京、华北-保定等	资源所属地域。
资源类型	AI加速卡I型、AI加速卡Ⅲ型等	资源所属类型，不同资源类型性能不同。
单副本算力单元	一般情况下，由系统推荐且不可更改。当选择模型为HF导入模型时，需要自定义	模型部署1个副本消耗的算力单元数量，与模型和资源类型有关
单副本QPS	默认值为1，支持用户自定义，最大值为50	设定值仅为限流阈值，具体数值请以实际数据压测结果为准。
副本数	默认值为1，支持用户自定义	设置多副本可提高服务性能，通过副本数乘以单副本算力单元数计算服务发布消耗的算力单元总数，以此计算金额。
QPS	自动生成，等于单副本QPS*副本数	服务可以支持的并发数，受资源的可用时间限制。
定时释放	默认关闭	仅在付费方式为后付费时允许配置，配置后会在设定好的时间释放该资源。释放成功后，服务自动缩容后下线。
购买时长	默认值为1，最大值为12	仅在付费方式为预付费时允许配置，资源购买成功后开始计时，到期自动释放。释放成功后，服务自动缩容后下线。
自动续费	默认开启	仅在付费方式为预付费时允许配置。
续费周期	默认值为1	仅在付费方式为预付费且自动续费开启式允许配置。

注意：自2024年9月15日起，AI加速卡Ⅰ型算力单元数值规则调整，原2个算力单元等于新规则的1个算力单元，仅数值发生变化，资源规格等同，受到影响的字段为单副本算力单元数，其最小值由2变为1，资源规格并未发生改变。

具体收费标准请前往模型服务计费查看，不同方法方式下购买资源的收费逻辑说明如下：

付费方式为预付费，副本数为1，单副本算力单元数为1，消费金额为：
- 原价：RMB￥15,000 元/月 x 1副本 x 1算力单元
- 折后价：RMB￥7,500 元/月 x 1副本 x 1算力单元
付费方式为后付费，副本数为1，单副本算力单元数为1，消费金额为：
- 原价：RMB￥0.52 元/分钟 x 1副本 x 1算力单元
- 折后价：RMB￥0.26 元/分钟 x 1副本 x 1算力单元

2、选择资源字段为新购资源且付费类型字段为按tokens用量时：

字段	内容	描述
总QPS	默认值为1，支持用户自定义，最大值为50	设定值仅为限流阈值，具体数值请以实际数据压测结果为准。

具体收费标准请前往模型服务计费查看。

2、选择资源字段为已购资源时：

字段	内容	描述
实例ID	固定值	资源唯一标识。
地域	华北-北京、华北-保定等	资源所属地域。
资源类型	AI加速卡I型、AI加速卡Ⅲ型等	资源所属类型，不同资源类型性能不同。
单副本算力单元	一般情况下，由系统推荐且不可更改。当选择模型为HF导入模型时，需要自定义	模型部署1个副本消耗的算力单元数量，与模型和资源类型有关。
部署副本数	默认值为1，支持用户自定义	模型部署的副本数量，受可用算力单元数影响，最大值等于可用算力单元数除以单副本算力单元数。
部署消耗算力单元数	系统计算值，不可修改	模型部署特定副本数所消耗的算力单元数，等于单副本算力单元数乘以副本数。
可用算力单元数	系统计算值，不可修改	所选算力单元实例当前处于空闲且可被使用的算力单元数量。
单副本QPS	默认值为1，支持用户自定义，最大值为50	设定值仅为限流阈值，具体数值请以实际数据压测结果为准。
QPS	自动生成，等于单副本QPS*部署副本数	服务可以支持的并发数，受资源的可用时间限制。

特别注意

申请发布后，服务发布失败、账单异常等情况，请在百度智能云控制台内提交工单反馈。
已购算力单元到期前的7/3/1天，系统会分别发送即将到期的短信至主账号或子账号，如您需继续使用可对此服务续费，可在购买信息处设置多个消息接收人。

列表查看

公有云服务支持对已经发布的服务按服务条目为粒度分行展示。如下图所示：

服务详情

服务详情中可查看本次服务的基本信息和历史版本内容。

版本基本信息中可查看服务的基本信息并续购私有资源池。续购资源池相关参数可查看发布模型的资源配置项。

版本列表来源为更新服务。

扩缩容

使用算力单元部署且处于运行中状态的服务支持扩缩容操作。目前提供2种扩缩容的方式：

添加或移除资源：添加一个同地域同类型的资源至该服务实现扩容或移除一个服务正在使用的资源实现缩容。
增加或减少特定实例上的部署副本数：设置变更部署副本数字段，变更后部署副本总数大于当前部署副本总数则为扩容，反之为缩容。

您可以点击服务详情页部署信息模块的扩缩容按钮或服务列表操作中扩缩容按钮进入扩缩容弹窗，基于上述两种方式实现服务的扩缩容。

操作完成后，服务状态依旧保持为已发布，新增子状态扩容中或缩容中，此时服务仍可被正常调用，扩缩容成功后，服务子状态消失。带有子状态的服务状态展示形式如下：

注意：服务缩容后部署消耗算力单元总数变小，减少的部分自动退还至原实例，如需继续使用可以分配至其他服务，如不再需要，建议及时对这部分资源进行降配、释放或退订操作，减少不必要的损失。

更新服务

在线服务支持服务的版本更新，更新来源为模型的其他版本，历史版本将会在服务详情中进行展示。

允许您选择同类模型下的任意模型的任意版本。

下线服务

支持对已发布（不存在任何子状态）状态的服务进行下线操作。

注意：

服务下线不影响资源状态，如果服务所使用的资源不再被需要时，建议您及时前往资源管理页面对资源进行变配、释放或退订操作。
后付费资源需要用户手动释放才会停止计费。为避免出现使用后付费资源部署的服务下线后资源仍在计费的问题，支持用户在下线服务时同步释放独占后付费资源（独占：算力单元实例被当前服务全部占用），服务下线后，资源同步释放，释放成功后停止计费。

日志投递/解绑

如您在创建服务时，未开启日志投递功能，可以在列表页开启日志投递功能；如您在创建服务时，已经开启日志投递功能，需要进行变更或者关闭，也可在列表页进行日志解绑。相关操作可查看BLS操作参考。

删除服务

如果您明确不再需要某项服务，可以点击操作列的“删除”按钮，该按钮仅允许服务处于非已发布状态时选中。

Prompt工程

批量推理