HuggingFace格式模型导入

更新时间：2025-09-16

本文档详细说明如何将HuggingFace格式的模型权重文件导入至千帆ModelBuilder平台。

前提条件

开通BOS服务
需提前开通百度智能云对象存储(BOS)服务
上传模型文件
将HuggingFace权重文件上传至BOS存储桶，可参考自动下载HuggingFace模型至BOS实现自动化操作

支持范围

下表列出了当前支持的模型类型及其对应的推理引擎版本，完整支持范围可在控制台查看。

模型类型	推理引擎	版本要求
文本生成	Transformers	4.43.2
	vLLm	0.6.3/0.7.2/0.8.3/0.8.5
	llama.cpp	b4800
	SGLang	0.4.4
	内置模型	DeepSeek-R1-Distill-Qwen（14B/32B）、 Qwen3系列（0.6B/1.7B/4B/8B/14B/32B）、 Qwen2.5系列（7B/14B/32B/72B/Coder-32B）、 Seed-OSS系列（36B）
视觉理解	vLLm	0.8.3/0.8.5/0.9.2
视觉理解	内置模型	Ovis2.5系列、InternLM/VL系列、Qwen-VL系列、LLaVA、GLM-4V等
向量表示	SentenceTransformer	2.7.0
	Transformers	4.44.2
	内置模型	jina-embeddings-v3、bge-large-zh-v1.5、m3e-base
重排序	BCEmbedding	0.1.5
	Transformer	4.36.2/4.46.3
	内置模型	bge-reranker-v2-m3、jina-reranker-v2
图像生成	Safetensors	仅支持Stable-Diffusion-XL的LoRA模型

请确认导入模型支持以上推理框架，否则可能会导入失败。

SGLang参考：https://docs.sglang.ai/supported_models/generative_models.html
VLLM参考：https://docs.vllm.ai/en/latest/models/supported_models.html

操作流程

1. 创建模型

登录千帆控制台
导航至【模型管理】→【我的模型】
点击"创建模型"按钮

2. 填写基本信息

模型名称：自定义标识名称
模型类型：选择对应分类（文本生成/图像生成/向量表示等）
业务标签：可选，用于业务分类

3. 配置模型参数

模型版本：系统自动生成（V1开始递增）
版本描述：可选，建议记录关键信息
模型来源：选择BOS并填写对应Bucket和路径
模型格式：选择HuggingFace
推理引擎：根据"支持范围"章节选择对应版本

4. 模型特化配置

是否开启思考：打开开关后，会根据输出规范来解析思考内容。将解析到的思考部分放在接口的reasoning_content字段输出
输出规范：DeepSeek格式（思维链需包含在<think></think>标签内）
Prompt规范：自动使用tokenizer_config.json配置

推理引擎高级配置

Transformers配置

{
    "load_model_class": "AutoModelForCausalLM",
    "load_tokenizer_class": "AutoTokenizer",
    "enable_auto_batch": true,
    "custom_end_str": "",
    "token_decode_return_blank": true,
    "tokenizer_special_tokens": {}
}

参数说明：

参数	类型	说明
`load_model_class`	string	模型加载类（默认：AutoModelForCausalLM）
`load_tokenizer_class`	string	Tokenizer加载类（默认：AutoTokenizer）
`enable_auto_batch`	boolean	是否启用批量推理（影响吞吐量）
`custom_end_str`	string	自定义生成终止字符串
`token_decode_return_blank`	boolean	控制英文token解码空格
`tokenizer_special_tokens`	object	需添加的特殊token（如pad_token）

llama.cpp配置

{
    "llamacpp_args": "-c 32768 -np 1 -fa"
}

参数说明：

-c 32768：设置上下文窗口长度（影响内存消耗）
-np 1：指定GPU加速层数（影响显存占用）
-fa：启用Flash Attention优化

vLLm配置

{
    "load_tokenizer_class": "AutoTokenizer",
    "custom_end_str": "",
    "vllm_engine_args": {
        "max_model_len": 32768,
        "gpu_memory_utilization": 0.97
    },
    "tokenizer_special_tokens": {}
}

参数说明：

max_model_len：模型最大长度限制
gpu_memory_utilization：GPU显存利用率（推荐0.97防溢出）
更多参数参考vLLm官方文档

注意：平台会固定部分vLLm参数（"model", "served_model_name", "tokenizer", "download_dir", "trust_remote_code", "tensor_parallel_size"），不可自定义配置

SGLang配置

{
    "sglang_args": " --context-length 32768 --mem-fraction-static 0.9“
}

更多参数参考SGLang官方文档

模型创建与管理

将HuggingFace模型下载到BOS