资讯 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

HuggingFace格式模型导入

本文档详细说明如何将HuggingFace格式的模型权重文件导入至千帆ModelBuilder平台。

前提条件

  1. 开通BOS服务
    需提前开通百度智能云对象存储(BOS)服务
  2. 上传模型文件
    将HuggingFace权重文件上传至BOS存储桶,可参考自动下载HuggingFace模型至BOS实现自动化操作

支持范围

下表列出了当前支持的模型类型及其对应的推理引擎版本:

模型类型 推理引擎 版本要求
文本生成 Transformers 4.43.2
vLLm 0.6.3/0.7.2/0.8.3
llama.cpp b4800
SGLang 0.4.4
内置模型 Qwen2.5系列(7B/14B/32B/72B-Instruct)
深度推理 vLLm 0.6.3/0.7.2/0.8.3
llama.cpp b4800
SGLang 0.4.4
内置模型 DeepSeek-R1-Distill-Qwen(14B/32B)Qwen3系列(0.6B/1.7B/4B/8B/14B/32B)
图像理解 vLLm 0.8.3
内置模型 InternLM/VL系列、Qwen-VL系列、LLaVA、GLM-4V等
向量表示 SentenceTransformer 2.7.0
Transformers 4.44.2
内置模型 jina-embeddings-v3、bge-large-zh-v1.5
重排序 BCEmbedding 0.1.5
Transformer 4.36.2/4.46.3
内置模型 bge-reranker-v2-m3、jina-reranker-v2
图像生成 Safetensors 仅支持Stable-Diffusion-XL的LoRA模型

请确认导入模型支持以上推理框架,否则可能会导入失败。

操作流程

1. 创建模型

  1. 登录千帆控制台
  2. 导航至【模型管理】→【我的模型】
  3. 点击"创建模型"按钮

2. 填写基本信息

  • 模型名称:自定义标识名称
  • 模型类型:选择对应分类(文本生成/图像生成/向量表示等)
  • 业务标签:可选,用于业务分类

3. 配置模型参数

  • 模型版本:系统自动生成(V1开始递增)
  • 版本描述:可选,建议记录关键信息
  • 模型来源:选择BOS并填写对应Bucket和路径
  • 模型格式:选择HuggingFace
  • 推理引擎:根据"支持范围"章节选择对应版本

4. 模型特化配置

文本对话模型

  • 采样策略

    • 贪心采样(默认):选择最高概率token
    • 多样性采样:增加输出随机性
  • Prompt规范:自动使用tokenizer_config.json配置
  • 输入输出模式:推荐使用对话模式(续写模式即将下线)

深度推理模型

  • 采样策略:同文本对话模型
  • 输出规范:仅支持DeepSeek格式(思维链需包含在<think></think>标签内)

推理引擎高级配置

Transformers配置

{
    "load_model_class": "AutoModelForCausalLM",
    "load_tokenizer_class": "AutoTokenizer",
    "enable_auto_batch": true,
    "custom_end_str": "",
    "token_decode_return_blank": true,
    "tokenizer_special_tokens": {}
}

参数说明

参数 类型 说明
load_model_class string 模型加载类(默认:AutoModelForCausalLM)
load_tokenizer_class string Tokenizer加载类(默认:AutoTokenizer)
enable_auto_batch boolean 是否启用批量推理(影响吞吐量)
custom_end_str string 自定义生成终止字符串
token_decode_return_blank boolean 控制英文token解码空格
tokenizer_special_tokens object 需添加的特殊token(如pad_token)

llama.cpp配置

{
    "llamacpp_args": "-c 32768 -np 1 -fa"
}

参数说明

  • -c 32768:设置上下文窗口长度(影响内存消耗)
  • -np 1:指定GPU加速层数(影响显存占用)
  • -fa:启用Flash Attention优化

vLLm配置

{
    "load_tokenizer_class": "AutoTokenizer",
    "custom_end_str": "",
    "vllm_engine_args": {
        "max_model_len": 32768,
        "gpu_memory_utilization": 0.97
    },
    "tokenizer_special_tokens": {}
}

参数说明

  • max_model_len:模型最大长度限制
  • gpu_memory_utilization:GPU显存利用率(推荐0.97防溢出)
  • 更多参数参考vLLm官方文档

注意:平台会固定部分vLLm参数("model", "served_model_name", "tokenizer", "download_dir", "trust_remote_code", "tensor_parallel_size"),不可自定义配置

上一篇
模型创建与管理
下一篇
将HuggingFace模型下载到BOS