资讯 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

创建知识库

概述

【个人空间-知识库】用于存储和管理各类知识文档,以辅助各类型原生应用的快速搭建并查看效果。

  1. 登录百度智能云千帆-AppBuilder
  2. 在左侧菜单栏中,选择【个人空间-知识库】,进入该页面后,可查看到当前所有知识库列表,列表中包含知识库ID、托管资源等信息,当前可支持创建100个知识库。[去控制台创建] 截屏2025-03-21 14.07.36.png

创建知识库

【个人空间-知识库】用于存储和管理各类知识文档,以辅助各类型原生应用的快速搭建并查看效果。点击知识库列表上方的【创建知识库】按钮,在展开的页面中填写新知识库的各项信息。

截屏2025-03-21 19.12.41.png

1. 定义知识库基本信息

【知识库定义】定义知识库的基本信息。
截屏2025-03-29 16.18.37.png

字段 填写注意事项 案例
知识库名称 知识库名称仅支持中文、英文、数字、下划线(_)、中划线(-)、英文点(.)(1~50字符) 相机使用说明书
知识库描述 描述该知识库的内容和用途 主要包括相机的使用说明,为用户介绍相机的保修信息和服务条款、安全注意事项、基本操作、菜单设置、拍摄技巧等。
所属群组 通过下拉菜单栏选择知识库所属群组:
image.png
支持在选择所属群组时添加子群组(群组名称仅支持中文、英文、数字、下划线(_)、中划线(-)、英文点(.),名称不超256个字符,超出部分会自动截断。同一父级下,群组名称不可重复。)
属于“产品文档>数码产品>相机"

2. 托管切片

【托管切片】选择切片向量模型与托管索引资源。

2.1 选择向量模型

将文本转化为用数值表示的向量形式。用于知识导入时的向量转化,以及知识问答过程的语义向量检索。单文件支持最大字数为100w字,超出部分将不会转化为向量(仅对平台共享资源有此限制,对专享资源没有此限制)。可以从下拉框中选择向量模型,目前支持multilingual-embedding-AppBuilder、bge-large-zh、bge-large-en三种模型。
截屏2025-03-21 18.38.23.png

模型名称 资源选择 模型说明
multilingual-embedding-AppBuilder 限时免费使用,不抵扣赠送的免费tokens,暂不支持切换为专享资源
截屏2025-03-21 18.53.51.png
当前向量模型默认为multilingual-embedding-AppBuilder,限时免费试用,支持的语言为:中文(简体、繁体)、英文、马来语、泰语、日语。多语言RAG应用可根据用户语言,使用对应语言答复
bge-large-zh 支持选择使用平台赠送资源或ModelBuilder平台专享资源(仅在ModelBuilder平台中开通才可使用专享资源)
截屏2025-03-21 18.54.42.png
用户可在模型说明文档中查看模型介绍
bge-large-en 支持选择使用平台赠送资源或ModelBuilder平台专享资源(仅在ModelBuilder平台中开通才可使用专享资源)
截屏2025-03-21 19.21.33.png
用户可在模型说明文档中查看模型介绍

ModelBuilder平台查询自己已开通的ModelBuilder平台模型资源
5ac08420b57a0a95916050cdb.png

  1. 多语言RAG的知识库语言支持中文和英语两种语言。模型答复时可根据用户语言自动转换。
  2. 目前需要用户通过提交工单申请开通白名单才能使用多语言RAG功能。
query的语种/
知识库上传文件的语种
中文(简体、繁体) 英文 马来语 泰语 日语
中文(简体、繁体) 可按query语种回答 可按query语种回答 可按query语种回答 可按query语种回答 可按query语种回答
英文 可按query语种回答 可按query语种回答 可按query语种回答 可按query语种回答 可按query语种回答
马来语 暂未支持 暂未支持 可按query语种回答 暂未支持 暂未支持
泰语 暂未支持 暂未支持 暂未支持 可按query语种回答 暂未支持
日语 暂未支持 暂未支持 暂未支持 暂未支持 可按query语种回答

2.2 切片托管资源

资源分类 适用场景
AppBuilder资源 不同用户之间共享资源,支持小规模的文件切片索引
百度ElasticSearch(BES)资源

(没有私有化服务;可能有混合云服务,需要付费使用)
可独享资源,实现数据隔离,支持大规模的文件切片索引,索引性能更高,可以理解为有一块独立的资源空间
百度向量数据库VectorDB资源 支持百亿级向量规模托管、具备高性能访问和弹性高可用特性的向量数据库,适用于大规模向量数据检索、高性能应用及高可用性要求场景

2.2.1 使用百度ElasticSearch(BES)资源

  • 若未开通 BES,请先开通 BES 资源(https://cloud.baidu.com/product/bes.html),并创建,并创建) ElasticSearch 集群实例。
  • 创建新 ElasticSearch 集群实例:设置BES集群名称及管理员密码,并填入知识库创建对应的表单位置。

4.png

  • 调用已创建的 ElasticSearch 集群实例:点击集群名称链接进入集群详情页,查看集群名称与管理员名称。注意,管理员密码不可查看,若忘记密码请重新设置。

5.png

2.2.2 使用百度向量数据库VectorDB

资源创建成功后会自动跳转至资源登陆界面。

7.png

  • 若已开通VDB, 可直接选择对应实例进行登陆。

8.png

3. 导入文件源

【选择导入类型】可以选择按文件类型导入和按模板导入。

9.png

3.1 按文件类型导入

【选择文件类型】可选择导入文件类型和导入方式。支持选择文本文档数据、知识问答数据和url导入数据,满足您各种场景需要!

文件源导入类型 特点 举例
导入文本文档数据 根据上传的文本文件直接进行分段处理 适合各类通用场景
导入表格型知识数据 读取表格中的文本信息,按行构建知识切片。 适用于整理好的FAQ问答对数据、多列索引表格等含有长文的表格(表格单元格中存储了较长的文本内容)
读取网页数据源 读取输入的网页链接,解析网页内容并导入知识库。支持设置自动更新 通过问答对进行知识干预,为用户提供更可控的问答结果

3.1.1 文本文档数据导入

导入来源 特点
本地上传 1. 文件数量:单次上传文件数量为100个;
2.七种格式:支持.doc,.txt,.docx,.pdf, .ppt, .pptx, .md七种格式;
3. 有限容量: txt ,md文件不能超过10MB,pdf文件不能超过500MB且不能超过3000页,其他类型文件不能超过50MB且不能超过1000页当前账户共享资源知识文件上限为100GB
百度对象存储(BOS-公有云可用,私有化用minio仍在开发中) 1. 批量导入:配合BES使用时,不限制文件导入数量,支持按文件夹导入
2. 无限容量:提供无限容量,可拓展和可靠的存储服务
3. 付费功能

3.1.2 表格型知识数据导入

10.png

导入来源 特点
本地上传 1. 五种格式:支持.xlsx,.xls,.docx,.csv, .jsonL五种格式;
2. 五种编码:支持UTF-8、GBK、GB2312、GB18030、ASCII五种编码格式
3. 有限容量:单个文件大小不超过100MB,不超过10万行,20列,每行不超过15万字,且文件中最多支持一个sheet工作表(超出范围的内容会被自动忽略)

表格型知识数据导入后,必须先进行数据配置,启用至少1个索引字段,才可使用。 9c236d5080182a2258cfc7bdf.jpg f7bf9f62a24da2f92b4d3c628.jpg

3.1.3 读取网页数据源

截屏2025-03-29 15.07.09.png

解析网页内容 解析子网页及网页内容
描述 仅支持解析所上传URL的网页数据 将上传的URL作为根目录,自动解析其所含全部子目录的网页数据
URL解析方式 1.逐个上传:
a.支持逐个上传,最多支持添加10条URL;
b.可通过URL上传框右侧的【更新频率】设置按钮,对导入知识库的URL网页数据进行定时的内容更新;
c.也可以在上传框下面【一键设置更新频率】进行一键设置
截屏2025-03-29 16.06.21.png
2.批量上传:可以通过xlsx文件填写URL实现批量上传(建议使用xlsx模版填写URL
截屏2025-03-29 16.08.01.png
3.去重方式:
知识库内URL去重:对比新增URL与知识库已有URL。出现相同URL时,会重新添加网页内容后删除知识库已有的重复内容
4.HTML内容筛选:
a:支持使用CSS选择器语法,对导入的所有网页使用此逻辑进行筛选,精确定位HTML内容中的一个或多个元素
b:支持的选择器类型包含:基本选择器、分组选择器、组合器、组合器
c:例如通过 div.container p 可以选中所有位于 div 元素内,并且属于 class="container" 的元素中的 p(段落)元素
5.抽取链接:支持保留解析内容中文本的超链接
截屏2025-03-29 15.37.35.png
1.单个根目录上传
a.对单个根目录进行解析
b.可通过URL上传框右侧的【更新频率】设置按钮,对导入知识库的URL网页数据进行定时的内容更新
2.根目录批量解析
a.xlsx文件填写url作为根目录进行批量上传,建议使用AppBuilder提供的xlsx模版填写
b.只支持上传一个文件,单个文件不超过15MB
截屏2025-03-29 16.09.51.png
注意:最多支持解析800条子目录,若通过自动解析子网页的方式导入知识库,子网页数目超过知识库容量800个后多余部分不会被导入知识库。
3.去重方式:
a:支持选择URL锚点去重和知识库内URL去重
b:URL锚点去重:如果多个URL仅锚点(地址中#以后)部分不同,会自动去重后,作为一个URL导入
c:知识库内URL去重:对比新增URL与知识库已有URL。出现相同URL时,会重新添加网页内容后删除知识库已有的重复内容
4.HTML内容筛选:
a:支持使用CSS选择器语法,对导入的所有网页使用此逻辑进行筛选,精确定位HTML内容中的一个或多个元素
b:支持的选择器类型包含:基本选择器、分组选择器、组合器、组合器
c:例如通过 div.container p 可以选中所有位于 div 元素内,并且属于 class="container" 的元素中的 p(段落)元素
5.抽取链接:支持保留解析内容中文本的超链接
截屏2025-04-01 15.04.54.png
举例 通过上传百度百科链接
https://baike.baidu.com/item/%E6%B2%99%E4%B8%98/20601683
可以实现对该页面内容的提取和动态追踪
15.png
使用同样一个百度百科链接
https://baike.baidu.com/item/%E6%B2%99%E4%B8%98/20601683
,由于该链接内还包含其他的跳转链接,可以同时解析处包含链接的内容
16.png

3.2 按模版导入

截屏2025-03-29 16.16.31.png

可选择按简历文档,ppt幻灯片,论文文档,结构化问答对模版导入。系统会按照模版结构生成切片。

可选模板 具体解释 适用场景
简历文档 简历模版将文件解析为结构化字段存储在一个切片中

18.png
支持上传doc、docx、pdf格式文件
PPT幻灯片 幻灯片模版将文件按页解析,每一页幻灯片内容分别存储在一个切片中

19.png
支持上传ppt、pptx格式文件
论文文档 论文模版根据论文结构将文件解析为对应结构切片,如标题、摘要、引言等结构

20.png
支持doc、docx、pdf格式文件
结构化问答对 问答对模版将文档识别解析为问答对切片,每一个问答对存储在一个切片,建议问答对间以空行进行分隔 支持doc、docx、pdf、txt格式文件

文档导入说明:

说明 格式要求
本地上传 上传本地数据并导入 AppBuilder 共享存储服务,支持小规模文件导入 1.单次上传文档数量为100个
2.支持.doc/.docx/.pdf三种格式
3.pdf文件不能超过500MB且不能超过3000页,其他类型文件不能超过50MB且不能超过1000页
百度对象储存(BOS) 导入 BOS 中的数据,支持导入大规模数据,满足企业安全合规要求 1.支持不超过500MB且不超过3000页的.pdf文件、不超过50MB且不超过1000页的.doc/.docx文件。

4.选择配置

【选择配置】上传文档后,可在配置选择中根据需求配置解析策略,切片策略和知识增强以提升知识问答效果。

导入文本文档数据 导入表格型知识数据 读取网页数据源
解析策略 支持 不需要配置 不支持
切片策略 支持 不需要配置 支持
知识增强 支持 支持 支持

(1)解析策略: 默认开启文字提取策略,可以选图像文字识别(OCR)、版面分析、文档图片解析、文档图表解析、表格深度解析和文档公式解析策略。

image-2.png

解析策略配置模块解释如下:

配置方法 解释 适用场景 补充说明
文字提取 基于规则的文档文字提取 默认开启
图像文字识别(OCR) 当文档中包含图像等内容时,可以开启该功能,打开后可识别图像、扫描件信息。关闭时,提高文档解析速度。 适用于图片、扫描件文档
版面分析 当文档存在层级结构时,可以开启该功能,打开后会增强对文档层级结构的理解能力,检测文档中的标题、段落、页眉、页脚、图片、表格等元素。同时,启用该功能时,可以开启【切片策略-自定义切片-关联标题及子标题】功能。关闭时,提高文档解析速度。 文档存在层级结构时建议开启
文档图片解析 当文档中包含图片,且希望能够在问答中准确召回图片时,可以开启该功能。启用该功能时,将在文档上传阶段对文档中图片进行解析,并将相关图片关联在文字切片下方。关闭时,提高文档解析速度。 适用于需要对文档中图片进行召回的场景。 文档图片解析的开启依赖图像文字识别(OCR)、版面分析开启,若图像文字识别(OCR)、版面分析策略关闭,则文档图片解析不可选中。
文档图表解析 当文档中包含图表,且希望能够在问答中检索召回图表中包含信息时,可以开启该功能。启用该功能时,将在文档上传阶段对文档中图表进行解析,并将相关图表关联在文字切片下方。关闭时,提高文档解析速度。 适用于需要对文档中的图表信息进行检索召回的场景。 图表解析的开启依赖文档图片解析开启。若文档图片关闭,则图片解析不可选中。
表格深度解析 当文档中包含跨行跨列,超长类等复杂表格,且希望准确识别图表结构,召回图表信息时,可以开启该功能。启用该功能时,将在文档上传阶段调用表格深度解析服务以优化解析效果。关闭时,提高文档解析速度。 适用于文档中存在跨行跨列,超长类复杂表格,且需要准确识别的场景。 表格深度解析的开启依赖版面分析开启。若版面分析关闭,侧表格深度解析不可选中。
文档公式解析 当文档中包含公式,且希望模型在答复中以LaTex格式展示公式时,可以开启该功能。开启后可识别文档中的公式,并解析为LaTex排版的文本。模型答复时,可按公式格式展示答复内容。关闭时,提高文件解析速度。 适用于需要模型在答复中以LaTex格式展示公式的场景。

(2)切片策略:

22.png

解析策略配置模块解释如下:

配置方法 解释 适用场景
默认切分 根据文档自动设置切分规则 适合具备简单结构的文本,如论文、新闻等
自定义切片 可以配置标识符、切片最大长度、切片重叠最大字数占比以及选择关联信息内容。(详细解释见下) 文本具有特定的结构或需要特别关注某些信息,如药物说明书
整文件切片 将整份文档的解析内容放入同一个切片中,开启后,会增加文档的处理时长和资源消耗 适用于长上下文大模型对全文总结的场景,单一切片最高支持15万字

自定义切片相关概念解释如下:

功能 解释
标识符 1. 支持按照所选的标识符切分文本时,可以选择的标识符有:中文句号、中文逗号、中文问号、英文句号、英文叹号、英文问号、按页切分、自定义正则表达式。
23.png
2. 当选择自定义正则表达式时,需要填写表达式内容和包含策略
a. 表达式:通过正则表达式,自定义可匹配的分隔符。例如:
I. [。!?] :任意句号,叹号,问号:
II. (第[\d一二三四五六七八九十零壹贰叁肆伍陆柒捌玖拾]{1,}章): 第x章
b. 包含策略:对正则匹配的分隔符,设置包含的位置。例如当匹配到 “第x章” 时,可选:
I. 前序切片:将 “第x章” 拼接至前序切片末尾
II. 后续切片:将“第x章” 拼接至后续切片开头
III. 匹配后丢弃:切分后,将“第x章”删除
IV.注:当表达式涉及多段分隔符时,此选项功能可能不生效
切片最大长度 设置每个切片内的字符数上限,确保切片的最大长度与模型所支持的上下文长度范围相匹配,以确保数据处理的准确性和效率。
1. 长度越大,召回的上下文越丰富。
2. 长度越小,召回的信息越精简。
3.当前切片最大长度默认为1200字,最高上限为15万字,但需确保填写的切片最大长度不超过模型上下文的数量限制。
切片重叠最大字数占比 是指:当前切片与前后切片的 “重叠部分字符数” 相较于设置的 “切片最大长度” 的比例。如果重叠部分存在不完整的句子,则此切片舍去该句。占比越大,相邻切片重叠字符越多, 占比越小,重叠字符越少。
例如,如果文本是“我爱学习我爱生活”,假设我们按4个字符进行切片,重叠比例为3/4或75%,则第一个切片是“我爱学习”,第二个切片是“爱学习我”,第三个切片是“学习我爱”,这些切片之间的重叠部分字符数是“爱学习”或“学习我”3个字符。通过这种方式,可以确保每个切片之间有指定的重叠字符数,从而保持文本的连贯性。同时,如果句子“我爱学习并享受这个过程”被切割成“我爱学习”和“并享受这个”,由于“并享受这个”是不完整的,这个切片可能会被舍弃或与其他切片合并。
注:该功能在选择自定义正则表达式标识符时不可用。
关联信息 1. 关联标题及子标题:
开启后,将在段落切片中补充正文标题或子标题信息,在检索标题相关信息时,有利于提升切片召回效果。关闭时,可提高文件切分处理速度。
2. 关联文件名:
开启后,将在段落切片中补充文件名信息,在检索文件名信息时,有利于提升切片召回效果。关闭时,可提高文件切分处理速度。

整文件切分:
该切片策略会将整份文档的解析内容放入同一个切片中,适用于长上下文大模型对全文总结的场景,单一切片最高支持15万字。开启后,会增加文档的处理时长和资源消耗。

(3)知识增强

在检索问答时,系统通过检索知识点召回对应的切片。开启知识增强,会调用大模型抽取更加丰富的知识点,增加切片的召回率。对于文本文档类和网页数据源的知识切片,知识增强将对每个切片生成对应的知识点,对于表格类知识数据,表格中的一行为一个切片,仅对设置的索引列内容生成对应的知识点。

开启知识增强后,会增加文档的处理时长和资源消耗。知识增强文档字数上限为10万字;单个切片字数上限为8千字,超出部分无法使用知识增强。知识增强方式可选择问题生成、段落概要、三元组知识抽取三种方式。

增强方法 解释
问题生成 默认开启。根据切片内容生成问题作为知识点,提升知识点和用户检索文本的相似度,进而提升知识召回成功率。
段落概要 根据切片内容生成段落概要作为知识点,提升知识召回成功率。开启后,增加文档的处理时长和资源消耗。
三元组知识抽取 对切片内容抽取三元组信息作为知识点,如:“百度发布新品”--- <百度,发布,新品>。开启后,提升知识召回成功率,同时会增加文档的处理时长和资源消耗。

注意事项:知识增强文档字数上限为10万字;单个切片字数上限为8千字,超出部分无法使用知识增强。

上一篇
调用MCP组件
下一篇
切片管理