知识库管理

更新时间：2025-10-14

【数据管理-知识库】用于存储和管理各类知识文档，帮助用户以高效的方式存储和检索大量的知识库文档，实现快速管理企业私域知识，构建知识问答应用。

登录到本平台，在左侧功能列选择【知识库】，进入知识库主任务界面。千帆 AppBuilder 应用开发平台提供知识库管理系列功能的配套OpenAPI服务，具体接口文档请参考创建知识库、上传文件到知识库等。

创建知识库

点击知识库列表上方的【创建知识库】按钮，在展开的页面中填写新知识库的各项信息。

1. 知识库定义

【知识库定义】用于定义知识库的基本信息，包括知识库名称、知识库描述。

字段	填写注意事项	案例
知识库名称	知识库名称仅支持中文、英文、数字、下划线（_）、中划线（-）、英文点（.）（1～50字符）	相机使用说明书
知识库描述	描述该知识库的内容和用途	主要包括相机的使用说明，为用户介绍相机的保修信息和服务条款、安全注意事项、基本操作、菜单设置、拍摄技巧等。

2. 托管切片

【托管切片】用于选择托管索引资源，选择结果会影响文件检索性能。

资源分类	说明
平台共享资源	不同用户之间共享资源，支持小规模的文件切片索引
百度ElasticSearch(BES)资源	需要付费使用，可独享资源，实现数据隔离，支持大规模的文件切片索引，索引性能更高，可以理解为有一块独立的资源空间
百度向量数据库VectorDB资源	支持百亿级向量规模托管、具备高性能访问和弹性高可用特性的向量数据库，适用于大规模向量数据检索、高性能应用及高可用性要求场景

2.1. 使用百度ElasticSearch(BES)资源

若未开通 BES，请先开通 BES 资源，并创建 ElasticSearch 集群实例。
创建新 ElasticSearch 集群实例：设置BES集群名称及管理员密码，并填入知识库创建对应的表单位置。

调用已创建的 ElasticSearch 集群实例：点击集群名称链接进入集群详情页，查看集群名称与管理员名称。注意，管理员密码不可查看，若忘记密码请重新设置。

2.2. 使用百度向量数据库VectorDB

若未开通VDB，请先开通 VDB 资源，并创建百度VectorDB实例。
新用户可选择“测试版”，创建试用VDB实例。

资源创建成功后回到知识库，选择相应的实例。

界面。

3. 文件源导入

【导入类型】支持导入文本文档数据，根据上传的文本文件直接进行切分处理，适合各类通用场景。

如需导入及配置结构化数据与网页数据源，请前往千帆AppBuilder应用开发平台，知识库文件数据将自动同步至本平台

【导入方式】文本文档数据支持本地上传和百度对象储存（BOS）

导入方式	说明	格式要求
本地上传	上传本地数据并导入平台共享存储服务，支持小规模文件导入	单次上传文档数量为100个支持.doc/.docx/.pdf三种格式 pdf文件不能超过500MB且不能超过3000页，其他类型文件不能超过50MB且不能超过1000页
百度对象储存（BOS）	导入 BOS 中的数据，支持导入大规模数据，满足企业安全合规要求	支持不超过500MB且不超过3000页的.pdf文件、不超过50MB且不超过1000页的.doc/.docx文件。

4. 配置选择

【选择配置】上传文本文档数据后，可在配置选择中根据需求配置解析策略、切片策略和知识增强以提升知识问答效果。

（1）解析策略：用于配置文档解析策略。默认开启文字提取，可以选图片文字识别(OCR)、版面分析、文档图片解析、文档图表解析和表格深度解析（Beta）

解析策略	说明	适用场景	依赖
文字提取	基于规则的文档文字提取	默认开启
图片文字识别（OCR）	当文档中包含图像等内容时，可以开启该功能，打开后可识别图像、扫描件信息。关闭时，提高文档解析速度。	适用于图片、扫描件文档
版面分析	当文档存在层级结构时，可以开启该功能，打开后会增强对文档层级结构的理解能力，检测文档中的标题、段落、页眉、页脚、图片、表格等元素。同时，启用该功能时，可以开启【切片策略-自定义切片-关联标题及子标题】功能。关闭时，提高文档解析速度。	文档存在层级结构时建议开启
文档图片解析	当文档中包含图片，且希望能够在问答中准确召回图片时，可以开启该功能。启用该功能时，将在文档上传阶段对文档中图片进行解析，并将相关图片关联在文字切片下方。关闭时，提高文档解析速度。	适用于需要对文档中图片进行召回的场景。	文档图片解析的开启依赖图片文字识别（OCR）、版面分析开启，若图片文字识别（OCR）、版面分析策略关闭，则文档图片解析不可选中。
文档图表解析	当文档中包含图表，且希望能够在问答中检索召回图表中包含信息时，可以开启该功能。启用该功能时，将在文档上传阶段对文档中图表进行解析，并将相关图表关联在文字切片下方。关闭时，提高文档解析速度。	适用于需要对文档中的图表信息进行检索召回的场景。	图表解析的开启依赖文档图片解析开启。若文档图片关闭，则图片解析不可选中。
表格深度解析（Beta）	当文档中包含跨行跨列，超长类等复杂表格，且希望准确识别图表结构，召回图表信息时，可以开启该功能。启用该功能时，将在文档上传阶段调用表格深度解析服务以优化解析效果。关闭时，提高文档解析速度。	适用于文档中存在跨行跨列，超长类复杂表格，且需要准确识别的场景。	表格深度解析的开启依赖版面分析开启。若版面分析关闭，则表格深度解析不可选中。

（2）切片策略：用于配置文档切分策略，支持默认切分、自定义切片、整文件切片

切片策略	说明	适用场景
默认切分	根据文档自动设置切分规则	适合具备简单结构的文本，如论文、新闻等
自定义切片	可以配置标识符、切片最大长度、切片重叠最大字数占比以及选择关联信息内容。（详细解释见下）	文本具有特定的结构或需要特别关注某些信息，如药物说明书
整文件切片	将整份文档的解析内容放入同一个切片中，开启后，会增加文档的处理时长和资源消耗	适用于长上下文大模型对全文总结的场景，单一切片最高支持15万字

自定义切片：支持按页切分、按自定义正则表达式切分和按标识符切分

切片方式	说明
按页切分	按照文档自然分页切分文本
按自定义正则表达式切分	自定义正则表达式匹配分隔符，按照匹配到的分隔符切分文本，需要填写表达式内容和包含策略：表达式：通过正则表达式，自定义可匹配的分隔符。例如： `[。!?]`：任意句号，叹号，问号 `(第[\d一二三四五六七八九十零壹贰叁肆伍陆柒捌玖拾]{1,}章)`：第x章包含策略：对正则匹配的分隔符，设置包含的位置。例如当匹配到"第x章"时，可选：前序切片：将"第x章"拼接至前序切片末尾后续切片：将"第x章"拼接至后续切片开头匹配后丢弃：切分后，将"第x章"删除注：当表达式涉及多段分隔符时，此选项功能可能不生效
按标识符切分	按照所选的标识符切分文本，支持选择的标识符有：中文句号、中文逗号、中文问号、英文句号、英文逗号、英文问号、省略号

通用配置项：包括切片最大长度、切片重叠最大字数占比、关联信息

配置项	说明
切片最大长度	设置每个切片内的字符数上限，确保切片的最大长度与模型所支持的上下文长度范围相匹配，以确保数据处理的准确性和效率。长度越大，召回的上下文越丰富。长度越小，召回的信息越精简。当前切片最大长度默认为1200字，最高上限为15万字，但需确保填写的切片最大长度不超过模型上下文的数量限制。
切片重叠最大字数占比	设置当前切片与前后切片的"重叠部分字符数"相较于设置的"切片最大长度"的比例。如果重叠部分存在不完整的句子，则此切片舍去该句。占比越大，相邻切片重叠字符越多，占比越小，重叠字符越少。例如，如果文本是"我爱学习我爱生活"，假设我们按4个字符进行切片，重叠比例为3/4或75%，则第一个切片是"我爱学习"，第二个切片是"爱学习我"，第三个切片是"学习我爱"，这些切片之间的重叠部分字符数是"爱学习"或"学习我"3个字符。通过这种方式，可以确保每个切片之间有指定的重叠字符数，从而保持文本的连贯性。同时，如果句子"我爱学习并享受这个过程"被切割成"我爱学习"和"并享受这个"，由于"并享受这个"是不完整的，这个切片可能会被舍弃或与其他切片合并。注：该功能在选择自定义正则表达式时不可用。
关联信息	关联文件名：开启后，将在段落切片中补充文件名信息，在检索文件名信息时，有利于提升切片召回效果。关闭时，可提高文件切分处理速度。关联标题及子标题：开启后，将在段落切片中补充正文标题或子标题信息，在检索标题相关信息时，有利于提升切片召回效果。关闭时，可提高文件切分处理速度。

（3）知识增强：在检索问答时，系统通过检索知识点召回对应的切片。开启知识增强，会调用大模型抽取更加丰富的知识点，增加切片的召回率。对于文本文档类知识切片，知识增强将对每个切片生成对应的知识点。知识点会对检索召回效果产生影响，本平台的检索召回效果与 AppBuilder 平台一致。如果您想查看知识切片对应的知识点，可前往千帆AppBuilder应用开发平台进行操作。

增强方式	说明
问题生成	默认开启。根据切片内容生成问题作为知识点，提升知识点和用户检索文本的相似度，进而提升知识召回成功率。
段落概要	根据切片内容生成段落概要作为知识点，提升知识召回成功率。开启后，增加文档的处理时长和资源消耗。
三元组知识抽取	对切片内容抽取三元组信息作为知识点，如："百度发布新品"--- <百度，发布，新品>。开启后，提升知识召回成功率，同时会增加文档的处理时长和资源消耗。

注意事项：开启知识增强后，会增加文档的处理时长和资源消耗。知识增强文档字数上限为10万字；单个切片字数上限为8千字，超出部分无法使用知识增强。知识增强方式可选择问题生成、段落概要、三元组知识抽取三种方式。

知识库管理

【数据管理-知识库】可通过查看、编辑、删除三项操作对知识库进行管理，支持根据知识库名称进行搜索，支持在知识库中导入新文件、删除现有文件。

切片管理

【数据管理-知识库-查看-查看切片】可查看切片详情。切片详情页面分两列，分别展示文件基本信息、切片详情。

文件基本信息：包括文件名、文件格式、原始文件大小、上传日期、数据量、文件ID。点击"文档原文下载"可下载原始文档。

切片信息：鼠标悬于切片上，可查看切片ID、切片类型、字符数、编辑切片，以及决定是否启用该切片。如果选择不启用切片，该切片在命中测试和知识库检索时将不会被召回。

类型	说明
原文切片	用来存储没有编辑的切片，不允许编辑
新建切片	用来存储新建的切片，允许编辑点击右上角【+新建】按钮，可以新建切片