资讯 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

知识库管理

【数据管理-知识库】用于存储和管理各类知识文档,帮助用户以高效的方式存储和检索大量的知识库文档,实现快速管理企业私域知识,构建知识问答应用。

登录到本平台,在左侧功能列选择【知识库】,进入知识库主任务界面。千帆 AppBuilder 应用开发平台提供知识库管理系列功能的配套OpenAPI服务,具体接口文档请参考创建知识库上传文件到知识库等。

创建知识库

点击知识库列表上方的【创建知识库】按钮,在展开的页面中填写新知识库的各项信息。

18.png

1. 知识库定义

【知识库定义】用于定义知识库的基本信息,包括知识库名称、知识库描述。

字段 填写注意事项 案例
知识库名称 知识库名称仅支持中文、英文、数字、下划线(_)、中划线(-)、英文点(.)(1~50字符) 相机使用说明书
知识库描述 描述该知识库的内容和用途 主要包括相机的使用说明,为用户介绍相机的保修信息和服务条款、安全注意事项、基本操作、菜单设置、拍摄技巧等。

19.png

2. 托管切片

【托管切片】用于选择托管索引资源,选择结果会影响文件检索性能。

资源分类 说明
平台共享资源 不同用户之间共享资源,支持小规模的文件切片索引
百度ElasticSearch(BES)资源 需要付费使用,可独享资源,实现数据隔离,支持大规模的文件切片索引,索引性能更高,可以理解为有一块独立的资源空间
百度向量数据库VectorDB资源 支持百亿级向量规模托管、具备高性能访问和弹性高可用特性的向量数据库,适用于大规模向量数据检索、高性能应用及高可用性要求场景

20.png

2.1. 使用百度ElasticSearch(BES)资源

  • 若未开通 BES,请先开通 BES 资源,并创建 ElasticSearch 集群实例。
  • 创建新 ElasticSearch 集群实例:设置BES集群名称及管理员密码,并填入知识库创建对应的表单位置。

26.png

调用已创建的 ElasticSearch 集群实例:点击集群名称链接进入集群详情页,查看集群名称与管理员名称。注意,管理员密码不可查看,若忘记密码请重新设置。

27.png

2.2. 使用百度向量数据库VectorDB

  • 若未开通VDB,请先开通 VDB 资源,并创建百度VectorDB实例。
  • 新用户可选择“测试版”,创建试用VDB实例。

c7909f84eca85041fea11c23fd68440d.jpg

资源创建成功后回到知识库,选择相应的实例。

26159d8f62b743768ec23e77777965d4.png界面。

3. 文件源导入

【导入类型】支持导入文本文档数据,根据上传的文本文件直接进行切分处理,适合各类通用场景。

如需导入及配置结构化数据与网页数据源,请前往千帆AppBuilder应用开发平台,知识库文件数据将自动同步至本平台

【导入方式】文本文档数据支持本地上传和百度对象储存(BOS)

导入方式 说明 格式要求
本地上传 上传本地数据并导入平台共享存储服务,支持小规模文件导入
  • 单次上传文档数量为100个
  • 支持.doc/.docx/.pdf三种格式
  • pdf文件不能超过500MB且不能超过3000页,其他类型文件不能超过50MB且不能超过1000页
百度对象储存(BOS) 导入 BOS 中的数据,支持导入大规模数据,满足企业安全合规要求
  • 支持不超过500MB且不超过3000页的.pdf文件、不超过50MB且不超过1000页的.doc/.docx文件。

21.png

4. 配置选择

【选择配置】上传文本文档数据后,可在配置选择中根据需求配置解析策略、切片策略和知识增强以提升知识问答效果。

22.png

(1)解析策略: 用于配置文档解析策略。默认开启文字提取,可以选图片文字识别(OCR)、版面分析、文档图片解析、文档图表解析和表格深度解析(Beta)

解析策略 说明 适用场景 依赖
文字提取 基于规则的文档文字提取 默认开启
图片文字识别(OCR) 当文档中包含图像等内容时,可以开启该功能,打开后可识别图像、扫描件信息。关闭时,提高文档解析速度。 适用于图片、扫描件文档
版面分析 当文档存在层级结构时,可以开启该功能,打开后会增强对文档层级结构的理解能力,检测文档中的标题、段落、页眉、页脚、图片、表格等元素。同时,启用该功能时,可以开启【切片策略-自定义切片-关联标题及子标题】功能。关闭时,提高文档解析速度。 文档存在层级结构时建议开启
文档图片解析 当文档中包含图片,且希望能够在问答中准确召回图片时,可以开启该功能。启用该功能时,将在文档上传阶段对文档中图片进行解析,并将相关图片关联在文字切片下方。关闭时,提高文档解析速度。 适用于需要对文档中图片进行召回的场景。 文档图片解析的开启依赖图片文字识别(OCR)、版面分析开启,若图片文字识别(OCR)、版面分析策略关闭,则文档图片解析不可选中。
文档图表解析 当文档中包含图表,且希望能够在问答中检索召回图表中包含信息时,可以开启该功能。启用该功能时,将在文档上传阶段对文档中图表进行解析,并将相关图表关联在文字切片下方。关闭时,提高文档解析速度。 适用于需要对文档中的图表信息进行检索召回的场景。 图表解析的开启依赖文档图片解析开启。若文档图片关闭,则图片解析不可选中。
表格深度解析(Beta) 当文档中包含跨行跨列,超长类等复杂表格,且希望准确识别图表结构,召回图表信息时,可以开启该功能。启用该功能时,将在文档上传阶段调用表格深度解析服务以优化解析效果。关闭时,提高文档解析速度。 适用于文档中存在跨行跨列,超长类复杂表格,且需要准确识别的场景。 表格深度解析的开启依赖版面分析开启。若版面分析关闭,则表格深度解析不可选中。

(2)切片策略:用于配置文档切分策略,支持默认切分、自定义切片、整文件切片

切片策略 说明 适用场景
默认切分 根据文档自动设置切分规则 适合具备简单结构的文本,如论文、新闻等
自定义切片 可以配置标识符、切片最大长度、切片重叠最大字数占比以及选择关联信息内容。(详细解释见下) 文本具有特定的结构或需要特别关注某些信息,如药物说明书
整文件切片 将整份文档的解析内容放入同一个切片中,开启后,会增加文档的处理时长和资源消耗 适用于长上下文大模型对全文总结的场景,单一切片最高支持15万字

自定义切片:支持按页切分、按自定义正则表达式切分和按标识符切分

切片方式 说明
按页切分 按照文档自然分页切分文本
按自定义正则表达式切分 自定义正则表达式匹配分隔符,按照匹配到的分隔符切分文本,需要填写表达式内容和包含策略:
表达式:通过正则表达式,自定义可匹配的分隔符。例如:
[。!?]:任意句号,叹号,问号
(第[\d一二三四五六七八九十零壹贰叁肆伍陆柒捌玖拾]{1,}章):第x章

包含策略:对正则匹配的分隔符,设置包含的位置。例如当匹配到"第x章"时,可选:
前序切片:将"第x章"拼接至前序切片末尾
后续切片:将"第x章"拼接至后续切片开头
匹配后丢弃:切分后,将"第x章"删除
注:当表达式涉及多段分隔符时,此选项功能可能不生效
按标识符切分 按照所选的标识符切分文本,支持选择的标识符有:中文句号、中文逗号、中文问号、英文句号、英文逗号、英文问号、省略号

通用配置项:包括切片最大长度、切片重叠最大字数占比、关联信息

配置项 说明
切片最大长度 设置每个切片内的字符数上限,确保切片的最大长度与模型所支持的上下文长度范围相匹配,以确保数据处理的准确性和效率。
长度越大,召回的上下文越丰富。
长度越小,召回的信息越精简。
当前切片最大长度默认为1200字,最高上限为15万字,但需确保填写的切片最大长度不超过模型上下文的数量限制。
切片重叠最大字数占比 设置当前切片与前后切片的"重叠部分字符数"相较于设置的"切片最大长度"的比例。如果重叠部分存在不完整的句子,则此切片舍去该句。占比越大,相邻切片重叠字符越多,占比越小,重叠字符越少。
例如,如果文本是"我爱学习我爱生活",假设我们按4个字符进行切片,重叠比例为3/4或75%,则第一个切片是"我爱学习",第二个切片是"爱学习我",第三个切片是"学习我爱",这些切片之间的重叠部分字符数是"爱学习"或"学习我"3个字符。通过这种方式,可以确保每个切片之间有指定的重叠字符数,从而保持文本的连贯性。同时,如果句子"我爱学习并享受这个过程"被切割成"我爱学习"和"并享受这个",由于"并享受这个"是不完整的,这个切片可能会被舍弃或与其他切片合并。
注:该功能在选择自定义正则表达式时不可用。
关联信息 关联文件名:开启后,将在段落切片中补充文件名信息,在检索文件名信息时,有利于提升切片召回效果。关闭时,可提高文件切分处理速度。
关联标题及子标题:开启后,将在段落切片中补充正文标题或子标题信息,在检索标题相关信息时,有利于提升切片召回效果。关闭时,可提高文件切分处理速度。

(3)知识增强: 在检索问答时,系统通过检索知识点召回对应的切片。开启知识增强,会调用大模型抽取更加丰富的知识点,增加切片的召回率。对于文本文档类知识切片,知识增强将对每个切片生成对应的知识点。知识点会对检索召回效果产生影响,本平台的检索召回效果与 AppBuilder 平台一致。如果您想查看知识切片对应的知识点,可 前往千帆AppBuilder应用开发平台 进行操作。

增强方式 说明
问题生成 默认开启。根据切片内容生成问题作为知识点,提升知识点和用户检索文本的相似度,进而提升知识召回成功率。
段落概要 根据切片内容生成段落概要作为知识点,提升知识召回成功率。开启后,增加文档的处理时长和资源消耗。
三元组知识抽取 对切片内容抽取三元组信息作为知识点,如:"百度发布新品"--- <百度,发布,新品>。开启后,提升知识召回成功率,同时会增加文档的处理时长和资源消耗。

注意事项:开启知识增强后,会增加文档的处理时长和资源消耗。知识增强文档字数上限为10万字;单个切片字数上限为8千字,超出部分无法使用知识增强。知识增强方式可选择问题生成、段落概要、三元组知识抽取三种方式。

知识库管理

【数据管理-知识库】可通过查看、编辑、删除三项操作对知识库进行管理,支持根据知识库名称进行搜索,支持在知识库中导入新文件、删除现有文件。

23.png

切片管理

【数据管理-知识库-查看-查看切片】可查看切片详情。切片详情页面分两列,分别展示文件基本信息、切片详情。

24.png

25.png

文件基本信息:包括文件名、文件格式、原始文件大小、上传日期、数据量、文件ID。点击"文档原文下载"可下载原始文档。

切片信息:鼠标悬于切片上,可查看切片ID、切片类型、字符数、编辑切片,以及决定是否启用该切片。如果选择不启用切片,该切片在命中测试和知识库检索时将不会被召回。

类型 说明
原文切片 用来存储没有编辑的切片,不允许编辑
新建切片 用来存储新建的切片,允许编辑
点击右上角【+新建】按钮,可以新建切片