资讯 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

创建知识库

概述

【个人空间-知识库】用于存储和管理各类知识文档,以辅助各类型原生应用的快速搭建并查看效果。

  1. 登录百度智能云千帆-AppBuilder,进入控制台界面。
  2. 在左侧菜单栏中,选择【个人空间-知识库】,进入该页面后,可查看到当前所有知识库列表,当前可支持创建100个知识库,创建一个知识库

1. 创建知识库

【个人空间-知识库】用于存储和管理各类知识文档,以辅助各类型原生应用的快速搭建并查看效果。点击知识库列表上方的【创建知识库】按钮,在展开的页面中填写新知识库的各项信息。

121.png

1.1. 定义知识库基本信息

【知识库定义】定义知识库的基本信息。 122.png

字段 填写注意事项 案例
知识库名称 知识库名称仅支持中文、英文、数字、下划线(_)、中划线(-)、英文点(.)(1~50字符) 相机使用说明书
知识库描述 描述这个知识库的内容和用途 主要包括相机的使用说明,为用户介绍相机的保修信息和服务条款、安全注意事项、基本操作、菜单设置、拍摄技巧等。

1.2. 选择切片托管资源

【切片托管】选择切片托管、索引资源。

123.png

资源分类 适用场景
AppBuilder资源 不同用户之间共享资源,支持小规模的文件切片索引
百度ElasticSearch(BES)资源
(功能私有化没有,混合云可能有,需要付费使用)
可独享资源,实现数据隔离,支持大规模的文件切片索引,索引性能更高,可以理解为有一块独立的资源空间
  • 若未开通 BES,请先开通 BES 资源(https://cloud.baidu.com/product/bes.html),并创建 ElasticSearch 集群实例。
  • 创建新 ElasticSearch 集群实例:设置BES集群名称及管理员密码,并填入知识库创建对应的表单位置。

image4.png

  • 调用已创建的 ElasticSearch 集群实例:点击集群名称链接进入集群详情页,查看集群名称与管理员名称。注意,管理员密码不可查看,若忘记密码请重新设置。

image5.png

1.3. 文件源导入

【选择文件类型】可选择导入文件类型和导入方式。支持选择文本文档数据、知识问答数据和url导入数据,满足您各种场景需要! 124.png

文件源导入类型 特点 举例
导入文本文档数据 根据上传的文本文件直接进行分段处理 适合各类通用场景
导入表格型知识数据 读取表格中的文本信息,按行构建知识切片。 适用于整理好的FAQ问答对数据、多列索引表格等含有长文的表格(表格单元格中存储了较长的文本内容)
读取网页数据源 读取输入的网页链接,解析网页内容并导入数据库。支持设置自动更新 通过问答对进行知识干预,为用户提供更可控的问答结果

文本文档类导入说明如下:

导入来源 特点
本地上传 1. 四种格式:支持.doc,.txt,.docx,.pdf, .ppt, .pptx四种格式;
2. 有限容量:txt 文件不能超过10MB, docx、pdf、doc 文件不能超过50MB,仅处理前1000页内容(txt 文件2000字符为一页,文件不超过200万字符)
百度对象存储(BOS-公有云可用,私有化用minio仍在开发中) 1. 批量导入:配合BES使用时,不限制文件导入数量,支持按文件夹导入
2. 无限容量:提供无限容量,可拓展和可靠的存储服务
3. 付费功能

表格类知识数据导入说明如下: image.png

导入来源 特点
本地上传 1. 四种格式:支持.xlsx,.xls,.docx,.csv, .jsonL四种格式;
2. 五种编码:支持UTF-8、GBK、GB2312、GB18030、ASCII五种编码格式
3. 有限容量:单个文件大小不超过100MB,不超过10万行,20列,每行不超过15万字,且文件中最多支持一个sheet工作表(超出范围的内容会被自动忽略)

读取网页数据源解释如下:

125.png

解析网页内容 解析子网页及网页内容
描述 仅支持解析所上传URL的网页数据 将上传的URL作为根目录,自动解析其所含全部子目录的网页数据
URL解析方式 1.逐个上传:
a.支持逐个上传,最多支持添加10条URL;
b.可通过URL上传框右侧的【更新频率】设置按钮,对导入知识库的URL网页数据进行定时的内容更新;
c.也可以在上传框下面【一键设置更新频率】进行一键设置126.png2.批量上传:可以通过xlsx文件填写URL实现批量上传(建议使用xlsx模版填写URL127.png
1.单个根目录上传
a.对单个根目录进行解析
b.可通过URL上传框右侧的【更新频率】设置按钮,对导入知识库的URL网页数据进行定时的内容更新

2.根目录批量解析
a.xlsx文件填写url作为根目录进行批量上传,建议使用AppBuilder提供的xlsx模版填写
b.只支持上传一个文件,单个文件不超过15MB128.png
注意:最多支持解析800条子目录,若通过自动解析子网页的方式导入知识库,子网页数目超过知识库容量800个后多余部分不会被导入知识库。
举例 通过上传百度百科链接https://baike.baidu.com/item/%E6%B2%99%E4%B8%98/20601683
可以实现对该页面内容的提取和动态追踪
image.png
使用同样一个百度百科链接https://baike.baidu.com/item/%E6%B2%99%E4%B8%98/20601683
,由于该链接内还包含其他的跳转链接,可以同时解析处包含链接的内容
image.png

1.4. 选择配置

【配置方法】可选择自定义配置或模板配置方法。

导入文本文档数据 导入知识问答数据 读取网页数据源
自定义配置 支持 不需要配置 支持
模板配置 支持 不需要配置 不支持

自定义配置

上传文档后,在自定义配置方法中,可以配置解析策略、切片策略、知识增强多个功能以提升知识问答效果。

(1)解析策略:默认开启文字提取策略,可选光学字符识别和版面分析策略。 i1.png

解析策略配置模块解释如下:

配置方法 解释 适用场景
文字提取 基于规则的文档文字提取 默认开启
光学字符识别 当文档中包含图像等内容时,可以开启该功能,打开后可识别图像、扫描件信息。关闭时,提高文档解析速度。 适用于图片、扫描件文档
版面分析 当文档存在层级结构时,可以开启该功能,打开后会增强对文档层级结构的理解能力,检测文档中的标题、段落、页眉、页脚、图片、表格等元素。同时,启用该功能时,可以开启【切片策略-自定义切片-关联标题及子标题】功能。关闭时,提高文档解析速度。 文档存在层级结构时建议开启

(2)切片策略:

i2.png

解析策略配置模块解释如下:

配置方法 解释 适用场景
默认切分 根据文档自动设置切分规则 适合具备简单结构的文本,如论文、新闻等
自定义切片 可以配置标识符、切片最大长度、切片重叠最大字数占比以及选择关联信息内容。(详细解释见下) 文本具有特定的结构或需要特别关注某些信息,如药物说明书
整文件切片 将整份文档的解析内容放入同一个切片中,开启后,会增加文档的处理时长和资源消耗 适用于长上下文大模型对全文总结的场景,单一切片最高支持15万字

自定义切片相关概念解释如下:

功能 解释
标识符 1. 支持按照所选的标识符切分文本时,可以选择的标识符有:中文句号、中文逗号、中文问号、英文句号、英文叹号、英文问号、按页切分、自定义正则表达式。
image.png
2. 当选择自定义正则表达式时,需要填写表达式内容和包含策略
a. 表达式:通过正则表达式,自定义可匹配的分隔符。例如:
I. [。!?] :任意句号,叹号,问号:
II. (第[\d一二三四五六七八九十零壹贰叁肆伍陆柒捌玖拾]{1,}章): 第*章
b. 包含策略:对正则匹配的分隔符,设置包含的位置。例如当匹配到 “第*章” 时,可选:
I. 前序切片:将 “第*章” 拼接至前序切片末尾
II. 后续切片:将“第*章” 拼接至后续切片开
III. 匹配后丢弃:切分后,将“第*章”删除
IV.注:当表达式涉及多段分隔符时,此选项功能可能不生效
切片最大长度 设置每个切片内的字符数上限,确保切片的最大长度与模型所支持的上下文长度范围相匹配,以确保数据处理的准确性和效率。
1. 长度越大,召回的上下文越丰富。
2. 长度越小,召回的信息越精简。
3.当前切片最大长度默认为1200字,最高上限为15万字,但需确保填写的切片最大长度不超过模型上下文的数量限制。
切片重叠最大字数占比 是指:当前切片与前后切片的 “重叠部分字符数” 相较于设置的 “切片最大长度” 的比例。如果重叠部分存在不完整的句子,则此切片舍去该句。占比越大,相邻切片重叠字符越多, 占比越小,重叠字符越少。
例如,如果文本是“我爱学习我爱生活”,假设我们按4个字符进行切片,重叠比例为3/4或75%,则第一个切片是“我爱学习”,第二个切片是“爱学习我”,第三个切片是“学习我爱”,这些切片之间的重叠部分字符数是“爱学习”或“学习我”3个字符。通过这种方式,可以确保每个切片之间有指定的重叠字符数,从而保持文本的连贯性。同时,如果句子“我爱学习并享受这个过程”被切割成“我爱学习”和“并享受这个”,由于“并享受这个”是不完整的,这个切片可能会被舍弃或与其他切片合并。
注:该功能在选择自定义正则表达式标识符时不可用。
关联信息 1. 关联标题及子标题:
开启后,将在段落切片中补充正文标题或子标题信息,在检索标题相关信息时,有利于提升切片召回效果。关闭时,可提高文件切分处理速度。
2. 关联文件名:
开启后,将在段落切片中补充文件名信息,在检索文件名信息时,有利于提升切片召回效果。关闭时,可提高文件切分处理速度。

整文件切分: 该切片策略会将整份文档的解析内容放入同一个切片中,适用于长上下文大模型对全文总结的场景,单一切片最高支持15万字。开启后,会增加文档的处理时长和资源消耗。

(3)知识增强

在检索问答时,系统通过检索知识点召回对应的切片。开启知识增强,会调用大模型抽取更加丰富的知识点,增加切片的召回率。对于文本文档类和网页数据源的知识切片,知识增强将对每个切片生成对应的知识点,对于表格类知识数据,表格中的一行为一个切片,仅对设置的索引列内容生成对应的知识点。

开启知识增强后,会增加文档的处理时长和资源消耗。知识增强文档字数上限为10万字;单个切片字数上限为8千字,超出部分无法使用知识增强。知识增强方式可选择问题生成、段落概要、三元组知识抽取三种方式。

增强方法 解释
问题生成 默认开启。根据切片内容生成问题作为知识点,提升知识点和用户检索文本的相似度,进而提升知识召回成功率。
段落概要 根据切片内容生成段落概要作为知识点,提升知识召回成功率。开启后,增加文档的处理时长和资源消耗。
三元组知识抽取 对切片内容抽取三元组信息作为知识点,如:“百度发布新品”--- <百度,发布,新品>。开启后,提升知识召回成功率,同时会增加文档的处理时长和资源消耗。

注意事项:知识增强文档字数上限为10万字;单个切片字数上限为8千字,超出部分无法使用知识增强。


模板配置方法


可选模板 具体解释 适用场景
简历文档 简历模版将文件解析为结构化字段存储在一个切片中
支持上传doc、docx、pdf格式文件
PPT幻灯片 幻灯片模版将文件按页解析,每一页幻灯片内容分别存储在一个切片中
支持上传ppt、pptx格式文件
论文文档 论文模版根据论文结构将文件解析为对应结构切片,如标题、摘要、引言等结构 支持doc、docx、pdf格式文件
结构化问答对 问答对模版将文档识别解析为问答对切片,每一个问答对存储在一个切片,建议问答对间以空行进行分隔。
支持doc、docx、pdf、txt格式文件