资讯 社区 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

创建知识库

概述

【个人空间-知识库】用于存储和管理各类知识文档,以辅助各类型原生应用的快速搭建并查看效果。

  1. 登录百度智能云千帆-AppBuilder
  2. 在左侧菜单栏中,选择【个人空间-知识库】,进入该页面后,可查看到当前所有知识库列表,当前可支持创建100个知识库。[去控制台创建]

创建知识库

【个人空间-知识库】用于存储和管理各类知识文档,以辅助各类型原生应用的快速搭建并查看效果。点击知识库列表上方的【创建知识库】按钮,在展开的页面中填写新知识库的各项信息。

1.png

1. 定义知识库基本信息

【知识库定义】定义知识库的基本信息。
2.png

字段 填写注意事项 案例
知识库名称 知识库名称仅支持中文、英文、数字、下划线(_)、中划线(-)、英文点(.)(1~50字符) 相机使用说明书
知识库描述 描述这个知识库的内容和用途 主要包括相机的使用说明,为用户介绍相机的保修信息和服务条款、安全注意事项、基本操作、菜单设置、拍摄技巧等。

2. 托管切片

【托管切片】选择切片向量模型与托管索引资源。

2.1 向量模型

将文本转化为用数值表示的向量形式。用于知识导入时的向量转化,以及知识问答过程的语义向量检索。单文件支持最大字数为100w字,超出部分将不会转化为向量。 3.png

  1. 当前向量模型默认为multilingual-embedding-AppBuilder,支持的语言为:中文(简体、繁体)、英文、马来语、泰语、日语。多语言RAG应用可根据用户语言,使用对应语言答复。
  2. 多语言RAG的知识库语言支持中文和英语两种语言。模型答复时可根据用户语言自动转换。
  3. 目前需要用户通过提交工单申请开通白名单才能使用多语言RAG功能。

2.2 切片托管资源

资源分类 适用场景
AppBuilder资源 不同用户之间共享资源,支持小规模的文件切片索引
百度ElasticSearch(BES)资源

(没有私有化服务;可能有混合云服务,需要付费使用)
可独享资源,实现数据隔离,支持大规模的文件切片索引,索引性能更高,可以理解为有一块独立的资源空间
百度向量数据库VectorDB资源 支持百亿级向量规模托管、具备高性能访问和弹性高可用特性的向量数据库,适用于大规模向量数据检索、高性能应用及高可用性要求场景

2.2.1 使用百度ElasticSearch(BES)资源

  • 若未开通 BES,请先开通 BES 资源(https://cloud.baidu.com/product/bes.html),并创建,并创建) ElasticSearch 集群实例。
  • 创建新 ElasticSearch 集群实例:设置BES集群名称及管理员密码,并填入知识库创建对应的表单位置。

4.png

  • 调用已创建的 ElasticSearch 集群实例:点击集群名称链接进入集群详情页,查看集群名称与管理员名称。注意,管理员密码不可查看,若忘记密码请重新设置。

5.png

2.2.2 使用百度向量数据库VectorDB

资源创建成功后会自动跳转至资源登陆界面。

7.png

  • 若已开通VDB, 可直接选择对应实例进行登陆。

8.png

3. 导入文件源

【选择导入类型】可以选择按文件类型导入和按模板导入。

9.png

3.1 按文件类型导入

【选择文件类型】可选择导入文件类型和导入方式。支持选择文本文档数据、知识问答数据和url导入数据,满足您各种场景需要!

文件源导入类型 特点 举例
导入文本文档数据 根据上传的文本文件直接进行分段处理 适合各类通用场景
导入表格型知识数据 读取表格中的文本信息,按行构建知识切片。 适用于整理好的FAQ问答对数据、多列索引表格等含有长文的表格(表格单元格中存储了较长的文本内容)
读取网页数据源 读取输入的网页链接,解析网页内容并导入知识库。支持设置自动更新 通过问答对进行知识干预,为用户提供更可控的问答结果

文本文档类导入说明如下:

导入来源 特点
本地上传 1. 六种格式:支持.doc,.txt,.docx,.pdf, .ppt, .pptx六种格式;
2. 有限容量:txt 文件不能超过10MB, docx、pdf、doc 文件不能超过50MB,仅处理前1000页内容(txt 文件2000字符为一页,文件不超过200万字符)
百度对象存储(BOS-公有云可用,私有化用minio仍在开发中) 1. 批量导入:配合BES使用时,不限制文件导入数量,支持按文件夹导入
2. 无限容量:提供无限容量,可拓展和可靠的存储服务
3. 付费功能

表格类知识数据导入说明如下:

10.png

导入来源 特点
本地上传 1. 五种格式:支持.xlsx,.xls,.docx,.csv, .jsonL五种格式;
2. 五种编码:支持UTF-8、GBK、GB2312、GB18030、ASCII五种编码格式
3. 有限容量:单个文件大小不超过100MB,不超过10万行,20列,每行不超过15万字,且文件中最多支持一个sheet工作表(超出范围的内容会被自动忽略)

读取网页数据源解释如下:

11.png

解析网页内容 解析子网页及网页内容
描述 仅支持解析所上传URL的网页数据 将上传的URL作为根目录,自动解析其所含全部子目录的网页数据
URL解析方式 1.逐个上传:
a.支持逐个上传,最多支持添加10条URL;
b.可通过URL上传框右侧的【更新频率】设置按钮,对导入知识库的URL网页数据进行定时的内容更新;
c.也可以在上传框下面【一键设置更新频率】进行一键设置
12.png
2.批量上传:可以通过xlsx文件填写URL实现批量上传(建议使用xlsx模版填写URL
13.png
1.单个根目录上传
a.对单个根目录进行解析
b.可通过URL上传框右侧的【更新频率】设置按钮,对导入知识库的URL网页数据进行定时的内容更新
2.根目录批量解析
a.xlsx文件填写url作为根目录进行批量上传,建议使用AppBuilder提供的xlsx模版填写
b.只支持上传一个文件,单个文件不超过15MB
14.png
注意:最多支持解析800条子目录,若通过自动解析子网页的方式导入知识库,子网页数目超过知识库容量800个后多余部分不会被导入知识库。
举例 通过上传百度百科链接
https://baike.baidu.com/item/%E6%B2%99%E4%B8%98/20601683
可以实现对该页面内容的提取和动态追踪
15.png
使用同样一个百度百科链接
https://baike.baidu.com/item/%E6%B2%99%E4%B8%98/20601683
,由于该链接内还包含其他的跳转链接,可以同时解析处包含链接的内容
16.png

3.2 按模版导入

17.png

可选择按简历文档,ppt幻灯片,论文文档,结构化问答对模版导入。系统会按照模版结构生成切片。

可选模板 具体解释 适用场景
简历文档 简历模版将文件解析为结构化字段存储在一个切片中

18.png
支持上传doc、docx、pdf格式文件
PPT幻灯片 幻灯片模版将文件按页解析,每一页幻灯片内容分别存储在一个切片中

19.png
支持上传ppt、pptx格式文件
论文文档 论文模版根据论文结构将文件解析为对应结构切片,如标题、摘要、引言等结构

20.png
支持doc、docx、pdf格式文件
结构化问答对 问答对模版将文档识别解析为问答对切片,每一个问答对存储在一个切片,建议问答对间以空行进行分隔 支持doc、docx、pdf、txt格式文件

文档导入说明:

说明 格式要求
本地上传 上传本地数据并导入 AppBuilder 共享存储服务,支持小规模文件导入 1.单次上传文档数量为100个
2.支持.doc/.docx/.pdf三种格式
3.pdf文件不能超过500MB且不能超过3000页,其他类型文件不能超过50MB且不能超过1000页
百度对象储存(BOS) 导入 BOS 中的数据,支持导入大规模数据,满足企业安全合规要求 1.支持不超过500MB且不超过3000页的.pdf文件、不超过50MB且不超过1000页的.doc/.docx文件。

4.选择配置

【选择配置】上传文档后,刻在配置选择中根据需求配置解析策略,切片策略和知识增强以提升知识问答效果。

导入文本文档数据 导入表格型知识数据 读取网页数据源
解析策略 支持 不需要配置 不支持
切片策略 支持 不需要配置 支持
知识增强 支持 支持 支持

(1)解析策略: 默认开启文字提取策略,可以选图像文字识别(OCR)、版面分析和文档图片解析策略。

21.png

解析策略配置模块解释如下:

配置方法 解释 适用场景 补充说明
文字提取 基于规则的文档文字提取 默认开启
图像文字识别(OCR) 当文档中包含图像等内容时,可以开启该功能,打开后可识别图像、扫描件信息。关闭时,提高文档解析速度。 适用于图片、扫描件文档
版面分析 当文档存在层级结构时,可以开启该功能,打开后会增强对文档层级结构的理解能力,检测文档中的标题、段落、页眉、页脚、图片、表格等元素。同时,启用该功能时,可以开启【切片策略-自定义切片-关联标题及子标题】功能。关闭时,提高文档解析速度。 文档存在层级结构时建议开启
文档图片解析 当文档中包含图片,且希望能够在问答中准确召回图片时,可以开启该功能。启用该功能时,将在文档上传阶段对文档中图片进行解析,并将相关图片关联在文字切片下方。关闭时,提高文档解析速度。 适用于需要对文档中图片进行召回的场景。 文档图片解析的开启依赖图像文字识别(OCR)、版面分析开启,若图像文字识别(OCR)、版面分析策略关闭,则文档图片解析不可选中。
图表解析 当文档中包含图表,且希望能够在问答中检索召回图表中包含信息时,可以开启该功能。启用该功能时,将在文档上传阶段对文档中图表进行解析,并将相关图表关联在文字切片下方。关闭时,提高文档解析速度。 适用于需要对文档中的图表信息进行检索召回的场景。 图表解析的开启依赖文档图片解析开启。若文档图片关闭,则图片解析不可选中。
表格深度解析 当文档中包含跨行跨列,超长类等复杂表格,且希望准确识别图表结构,召回图表信息时,可以开启该功能。启用该功能时,将在文档上传阶段调用表格深度解析服务以优化解析效果。关闭时,提高文档解析速度。 适用于文档中存在跨行跨列,超长类复杂表格,且需要准确识别的场景。 表格深度解析的开启依赖版面分析开启。若版面分析关闭,侧表格深度解析不可选中。

(2)切片策略:

22.png

解析策略配置模块解释如下:

配置方法 解释 适用场景
默认切分 根据文档自动设置切分规则 适合具备简单结构的文本,如论文、新闻等
自定义切片 可以配置标识符、切片最大长度、切片重叠最大字数占比以及选择关联信息内容。(详细解释见下) 文本具有特定的结构或需要特别关注某些信息,如药物说明书
整文件切片 将整份文档的解析内容放入同一个切片中,开启后,会增加文档的处理时长和资源消耗 适用于长上下文大模型对全文总结的场景,单一切片最高支持15万字

自定义切片相关概念解释如下:

功能 解释
标识符 1. 支持按照所选的标识符切分文本时,可以选择的标识符有:中文句号、中文逗号、中文问号、英文句号、英文叹号、英文问号、按页切分、自定义正则表达式。
23.png
2. 当选择自定义正则表达式时,需要填写表达式内容和包含策略
a. 表达式:通过正则表达式,自定义可匹配的分隔符。例如:
I. [。!?] :任意句号,叹号,问号:
II. (第[\d一二三四五六七八九十零壹贰叁肆伍陆柒捌玖拾]{1,}章): 第x章
b. 包含策略:对正则匹配的分隔符,设置包含的位置。例如当匹配到 “第x章” 时,可选:
I. 前序切片:将 “第x章” 拼接至前序切片末尾
II. 后续切片:将“第x章” 拼接至后续切片开头
III. 匹配后丢弃:切分后,将“第x章”删除
IV.注:当表达式涉及多段分隔符时,此选项功能可能不生效
切片最大长度 设置每个切片内的字符数上限,确保切片的最大长度与模型所支持的上下文长度范围相匹配,以确保数据处理的准确性和效率。
1. 长度越大,召回的上下文越丰富。
2. 长度越小,召回的信息越精简。
3.当前切片最大长度默认为600字,最高上限为15万字,但需确保填写的切片最大长度不超过模型上下文的数量限制。
切片重叠最大字数占比 是指:当前切片与前后切片的 “重叠部分字符数” 相较于设置的 “切片最大长度” 的比例。如果重叠部分存在不完整的句子,则此切片舍去该句。占比越大,相邻切片重叠字符越多, 占比越小,重叠字符越少。
例如,如果文本是“我爱学习我爱生活”,假设我们按4个字符进行切片,重叠比例为3/4或75%,则第一个切片是“我爱学习”,第二个切片是“爱学习我”,第三个切片是“学习我爱”,这些切片之间的重叠部分字符数是“爱学习”或“学习我”3个字符。通过这种方式,可以确保每个切片之间有指定的重叠字符数,从而保持文本的连贯性。同时,如果句子“我爱学习并享受这个过程”被切割成“我爱学习”和“并享受这个”,由于“并享受这个”是不完整的,这个切片可能会被舍弃或与其他切片合并。
注:该功能在选择自定义正则表达式标识符时不可用。
关联信息 1. 关联标题及子标题:
开启后,将在段落切片中补充正文标题或子标题信息,在检索标题相关信息时,有利于提升切片召回效果。关闭时,可提高文件切分处理速度。
2. 关联文件名:
开启后,将在段落切片中补充文件名信息,在检索文件名信息时,有利于提升切片召回效果。关闭时,可提高文件切分处理速度。

整文件切分:
该切片策略会将整份文档的解析内容放入同一个切片中,适用于长上下文大模型对全文总结的场景,单一切片最高支持15万字。开启后,会增加文档的处理时长和资源消耗。

(3)知识增强

在检索问答时,系统通过检索知识点召回对应的切片。开启知识增强,会调用大模型抽取更加丰富的知识点,增加切片的召回率。对于文本文档类和网页数据源的知识切片,知识增强将对每个切片生成对应的知识点,对于表格类知识数据,表格中的一行为一个切片,仅对设置的索引列内容生成对应的知识点。

开启知识增强后,会增加文档的处理时长和资源消耗。知识增强文档字数上限为10万字;单个切片字数上限为8千字,超出部分无法使用知识增强。知识增强方式可选择问题生成、段落概要、三元组知识抽取三种方式。

增强方法 解释
问题生成 默认开启。根据切片内容生成问题作为知识点,提升知识点和用户检索文本的相似度,进而提升知识召回成功率。
段落概要 根据切片内容生成段落概要作为知识点,提升知识召回成功率。开启后,增加文档的处理时长和资源消耗。
三元组知识抽取 对切片内容抽取三元组信息作为知识点,如:“百度发布新品”--- <百度,发布,新品>。开启后,提升知识召回成功率,同时会增加文档的处理时长和资源消耗。

注意事项:知识增强文档字数上限为10万字;单个切片字数上限为8千字,超出部分无法使用知识增强。

上一篇
探索广场
下一篇
切片管理