资讯 社区 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

知识库管理

本平台知识库是面向客户构建私域文档或知识管理的能力,实现本地或BOS等多种数据源文档的上传、分段和清洗并储存至向量数据库中。

登录到本平台,在左侧功能列选择知识库,进入知识库主任务界面。

创建知识库

您需要在知识库界面,选择“创建知识库”按钮。按照以下步骤逐项操作,即可完成知识库的创建。

文本文档格式:需要平台分段的知识,主要包含文本内容,可以包括文章、报告、书籍等,通常以纯文本或带有格式的文本形式呈现:

1.基本信息-->2.导入配置-->3.分段清洗配置-->4.索引配置

结构化格式:无需平台分段的知识,以表格、键值对或类似结构的形式存储,数据字段和结构相对清晰和规范化:

1.基本信息-->2.导入配置-->3.分段清洗配置-->4.索引配置

基本信息

按照下图内容填写知识库名称、描述、选定应用、索引模式和知识格式:

image.png

其中,索引模式将决定您之后的命中测试计费,当前索引模式分为以下两种:

  • bge API:bge-large-zh是由智源研究院研发的中文版文本表示模型,可将任意文本映射为低维稠密向量,以用于检索、分类、聚类或语义匹配等任务,并可支持为大模型调用外部知识。

    • 此服务会调用预置服务中:bge-large-zh公有云在线调用体验服务,需要您提前开通付费,如您在计费管理中,已开通此服务,请忽略此操作。
    • 服务调用价格请参考价格文档计费管理中关于bge-large-zh公有云在线调用体验服务的价格(0.0005元/千tokens)描述。
  • Embedding API:调用平台的嵌入接口进行处理,以在用户查询时提供更高的准确度。

    • 此服务会调用预置服务中:Embedding-V1公有云在线调用服务,需要您提前开通付费,如您在计费管理中,已开通此服务,请忽略此操作。
    • 服务调用价格请参考价格文档计费管理中关于Embedding-V1公有云在线调用服务的价格(0.0005元/千tokens)描述。

您选择索引模式的前提需要您在应用接入中选择/创建可用的应用,操作步骤可参考应用接入使用说明

文本文档格式

知识格式选择文本文档格式:需要平台分段的知识,主要包含文本内容,可以包括文章、报告、书籍等,通常以纯文本或带有格式的文本形式呈现。选择进入“下一步”。

1.导入配置

支持导入方式及格式分为以下类型:

  • 导入方式选择本地存储,选择PDF/TXT/DOC/DOCX/压缩包的导入格式,并进行文件上传。
  • 导入方式选择BOS目录导入,需要输入Bucket地址及文件夹地址,进行文件上传。开通BOS服务请点击开通服务,文件夹内文件类型支持pdf/txt/doc/docx,文件编码仅支持UTF-8
  • 导入方式选择分享链接导入,仅支持来自百度BOS、阿里OSS、腾讯COS、华为OBS的共享链接:

    1. 链接地址要求为zip/tar.gz格式压缩包,同时压缩前源文件大小在5G以内,文件编码仅支持UTF-8
    2. 压缩包内支持多个pdf/txt/doc/docx文件

2.数据库配置

选择以下两种数据库类型:

  • 共用:调用共用向量库,仅供少量用户或者测试使用,每个用户1G容量,包含了客户导入的语料数据和语料转换成的向量。
  • BES:调用BES向量化能力,开即用、自动运维以及丰富的监控指标,减少您的运维开销,需要您提前开通服务

    • 百度Elasticsearch(BES)是开源的全文检索和分析引擎Elasticsearch的托管服务,完全兼容开源Elasticsearch的功能,同时内置了基于百度NLP技术的分词插件,即开即用、自动运维以及丰富的监控指标,减少用户运维开销,帮助客户快速启动业务分析。您可以开通服务进行使用,如已开通,请忽略此操作。
    • 当前仅支持选择北京区域的BES,且只能通过Http协议连接您的自建BES。
    • 需要填写BES集群名称、管理员名称及密码并测试联通性。

分段清洗配置

以上步骤操作完成,选择进入“下一步”。

自动分段

进行以下的分段清洗配置,则进入后台自动分段流程。

image.png

自动设置分段规则与预处理规则,如果不了解相关参数,建议选择此项。

自定义

选择自定义分段,进行如下参数调整:

image.png

  • 分段策略:

    • 等价分割:遇到所选符号即截断,符号之间没有优先级,最终分割后合并到预计最大长度。
    • 递归分割:按照所选符号先后顺序做递归分割,同一优先级的分割结果合并到预计长度。
  • 分段标识符:自定义分段中若未命中分段标识符,分段将会失败;当您选择递归分割策略时,自定义分段标识符勾选顺序决定分段策略。
    如图所示,分段策略选了递归分割,分段标识符将按照勾选顺序运行分段策略:

    image.png

标识符包括(至少选择1种,支持多选):空两行、换行、中/英文句号、中/英文叹号、中/英文问号、中/英文逗号、空格。

  • 分段预计长度:分片的最长长度,取值范围50-500。文档的正文如果超过设定的[最大长度],则截取[最大长度]的片段为新文档,随后回溯[文档重叠]个字符,继续向后检查,直到文档结束。
  • 分段重叠⻓度:当前分片与上一个分片重叠的文本长度,取值范围0-50。示例如下:

image.png

  • 预处理规则:替换连续的空格、换行符和制表符删除所有URL和电子邮件地址,可按需选择。

按层级分段

选择按层级分段,按文档(当前仅支持DOCX格式)内标题层级切分段落,进行如下参数调整:

image.png

  • 标题层级深度:根据标题级别进行分段的最大深度(1~5),比如深度为3,则最大的分段深度为三级标题,可以处理一、二、三级标题。
  • 标题保存方式:标题保存的方式,例如当前标题的最大深度为3:联合将多级标题组合在一起,格式为 标题一-标题二-标题三;单个只保存最后一级标题,格式为:标题三。
  • 层级分段策略:

    • 等价分割:遇到所选符号即截断,符号之间没有优先级,最终分割后合并到预计最大长度。
    • 递归分割:按照所选符号先后顺序做递归分割,同一优先级的分割结果合并到预计长度。
  • 层级分段标识符:若未命中分段标识符,分段将会失败;当您选择递归分割策略时,自定义分段标识符勾选顺序决定分段策略。
    如图所示,分段策略选了递归分割,分段标识符将按照勾选顺序运行分段策略:

    image.png

标识符包括(至少选择1种,支持多选):空两行、换行、中/英文句号、中/英文叹号、中/英文问号、中/英文逗号、空格。

  • 层级分段预计长度:分片的最长长度,取值范围50-500。文档的正文如果超过设定的[最大长度],则截取[最大长度]的片段为新文档,随后回溯[文档重叠]个字符,继续向后检查,直到文档结束。
  • 层级分段重叠⻓度:当前分片与上一个分片重叠的文本长度,取值范围0-50。示例如下:

image.png

  • 预处理规则:替换连续的空格、换行符和制表符或删除所有URL和电子邮件地址。

分段清洗提示说明

  1. 为什么要数据处理
    在处理文本数据时,分段和清洗是两个重要的预处理步骤。通过对数据集进行适当的分段和清洗,可以提高模型在实际应用中的表现,从而为用户提供更准确、更有价值的结果。
  2. 分段的目的是什么
    分段的目的是将长文本拆成小段落、以便模型更有效的处理和理解。这有助于提高模型生成结果的质量和相关性。
  3. 为什么要进行清洗
    清洗是对文本进行预处理,删除不必要的字符、符号或格式,使数据集更加干净和整洁,便于模型解析。

索引配置

完成以上所有操作后,即可进行索引配置:

image.png

如上图所示,打开参与索引后,才可选择索引类型,字段类型平台内置的字段类型(content),不支持自定义打开此开关。

不同类型文档的字段如下表所示:

image.png

文本类型支持分词检索,其他类型不分词检索无强制类型,类型仅作为标记数据;
倒排索引用于关键字过滤,嵌入索引用于语义检索。

结构化格式

知识格式选择结构化格式:无需平台分段的知识,以表格、键值对或类似结构的形式存储,数据字段和结构相对清晰和规范化。选择进入“下一步”。

1.导入配置

支持导入方式及格式分为以下类型:

  • 导入方式选择本地存储,选择CSV/XLSX/JSONL类型,并进行文件上传。

注意:当您选择导入格式为CSV时,需要标明列分割符为半角逗号/制表符/空格。

  • 导入方式选择BOS目录导入,需要输入Bucket地址及文件夹地址,进行文件上传。开通BOS服务请点击开通服务,文件夹内文件类型支持csv/xlsx/jsonl,文件编码仅支持UTF-8。
  • 导入方式选择分享链接导入,仅支持来自百度BOS、阿里OSS、腾讯COS、华为OBS的共享链接:

    1. 链接地址要求为zip/tar.gz格式压缩包,同时压缩前源文件大小在5G以内,文件编码仅支持UTF-8。
    2. 压缩包内支持多个csv/xlsx/jsonl文件。

2.数据库配置

选择以下两种数据库类型:

  • 共用:调用共用向量库,仅供少量用户或者测试使用,每个用户1G容量,包含了客户导入的语料数据和语料转换成的向量。
  • BES:调用BES向量化能力,即开即用、自动运维以及丰富的监控指标,减少您的运维开销,需要您提前开通服务

    • 百度Elasticsearch(BES)是开源的全文检索和分析引擎Elasticsearch的托管服务,完全兼容开源Elasticsearch的功能,同时内置了基于百度NLP技术的分词插件,即开即用、自动运维以及丰富的监控指标,减少用户运维开销,帮助客户快速启动业务分析。您可以开通服务进行使用,如已开通,请忽略此操作。
    • 当前仅支持选择北京区域的BES,且只能通过Http协议连接您的自建BES。
    • 需要填写BES集群名称、管理员名称及密码并测试联通性。

分段清洗配置

以上步骤操作完成,选择进入“下一步”。结构化格式数据无需进行分段,但可以选择进行预处理。

image.png

  • 替换连续的空格、换行符和制表符删除所有URL和电子邮件地址,可按需选择。

索引配置

完成以上所有操作后,即可进行索引配置:

image.png

如上图所示,打开参与索引后,才可选择索引类型,字段类型平台内置的字段类型(content),不支持自定义打开此开关。

主内容用于在段落卡片的前端进行默认展示。鼠标悬停字段名称后显示主内容icon,点击即可完成设置。

倒排索引用于关键字过滤,嵌入索引用于语义检索。

操作知识库

知识库创建成功后,可以对其进行详情查看、编辑删除等操作。点击如下"..."即可进行相关操作。

image.png

其中,以下代表知识库中的文件状态为成功文档总数,字符数以及关联插件数。

image.png

详情

可在详情查看中,查看到知识库的基本信息和已导入文档的信息概览。

image.png

导入文件

在详情页中,可以继续向知识库导入文件。

需注意:导入新文件的配置继承知识库导入配置中的数据库配置,不可修改。

文件信息概览

在本界面可以查看导入到知识库的文件名称、文件状态和文件字符数等信息。其中,

  • 启用状态:开启后可以被用于插件检索,否则不参与搜索匹配;
  • 命中次数:统计在应用插件搜索时被命中的次数。
  • 点击操作列的“设置”按钮,(如下图所示)可以批量或指定段落的启用和停用。另外,还可以在右侧查看文档的基本信息及导入配置信息。

image.png

导入配置信息中的关键词
命中百分比:搜索被命中的片段占总片段数的百分比;
嵌入时间:文档向量化所用耗时;
嵌入花费:文档向量化消耗的tokens数。

  • 点击操作列的“删除”按钮,将会删除本文档,一旦删除,不可恢复。

索引配置详情

我们点开某jsonl文件,即可查看到其在创建知识库时进行的索引配置,同时可以对此分段进行启/停用。

image.png

编辑

当您选择知识库的编辑按钮,暂不支持对索引模式的变更,继承创建知识库时的索引模式,其他可编辑内容,如下图所示:

image.png

删除

当您选择知识库的删除按钮,此知识库及导入到知识库的文档都将被删除,一旦删除,不可恢复

上一篇
什么是千帆大模型知识库
下一篇
命中测试