资讯 社区 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

对象存储(BOS)与向量检索(BES):企业级知识库创建

一、对象存储 BOS 是什么?

在Agent知识问答应用场景下,面对企业海量的知识问答数据源,百度智能云对象存储 BOS (Baidu Object Storage) 提供稳定、安全、高效以及高扩展的存储服务,你可以创建个人 BOS 并将知识库文件存储在个人 BOS 资源下,在知识库中导入 BOS 中的文件数据。使用 BOS 存储文件有以下几点优势:

  • 批量导入:

使用私有 BOS 存储,配合 BES 使用将不限制文件导入数量。

  • 数据安全:

使用私有百度对象存储资源,提供安全可靠的传输机制及资源访问控制,满足企业数据安全与合规要求。

  • 可扩展:

支持存储容量弹性扩展。

更多 BOS 产品介绍请参考:对象存储BOS产品文档

二、检索分析服务 BES 是什么?

在 Agent 知识问答应用场景下,知识问答中的向量检索服务可以使用私人独享 BES 服务。百度 Elasticsearch(BES)是基于开源 Elasticsearch 的检索分析服务,提供 Elasticsearch、Kibana、Logstash 等开源全托管的产品服务。具备冷热分离、向量检索等产品特性。提供低成本、高性能和安全可靠的服务。使用BES服务有以下几点优势:

  • 文件规模:

支持检索更大的文件数量规模,配合 BOS 使用将不限制上传文档数量。

  • 安全隔离:

拥有独立集群,自由管理,资源隔离,数据安全。

  • 高性能检索:

依托开源分布式检索分析引擎 Elasticsearch,为用户提供强大的数据检索与分析功能。百度专家团队深度调优,确保集群性能。

更多 BES 产品介绍请参考:百度BES检索分析服务产品文档

三、如何创建企业级知识库?

1、准备工作

1)创建 BOS 服务

  • 创建 Bucket:使用 BOS 服务,用户需进入 BOS 创建页面先创建一个存储空间,即 Bucket。Bucket 创建具体注意事项与创建流程请参照 Bucket 创建指南001.png
  • 实例创建完成后,向 Bucket 中上传需要在知识库中使用的文件。 002.png
  • 创建完成后返回同账号下的 AppBuilder 即可使用BOS服务。

2)创建独享 BES 资源

  • 评估所需的集群资源:使用百度智能云 Elasticsearch 前,需要优先结合业务需求和所存数据,评估集群所需的资源容量,包括磁盘容量、单机规格、shard 大小和数量等。详细的评估方式请参照集群资源评估指南
  • BES集群资源创建:进入 BES 集群创建页面,创建集群中所需的配置项,包括付费及地域、基础配置、网络与可用区、节点配置和其他配置,完成创建后确认订单并在线支付后即可成功开通服务。注意,请使用和 Appbuilder 相同的百度云账户进行创建。详细创建流程请参照 BES 集群资源创建指南
  • 创建集群资源时,选择的付费及地域、设置的集群名称。管理员名称及密码是关键信息,在 AppBuilder 调用 BES 集群资源时需填写。 003.png
  • 完成后返回 AppBuilder 即可使用同账号下的 BES 资源。

2、创建企业级知识库

企业级知识库的创建四大步骤是:

1、知识库定义:填写知识库名称及知识库描述。

2、切片托管:选择知识切片的托管及检索资源。

3、文件源导入:选择要导入文件的格式和文件导入来源。

4、选择配置:配置具体知识库文件的解析及切片策略。 004.png

1、知识库定义

  • 进入个人空间-知识库,点击创建知识库,进入知识库创建页面。 005.png
  • 填写知识库名称与描述,方便知识库管理。 006.png

2、切片托管:选择独享BES资源

  • 切片托管主要负责知识文档切片处理后的切片存储、大模型问答时的切片检索召回工作。
  • 选择百度 ElasticSearch 独享资源,即可支持大规模的文件处理和检索。独享资源提供数据隔离,保障数据安全。同时,支持弹性扩容的高性能体验。选择 AppBuilder 共享资源会限制创建的知识库数量,最多 100 个。其中每个知识库最多 800 个文件。注意,当创建知识库时选择BES资源,后续在该知识库上传文件均自动使用BES资源。
  • 选择一个创建好的 BES 集群,并填写地域、BES 集群名称、管理员名称、管理员密码信息。相关信息进入 BES 产品页面找到已创建的BES集群资源,点击集群名称链接进入集群详情页,查看集群名称与管理员名称。注意,管理员密码不可查看,若忘记密码请重新设置。 007.png 008.png

3、文件源导入

1)选择文件类型

009.png

  • 支持导入文本文档类数据、结构化数据,同时支持通过网页链接解析并上传网页数据。

2)选择导入BOS集群数据

  • 知识库支持直接从本地上传文件,或从创建好的百度对象存储(BOS)实例中上传文件。
  • 选择BOS服务作为文件的存储及导入源,可支持向知识库导入更大规模的数据,满足企业用户数据安全合规要求。创建知识库时选择BOS导入文件,后续在该知识库上传文件时依然支持选择从本地上传或从BOS上传。

010.png

  • 选择创建好的Bucket地址,即可通过文件夹导入或文件导入的方式选择要导入知识库的文件。 011.png
  • BOS 配合 BES 使用时,单次导入文件的数量没有上限限制。

4、选择配置

  • 源文件进入知识库要经历解析、切片、知识增强等步骤,以提升大模型对知识的理解从而优化知识库问答效果。
  • 用户可以根据自己的文件类型、业务特点灵活配置解析策略、知识增强方法。具体配置方法请参照知识库配置012.png

完成以上步骤,一个企业级、支持大规模文件存储及分布式检索的知识库就创建好了,快来试试吧!

上一篇
检索增强生成(RAG)应用:提示词调试
下一篇
表格型知识库与数据库:课程信息检索