资讯 社区 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

创建数据库

概述

【个人空间-数据库】用于存储和管理结构化数据格式的文件,实现结构化数据表格问答的功能,支持单表查询、多表查询等。

  1. 登录百度智能云千帆-AppBuilder
  2. 在左侧菜单栏中,选择【个人空间—数据库】,进入该页面后,可查看到当前所有数据库列表。
  3. 如果希望Agent能够引用表格结构的数据,实现表格问答和图表生成,需要先创建一个数据库。

创建方式

img.png

点击【创建数据库】,可以选择目前支持的两种数据库创建方式,【上传数据表】和【直连数据库】。每个账号通过上传数据表的方式最多创建100个数据库,每个数据库最多创建100个数据表;通过直连数据库的方式最多创建20个数据库,每个数据库中表的数量无上限。

创建方式 适用场景
上传数据表 适用于需要快速创建数据库并填充初始数据的小型项目,如果数据原本存储在Excel、CSV等格式的文件中,使用这种方式可以方便地将数据迁移到数据库中
直连数据库 适用于需要和已有的数据库系统进行数据同步或实时更新的场景,可以确保数据的一致性和实时性

img.png

上传数据表

创建数据库

点击数据库列表右上方的【创建数据库】按钮,在弹出框中选择【上传数据表】,填写数据库的名称和描述即可创建一个空数据库,创建成功后即可进入这个数据库。

img.png img.png

创建数据表

进入一个数据库可以看到这个数据库下的所有数据表,点击右上方『上传数据表』可以创建一个新的数据表,上传数据表一共包含三步操作,分别为:上传数据、数据配置、数据校验,完成这三部操作后即可对该数据表进行问答,一个数据库最多支持创建100个数据表。

image.png

  1. 上传数据

    通过上传一个表格文件来创建一个数据表,支持csv、xls、xlsx、jsonL四种格式的数据文件,你可以下载模板文件,并按照模板规则填写数据最后上传至此界面。

数据上传规则如下:

  • 单次最多支持上传100个数据文件
  • 数据表第一行为列名,最多支持定义20列属性,多余的列将会被自动删掉。
  • 工作表数据长度(行数)不能超过10万行,不包含表头,超过10万行的部分将会被自动删除。
  • 每个上传的文件最多支持一个sheet工作表,默认只读取第一个sheet 工作表,并根据工作表创建数据库表,其他sheet将会忽略。
  • 单元格长度不能超过1200字符。
  • csv、jsonl文件支持utf-8、GB2312、GBK、GB18030、ASCII五种编码格式。
  • jsonL格式创建的数据表将会选取第一行json中的key值作为列名。
  • 文件名不包含特殊字符,且不包含重名文件。

image.png

  • 文件校验:完成数据上传后你可以看到所有表格的校验结果,校验状态包括成功文件、超限文件、问题文件。

    • 超限文件:1)存在个别单元格数据类型校验失败 2)数据行数超过限制 3)存在多个sheet
    • 问题文件:校验失败,可能的原因有:1)表格为空 2)上传的表为空表 3)表头信息有错误 4)文件格式不支持 5)上传文件名不规范
    • 删除:支持删除已导入的数据表。
  • 自动生成表描述:开启自动生成表描述后,确认导入后AI生成各个表的表描述,可以快捷完成表配置。
  1. 数据配置

    数据上传成功后需要对数据表进行配置,包括设置数据表名称、数据表描述、列名、列描述、列数据类型。如果你单次上传了多个数据文件,需要将所有表格都配置完成后再点击下一步。

image1.png image2.png


可配置项如下:
数据表可编辑项目 描述
数据表名称 填写数据表名称,此名称用来在个人中心—我的数据—数据库中展示。
数据表描述 填写数据表描述,请务必准确填写表格描述,大模型在问答时根据表格描述识别和选择使用哪张表回答你的问题,在填写时可以参考平台提供的示例模板,你可以按照模板描述表格包含的字段、用途、是否和其他表格有关联,通过哪个字段进行关联等。也可以点击AI结合已填写的内容和表格列信息生成表描述来快捷填写。
列名 更改列名,大模型生成回答时会参考列名信息对数据进行检索和回答生成。
列描述 填写列描述,用来解释此列数据的含义和用途,大模型将会根据列描述选择对应的列数据进行检索和生成回答。
数据类型 根据实际列数据设置每列的数据类型,支持设置文本、整数、小数、日期、时间、百分比、布尔几种数据类型

3.数据校验
完成数据配置后点击下一步进入数据校验阶段,你可以看到所有表格的校验结果,校验状态包括校验中、校验成功、部分校验成功、校验失败。

  • 校验中:正在校验中
  • 校验成功:数据表格全部校验成功
  • 部分校验成功:存在个别单元格数据类型校验失败,或数据行数超过限制;hover后可以下载异常数据,通过追加数据对内容进行修改。
  • 校验失败:校验失败,可能的原因有:1)表格为空 2)上传的表为空表 3)表头信息有错误 4)文件为非支持格式

4. **其他操作** 完成校验后,可对已上传的数据表进行数据追加、表信息修改和删除。

追加数据:支持对一张数据表追加数据,追加数据将会自动复用当前的数据配置信息,上传的文件表头信息、列数量需要和已上传的数据表一致。追加数据后数据表会进入校验中,校验通过后可以进行问答。
image3.png

修改数据配置:支持对已创建的一个数据表修改配置信息,支持修改数据表名称、数据表描述、列名、列描述。支持修改数据类型。

image4.png

删除:支持批量删除和单独删除已创建的数据表。删除时会提示当前数据表已关联的应用。删除操作不可撤销,请谨慎操作。

image5.png

直连数据库

创建数据库

点击直连数据库,输入你要创建的数据库名称和描述。填写以下字段:

img.png img.png

字段 填写指南
数据源类型 目前支持MySQL、SQL Server两种数据源类型,根据你的数据库类型下拉选择
数据库地址Host 您输入的数据源Host必须是公网地址,如果您的数据库不能通过公网访问,可以考虑接入百度智能云RDS,并打开对应RDS实例的公网IP。具体步骤见如何开通公网?
端口号 输入端口号
数据库名 输入您的数据库名
用户名 输入用户名
密码 输入密码

点击【连接测试】,测试通过后才创建成功。同一个账号下的两个数据库不可连接同一个数据源。

数据列表(数据源表)

创建成功后即可进入该数据库,下方列表为从数据源中自动拉取的数据表,数据表名称、创建时间、更新时间、数据量自动填入。

img.png

  • 状态

    进入数据库,数据库名右侧显示当前该数据库的状态。

    img.png

    状态 解释
    更新中 刷新数据源状态变为更新中。
    连接正常 数据源初次连接/更新完成。
    连接失败 如刷新后,数据源由于数据源链接信息改变,状态流转至失败。光标悬停在上方可显示失败原因。
  • 刷新数据源

    img.png

    点击【刷新数据源】,将立刻重新拉取数据源中的数据表,同时数据库状态转变为更新中。刷新数据源需要一定的时间。

编辑数据库

点击【编辑数据库】,进入数据库编辑页面。可在该页面修改数据库名称和数据库描述。若修改密码,会恢复到未测试状态,需要重新通过连接测试才可以点击确认保存修改。

img.png

查看数据表

点击【查看数据表】可进入数据表详情页,列名为自动抓取的数据源表中的字段。

img.png

点击【搜索关键字】,将自动筛选出属性中包含该关键字的全部记录,字段的数据类型为VARCHAR时支持模糊查询。点击【基本信息】可以看到该表的创建时间、更新时间、数据量、中文名称、数据表描述等内容。点击【编辑数据表】可进入数据表编辑界面。

img.png

编辑数据表

以下两种方法均可进入数据表编辑界面:

  1. 数据库界面每条数据表记录最右侧的【编辑数据表】:

    img.png

  2. 数据表详情页右上角的【编辑数据表】:

    img.png

img.png

数据表可编辑项目 内容
数据表中文名 作为该数据表的别名,支持中文、英文、数字、下划线(_)、中划线(-)、英文点(.)
数据表描述 描述该表的应用场景,大模型将根据此描述识别并调用该表。内置描述模板,可使用AI生成内容

可以通过列名搜索需要编辑的列。

列可编辑项目 内容
中文名 作为该字段的别名
同义词 该字段的同义词,用于大模型识别和理解。标签总字数不超过100
单位 描述该字段数据的单位,可在下拉菜单中选择,也可以自定义
列描述 用来解释此列数据的含义和用途,可提高大模型回答准确率。大模型将会根据列描述选择对应的列数据进行检索和生成回答,总字数在100字符以内
是否参与索引 索引字段是大模型选列的参照字段,请至少启用一个字段

引用数据库

平台支持在应用配置中引用一个已创建的数据库,每个应用最多支持引用一个数据库。相关操作可查看创建应用—数据库部分。

image.png 引用数据时,支持直接新建数据库,或在已有数据库下新建数据表。 image6.png

上一篇
知识库管理
下一篇
团队协作