什么是EasyData
更新时间:2023-03-15
产品介绍
EasyData是百度大脑推出的智能数据服务平台,支持面向各行各业有AI开发的企业用户及开发者提供一站式数据服务工具。主要围绕AI开发过程中所需要数据采集、数据清洗、数据标注等业务需求提供完整的数据服务。目前EasyData已经支持图片、文本、音频、视频四类基础数据的处理,也初步支持机器学习数据的存储。
同时EasyData已与EasyDL、BML数据管理模块打通,可以将EasyData处理的数据应用于EasyDL、BML模型训练。
功能介绍
数据采集
EasyData提供两种数据采集方案
1. 从摄像头采集图片数据:
- 采集方案:提供本地采集软件,支持定时拍照、视频抽帧(支持自定义抽帧规则)多种采集方式,并将图片即时同步到EasyData管理
- 方案优势:
操作便捷:直接对接采集摄像头硬件,自动将数据从本地传至云端
采集效率高:减少数据中转环节,采集、抽帧、上传一站式解决
2. 通过云服务数据回流采集数据
- 采集方案:AI模型训练后可能需要持续迭代和优化模型效果,可以通过调用EasyDL、BML云服务接口并开通该采集服务,将实际业务数据及识别结果可视化查看,针对性的选择高质量数据。
- 方案优势:
数据匹配度高:直接对接预测服务云服务接口,训练数据与实际业务匹配性更强
难例挖掘:支持通过置信度等多种维度筛选图片,挖掘难例,更有针对性地补充AI模型训练数据
数据标注
-
预置丰富的标注模板
- 图像: 图像分类、物体检测、图像分割
- 文本: 文本分类、短文本相似度、情感倾向分析、文本实体抽取
- 音频: 声音分类
- 视频: 视频分类
-
支持智能标注
智能标注提供人机交互协作标注,最高降低90%的标注成本。目前智能标注已支持物体检测、图像分割、文本分类等数据类型。
-
支持多人标注
多人标注通过团队协作完成标注任务,提高标注效率。目前多人标注已支持图像、文本、语音、视频等数据方向。
-
提供数据标注服务
百度众测及数据服务商标注支持EasyData已全面对接百度众测及AI市场中的优质数据服务商,可以通过EasyData平台面向百度众测提交详细的标注需求。
数据清洗
支持四类数据清洗策略:
- 图片去模糊:过滤清晰度较低的图片,保证数据质量
- 图片去重:过滤大量重复的图片,提高关键图片处理效率
- 图片批量裁剪:批量裁剪图片中的无关元素,提升数据质量
- 图片旋转:校正采集图片的角度,方便进行下一步的处理
- 过滤无人脸图片:通过调用百度人脸检测服务过滤出图片中没有人脸的图片
- 过滤无人体图片:通过调用百度人体检测或人像分割服务过滤出图片中没有人体的图片