开放能力
开发平台
行业应用
生态合作
开发与教学
资讯 社区 控制台
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术
AR与VR
数据智能
场景方案
部署方案
行业应用
智能教育
智能医疗
智能零售
智能工业
企业服务
智能政务
信息服务
智能园区

使用训练作业训练模型

使用训练作业训练模型

训练作业训练提供多种开源框架和优质的训练资源。您可以上传代码文件,数据集到BOS对象存储,通过训练作业完成训练后,训练结果会输出到BOS中的指定位置。

基本信息

填写作业名称和备注信息。作业名称填写完成后,训练作业才可以保存。

image.png

算法配置

  1. 选择算法框架:选择训练代码文件使用的算法框架,目前BML支持Paddle,TensorFlow,Pytorch,Sklearn,XGBoost,Blackhole六种主流算法框架
  2. 选择代码文件:从BOS对象存储中选取代码文件,完成代码录入。单击显示框任何位置,都可以打开选择代码文件弹窗,从弹窗中选择bucke及文件夹。双击bucket或者单击『>』图标,即可进入下一级

image.png

代码文件要求如下:

  • 选取对象可以是一个文件或者文件夹
  • 所选代码文件必须和所选算法框架对应
  1. 选择Python版本和输入启动命令:

    • 选择上传代码适配的Python版本,支持Python 2和Python 3
    • 当代码文件项选择一个单独文件时,启动命令即为该文件,自动填充启动命令
    • 当代码文件项选择的是一个文件夹时,启动命令为启动文件名称,如train.py
  2. 选择输出路径:选择输出路径存放训练产生的模型和日志文件。为避免出错,建议您选择空文件夹作为输出路径。日志文件需要打印到标准输出,才能保证系统中『日志』功能能够正常读取。

数据集配置

训练作业数据集配置方式是从BOS中选取数据集。在弹出的对话框中选择数据集对应的bucket和文件夹。

image.png

说明:训练数据集为必填项,测试数据集为选填项。为保证训练效率,请将数据存放在压缩包内


资源配置

BML提供CPU和GPU两类训练机型。
CPU机型供算法框架为sklearn,XGBoost,Blackhole时使用,用于机器学习训练:

机型 规格说明
CPU 4核 CPU 4核16GB内存
CPU 4核 CPU 16核64GB内存
CPU 64核 CPU 64核256GB内存

GPU机型供算法框架为Paddle,TensorFlow,Pytorch时使用,用于深度学习训练:

机型 规格说明
GPU V100 TeslaGPU_V100_16G显存单卡_12核CPU_56G内存
GPU P40 TeslaGPU_P40_24G显存单卡_12核CPU_40G内存
GPU P4 TeslaGPU_P4_8G显存单卡_12核CPU_40G内存

温馨提示: 未开通付费的情况下,可选的运行环境为CPU 4核,GPU P4, GPU P40,我们为每位用户提供了CPU 4核环境下100(小时×节点),GPU P4运行环境下100(小时×节点)和GPU P40运行环境下50(小时×节点)的免费算力支持,超出后请您付费购买。详见页面提示的价格说明。

查看作业结果

作业运行完成后,会将训练结果与运行日志存储到BOS中指定的输出路径,您可以前往BOS查看或下载作业运行结果。日志文件打印到标准输出时可以直接在日志界面查看。
两种情况下,会导致作业结果及日志无法保存:1. 手动终止作业;2. 作业运行超时被自动终止

上一篇
创建训练作业
下一篇
发布模型