资讯 社区 文档
技术能力
语音技术
文字识别
人脸与人体
图像技术
语言与知识
视频技术

脚本任务

目录

  1. 脚本任务项目说明
  2. 脚本任务创建流程
  3. 创建脚本任务项目
  4. 页面概览
  5. 预置算法部署后调用参数样例
    5.1 左侧文件管理和数据集
    5.2 右侧文件预览编辑和提交任务
    5.3 底部启动命令、提交任务
  6. PaddlePaddle脚本任务训练说明
  7. 数据集与输出文件路径说明
  8. 提交任务
  9. 历史任务
  10. 空间说明
    10.1 python3.7.0
  11. 脚本任务单机多卡示例教程
    11.1 单机四卡示例教程
    11.2 分布式训练(双机四卡)示例教程
  12. 问题反馈

脚本任务项目说明

脚本任务项目的任务执行由GPU集群作为支撑, 具有实时高速的并行计算和浮点计算能力, 有效解放深度学习训练中的计算压力, 提高处理效率.

用户可以先在Notebook项目中, 利用在线的Notebook功能, 完成代码的编写与调试, 之后在脚本任务项目中运行, 从而提高模型训练速度.

脚本任务提供三种运行环境:P40一卡(0.5算力/小时)、V100四卡(4算力/小时)、V100双机四卡(4算力/小时).

脚本任务创建流程

创建脚本任务并使其顺利执行需要完成以下几个步骤:

image.png

创建脚本任务项目

image.png

image.png

image.png

页面概览

在脚本任务项目详情页中, 用户可以浏览自己创建的项目内容, 编辑项目名称及数据集等信息, 查看集群历史任务信息等.

image.png

  • 版本内容: 默认展示当前Notebook最新内容. 初始化状态为脚本任务项目示例代码. 用户可以手动选择提交任务时对应的历史版本.
  • 数据集: 项目所引用的数据集信息.
  • 历史任务: 每一次执行任务的记录.

代码编辑

image.png

代码编辑界面主要分为左侧: 文件管理和数据集;右侧: 代码编辑区;底部:启动命令、提交任务.

左侧文件管理和数据集

文件管理

  • 用户可以手动创建文件/文件夹, 对文件/文件夹进行重命名或删除.
  • 其中用户可以选择指定文件, 并设置为主文件(标识为Main). 用作整个项目运行的入口.
  • 用户也可以手动上传文件(单个文件体积上限为1GB,每次最多上传10个文件,环境内文件总体积上限为2GB).
  • 用户可以双击文件, 在右侧将新建一个tab,用户可以进一步查看或编辑该文件的内容. (目前仅支持部分文件预览; 同时预览文件的体积上限为1MB)

image.png

数据集管理

  • 用户可以查看数据集文件, 并复制该文件的相对路径. 最后拼合模板内置绝对路径, 即可使用. 下方有详细介绍.

image.png

右侧文件预览编辑

  • 当多个文件被打开时, 用户可以将它们逐一关闭, 当至最后一个文件时即不可关闭
  • 选中文件对应的tab即可对文件内容进行预览和编辑, 但当前仅支持部分格式的文件

底部启动命令、提交任务

  • 用户可以在启动命令中填写待执行命令如python train.py/bash run.sh,当启动命令较长时会收起部分内容,鼠标放置在填写框会显示指令全部信息。
  • 点击保存按钮, 会将所有文件的改动信息全部保存, 如用户不提交任务, 直接退出, 则自动保存为一个"未提交"版本
  • 提交任务前, 建议写一个备注名称, 方便未来进行不同版本代码/参数的效果比较

image.png

数据集与输出文件路径说明

  • 脚本任务项目中添加的数据集统一放到绝对路径./datasets
# 数据集文件会被自动拷贝到./datasets目录下
CLUSTER_DATASET_DIR = '/root/paddlejob/workspace/train_data/datasets/'
  • 脚本任务项目数据集文件路径的获取

在页面左侧数据集中点击复制数据集文件路径, 得到文件的相对路径, 例如点击后复制到剪切板的路径为data7688/t10k-images-idx3-ubyte.gz.

# 数据集文件相对路径
file_path = 'data65/train-labels-idx1-ubyte.gz'

真正使用的时候需要将两者拼合 train_datasets = datasets_prefix + file_path

  • 脚本任务项目输出文件路径为./output
# 需要下载的文件可以输出到'/root/paddlejob/workspace/output/'
目录 CLUSTER_OUTPUT_DIR = '/root/paddlejob/workspace/output'

注:脚本任务输出结果的体积大小限制是20GB,文件数量限制是10000,超过限制任务会立即失败,建议用户在训练时保存必要文件,阶段性删除非必要文件.

提交任务

点击提交任务会出现运行环境选择弹窗,用户可以根据自己的场景选择运行环境。需要注意的是脚本任务单次最大运行时间为72小时同时需要确保算力充足,否则会导致任务失败。

image.png

历史任务

历史任务页面如下所示.

image.png

任务操作:

  • 下载输出: 下载任务输出文件, 文件格式xxx(任务编号)_output.tar.gz .
  • 查看/下载日志: 在任务运行过程中, 点击"查看日志", 可以查看实时日志, 掌握运行进度. 运行结束后, 按钮转为"下载日志". 下载任务执行日志, 日志格式xxx(任务编号)_log.tar.gz .
  • 终止任务: 在任务执行过程中, 可以点击终止任务.
  • 编辑: 编辑任务对应的代码版本内容.

空间说明

  • 脚本任务项目空间安装包列表

python3.7.0

以python3.7 PaddlePaddle2.1.2环境为例,用户可通过指令pip list自行查看环境信息。

image.png image.png image.png image.png image.png

脚本任务多卡示例教程

单机四卡示例教程

  • 以下提供脚本任务单机四卡示例教程,用户可在run.py文件底部看到不同运行环境对应的启动命令,按照自己的需求修改代码,填写启动命令即可。
  • 在使用单机四卡时可不配置GPU编号,默认启动所有可见卡;如需配置GPU编号,单机四卡的GPU编号为0,1,2,3.

image.png

https://aistudio.baidu.com/aistudio/clusterprojectdetail/2326380/trainTask

分布式训练(双机四卡)示例教程

  • 以下提供脚本任务分布式训练(双机四卡)示例教程,用户可在run.py文件底部看到不同运行环境对应的启动命令,按照自己的需求修改代码,填写启动命令即可。
  • 在使用单双击四卡时可不配置GPU编号,默认启动所有可见卡;如需配置GPU编号,双机四卡的GPU编号为0,1.

image.png

https://aistudio.baidu.com/aistudio/clusterprojectdetail/2326380/trainTask

问题反馈

如在使用中遇到问题, 可以邮件至 aistudio@baidu.com

上一篇
BML Codelab环境使用说明
下一篇
在线实例