009-Python算法组件

更新时间：2023-01-18

Python算法组件

注意：Python算法组件，需连接Python预测组件。

AP聚类

AP 算法的基本思想是将全部样本看作网络的节点，通过网络中各条边的消息传递计算出各样本的聚类中心。聚类过程中，共有两种消息在各节点间传递，分别是吸引度(responsibility)和归属度(availability)。AP 算法通过迭代过程不断更新每一个点的吸引度和归属度值，直到产生m个高质量的 Exemplar（类似于质心），同时将其余的数据点分配到相应的聚类中。

输入

输入一个数据集，数据集的特征列必须是数值类型；数据点的参考度列(可选)用于刻画每个点的偏好，需要是数值类型。

输出

输出AP聚类模型。聚类模型预测结果为在原始列上加上两列：result_label，代表聚类index，从0开始；result_distances，代表样本到各个cluster的距离。

算子参数

参数名称	是否必选	参数描述	默认值
阻尼系数	是	为了避免在更新时出现数值振荡，默认值：0.5 范围：[0.5, 0.99]	0.5
最大迭代次数	是	控制算法的迭代次数，默认值：50。此算法时间复杂度较高，为O(NNlogN)，其中N为样本数，不适合用于大数据（N>5000）聚类范围：[1, inf)	50
收敛迭代次数	是	迭代次数，估计簇的数量没有变化，停止收敛，默认值：3 范围：[1, inf)	3

字段参数

参数名称	是否必选	参数描述	默认值
特征列	是	支持数值或数值数组类型	无
数据点的参考度列	否	每个点的偏好-具有较大偏好值的点更有可能被选择为聚类中心。聚类中心的个数（即簇的数量）受输入偏好值的影响。如果偏好值未作为参数传递，则将其设置为输入相似度的中位数	无

使用示例

构建算子结构，配置参数，完成训练。

查看训练结果。

BML Neural Network

BML Neural Network组件可以进行可视化的神经网络开发，搭建网络方式与可视化建模一致，同时需要编辑代码自定义算子的fit、save、 load、transform 方法。

输入

输入一个数据集，需要搭建网络结构并且编写算子的fit、save、 load、transform 方法。

输出

输出神经网络模型。

算子参数

参数名称	是否必选	参数描述	默认值
Python代码编辑窗口	是	使用Python开发神经网络
网络定义	是	可在可视化神经网络编辑界面进行编辑

使用示例

选中“BML Neural Network”组件后，点击右侧“可视化开发”按钮，进入神经网络可视化开发界面。神经网络可视化开发同可视化建模操作体验类似，选择相应的组件进行串联后，点击组件可进行参数设置。待全部设置完毕后，可点击“保存为代码”。

Catboost二分类(单机)

CatBoost是一种基于对称决策树（oblivious trees）为基学习器实现的参数较少、支持类别型变量和高准确性的GBDT框架，主要解决的痛点是高效合理地处理类别型特征，这一点从它的名字中可以看出来，CatBoost是由Categorical和Boosting组成。此外，CatBoost还解决了梯度偏差（Gradient Bias）以及预测偏移（Prediction shift）的问题，从而减少过拟合的发生，进而提高算法的准确性和泛化能力。

输入

输入一个数据集，特征列是数值或数值数组类型，或者类别类型（字符串类型），二分类任务标签列需要是整数或字符串类型，标签唯一值为2。

输出

输出Catboost二分类(单机)模型。

算子参数

参数名称	是否必选	参数描述	默认值
缺失值的预处理方法	否	三种缺失值处理方法，Forbidden: 不支持缺失值、Min: 缺失值赋值为最小值、Max: 缺失值赋值为最大值，默认用最小值补缺失值，类别特征不支持空值和填充	Min
特征分箱的最大箱数	否	特征值分箱的最大箱数，较少的分箱数可能会降低训练的准确性，但可能会提高总体训练效果（处理过拟合）范围：[1, 65535]	254
学习目标	是	二分类任务的学习目标	Logloss
迭代次数	是	提升迭代次数，也是可以建立的最大树数范围：[1, inf)	1000
学习率	是	步长收缩率范围：[0.01, 1.0]	0.03
树最大深度	是	一个树的最大深度，建议在4-10之间，如出现不明原因的失败，请尝试调小该值或调大内存范围：[1, 16]。	6
L2正则化系数	是	代价函数的L2正则化项的系数，允许任何正值范围：[0.0, inf)。	3
样本采样随机种子	否	样本采样随机种子范围：[0, inf)。	0
采样类型	否	目前三种类型：Bayesian、Bernoulli、MVS。	MVS
特征列子采样比例	否	特征列子采样比例范围：[0.01, 1.0]。	1.00
Bagging强度	否	Bagging强度，范围：[0.01, 1.0]。	1.00
提升模式	否	提升模式，目前两种类型：Ordered、Plain	Plain
计算叶子节点值的方法	否	计算叶子节点值的方法，目前支持Gradient和Newton。	Gradient
是否采用输入数据的顺序	否	是否采用输入数据的顺序	关闭
随机子空间	否	随机子空间	1.00
线程数	否	默认-1表示按CPU核数。要获得最佳速度，请将其设置为实际CPU内核数，而不是线程数（大多数CPU使用超线程为每个CPU内核生成2个线程）。如果数据集很小，请不要将其设置得太大范围：[0, inf)	0

字段参数

参数名称	是否必选	参数描述	默认值
特征列	是	训练和预测使用的特征列，可以是数值、数值数组、类别类型；当包含类别特征时，需要对类别特征进行标识，且类别特征不能包含空值。	无
标签列	是	预测目标列，要求是整数或字符串类型，唯一值是2。	无
正样本标签值	否	二分类的正样本的标签值，应在标签列中存在。	无
类别特征标示	否	当特征列(不包括Label列)包含【类别】特征时，需要将类别特征单独标示出来，仅支持int或者string类型，不支持空值，选择的列需要是特征列的子集。	无

使用示例

构建算子结构，配置参数，完成训练。

查看训练结果。

Catboost多分类(单机)

Catboost多分类与二分类算法原理一致，运用sotfmax和ova(一对多)的方式实现多分类。

输入

输入一个数据集，特征列是数值或数值数组类型，或者类别类型（字符串类型），多分类任务标签列需要是整数或字符串类型，标签唯一值大于2。

输出

输出Catboost多分类(单机)模型，支持查看Top10分类的概率。

算子参数

参数名称	是否必选	参数描述	默认值
缺失值的预处理方法	否	三种缺失值处理方法，Forbidden: 不支持缺失值、Min: 缺失值赋值为最小值、Max: 缺失值赋值为最大值，默认用最小值补缺失值，类别特征不支持空值和填充	Min
特征分箱的最大箱数	否	特征值分箱的最大箱数，较少的分箱数可能会降低训练的准确性，但可能会提高总体训练效果（处理过拟合）范围：[1, 65535]	254
学习目标	是	多分类任务的学习目标, 如果出现内存溢出或不明原因的失败，请尝试调大内存或者减少树的深度。目前支持MultiClassoftmax)和MultiClassOneVsALL(ova)。	MultiClass(softmax)
迭代次数	是	提升迭代次数，也是可以建立的最大树数范围：[1, inf)	1000
学习率	是	步长收缩率范围：[0.01, 1.0]	0.03
树最大深度	是	一个树的最大深度，建议在4-10之间，如出现不明原因的失败，请尝试调小该值或调大内存范围：[1, 16]。	6
L2正则化系数	是	代价函数的L2正则化项的系数，允许任何正值范围：[0.0, inf)。	3
样本采样随机种子	否	样本采样随机种子范围：[0, inf)。	0
采样类型	否	目前三种类型：Bayesian、Bernoulli、MVS。	MVS
特征列子采样比例	否	特征列子采样比例范围：[0.01, 1.0]。	1.00
Bagging强度	否	Bagging强度，范围：[0.01, 1.0]。	1.00
提升模式	否	提升模式，目前两种类型：Ordered、Plain	Plain
计算叶子节点值的方法	否	计算叶子节点值的方法，目前支持Gradient和Newton。	Gradient
是否采用输入数据的顺序	否	是否采用输入数据的顺序	关闭
随机子空间	否	随机子空间	1.00
线程数	否	默认-1表示按CPU核数。要获得最佳速度，请将其设置为实际CPU内核数，而不是线程数（大多数CPU使用超线程为每个CPU内核生成2个线程）。如果数据集很小，请不要将其设置得太大范围：[0, inf)	0

字段参数

参数名称	是否必选	参数描述	默认值
特征列	是	训练和预测使用的特征列，可以是数值、数值数组、类别类型；当包含类别特征时，需要对类别特征进行标识，且类别特征不能包含空值。	无
标签列	是	预测目标列，要求是整数或字符串类型。	无
类别特征标示	否	当特征列(不包括Label列)包含【类别】特征时，需要将类别特征单独标示出来，仅支持int或者string类型，不支持空值，选择的列需要是特征列的子集。	无

使用示例

构建算子结构，配置参数，完成训练。

查看训练结果。

Catboost回归(单机)

Catboost支持回归任务，不同于分类任务，回归任务的学习目标使用RMSE、MAE、Poisson、Tweedie等。

输入

输入一个数据集，特征列是数值或数值数组类型，或者类别类型（字符串类型），标签列需要是数值类型，对于回归任务目标函数gamma，要求标签列是正的，对于回归任务目标函数tweedie，要求标签列是非负的。

输出

输出Catboost回归(单机)模型。

算子参数

参数名称	是否必选	参数描述	默认值
缺失值的预处理方法	否	三种缺失值处理方法，Forbidden: 不支持缺失值、Min: 缺失值赋值为最小值、Max: 缺失值赋值为最大值，默认用最小值补缺失值，类别特征不支持空值和填充	Min
特征分箱的最大箱数	否	特征值分箱的最大箱数，较少的分箱数可能会降低训练的准确性，但可能会提高总体训练效果（处理过拟合）范围：[1, 65535]	254
学习目标	是	回归任务的学习目标： RMSE(l2) MAE(l1) Poisson Tweedie	RMSE(l2)
迭代次数	是	提升迭代次数，也是可以建立的最大树数范围：[1, inf)	1000
学习率	是	步长收缩率范围：[0.01, 1.0]	0.03
树最大深度	是	一个树的最大深度，建议在4-10之间，如出现不明原因的失败，请尝试调小该值或调大内存范围：[1, 16]。	6
L2正则化系数	是	代价函数的L2正则化项的系数，允许任何正值范围：[0.0, inf)。	3
样本采样随机种子	否	样本采样随机种子范围：[0, inf)。	0
采样类型	否	目前三种类型：Bayesian、Bernoulli、MVS。	MVS
特征列子采样比例	否	特征列子采样比例范围：[0.01, 1.0]。	1.00
Bagging强度	否	Bagging强度，范围：[0.01, 1.0]。	1.00
提升模式	否	提升模式，目前两种类型：Ordered、Plain	Plain
计算叶子节点值的方法	否	计算叶子节点值的方法，目前支持Gradient和Newton。	Gradient
是否采用输入数据的顺序	否	是否采用输入数据的顺序	关闭
随机子空间	否	随机子空间	1.00
线程数	否	默认-1表示按CPU核数。要获得最佳速度，请将其设置为实际CPU内核数，而不是线程数（大多数CPU使用超线程为每个CPU内核生成2个线程）。如果数据集很小，请不要将其设置得太大范围：[0, inf)	0

字段参数

参数名称	是否必选	参数描述	默认值
特征列	是	训练和预测使用的特征列，可以是数值、数值数组、类别类型；当包含类别特征时，需要对类别特征进行标识，且类别特征不能包含空值。	无
标签列	是	预测目标列，要求是数值类型。	无
类别特征标示	否	当特征列(不包括Label列)包含【类别】特征时，需要将类别特征单独标示出来，仅支持int或者string类型，不支持空值，选择的列需要是特征列的子集。	无

使用示例

构建算子结构，配置参数，完成训练。

DBSCAN

DBSCAN（Density-Based Spatial Clustering of Applications with Noise，具有噪声的基于密度的聚类方法）是一种很典型的密度聚类算法，和 K-Means，BIRCH 这些一般只适用于凸样本集的聚类相比，DBSCAN 既可以适用于凸样本集，也可以适用于非凸样本集。这类密度聚类算法一般假定类别可以通过样本分布的紧密程度决定。同一类别的样本，他们之间的紧密相连的，也就是说，在该类别任意样本周围不远处一定有同类别的样本存在。通过将紧密相连的样本划为一类，这样就得到了一个聚类类别。通过将所有各组紧密相连的样本划为各个不同的类别，则我们就得到了最终的所有聚类类别结果。

输入

输入一个数据集，数据集的特征列必须是数值或数值数组类型。

输出

输出DBSCAN模型。

算子参数

参数名称	是否必选	参数描述	默认值
邻域距离阈值	是	一个样本在另一个样本的邻域内的最大距离。这不是簇中点之间距离的最大界限。这是最重要的DBSCAN参数，可以根据数据集和距离函数进行适当选择。范围：[0.01, inf)	0.5
邻域样本数阈值	是	将某个点视为核心点的邻域中的样本数（包括点本身）。范围：[2, inf)	5
距离度量	是	提供两种距离度量方式：欧式距离（euclidean）和曼哈顿距离（manhattan）。	欧式距离

字段参数

参数名称	是否必选	参数描述	默认值
特征列	是	支持数值或数值数组类型。	无

计算逻辑

使用示例

构建算子结构，配置参数，完成训练。

查看输出结果。

KNN二分类

k 近邻（KNN）是一种常用的监督学习方法，其工作机制非常简单：给定测试样本，基于某种距离度量找出训练集中与其最靠近的 k 个训练样本，然后基于这 k 个“邻居”的信息来进行预测。通常，在分类任务中可使用“投票法”，即选择这 k 个样本中出现最多的类别标记作为预测结果。 k 近邻没有显式的学习过程。事实上，它是懒惰学习（lazy learning）的著名代表，此类学习技术在训练阶段仅仅是把样本保存起来，训练时间开销为零，待收到测试样本后再进行处理。 KNN 二分类：利用 k 近邻学习方法完成二分类任务。

输入

输入一个数据集，数据集的特征列必须是数值或数值数组类型，标签列必须是整数类型或字符串类型（如果列中的unique值超过了两种，运行算子时会报错）。

输出

输出KNN二分类模型。

算子参数

参数名称	是否必选	参数描述	默认值
k值	是	k值选择，要求不大于样本个数范围：[1, 100]	5
p范数	是	Lp距离度量，常用p=1,2 范围：[1, 10]	2

字段参数

参数名称	是否必选	参数描述	默认值
特征列	是	预测使用的特征列，要求必须是数值或数值数组类型。	无
标签列	是	预测目标列，要求是整数或字符串类型，唯一值是2。	无
正样本标签值	否	二分类的正样本的标签值，应在标签列中存在。	无

使用示例

构建算子结构，配置参数，完成训练。

查看训练结果。

KNN多分类

KNN多分类任务即已分类样本中含两个以上的类别，待分类样本计算距离最近的K个样本，根据"投票法"确定样本分类。

输入

输入一个数据集，数据集的特征列必须是数值或数值数组类型，标签列必须是整数类型或字符串类型（如果列中的unique值不足三种，运行算子时会报错）。

输出

输出KNN多分类模型，支持查看Top10分类的概率。

算子参数

参数名称	是否必选	参数描述	默认值
k值	是	k值选择，要求不大于样本个数范围：[1, 100]	5
p范数	是	Lp距离度量，常用p=1,2 范围：[1, 10]	2

字段参数

参数名称	是否必选	参数描述	默认值
特征列	是	预测使用的特征列，要求必须是数值或数值数组类型。	无
标签列	是	预测目标列，要求是整数或字符串类型。	无

构建算子结构，配置参数，完成训练。

查看训练结果。

LightGBM二分类(单机)

提升树是利用加模型与前向分布算法实现学习的优化过程，它有一些高效实现，如XGBoost，GBDT等。其中GBDT采用负梯度作为划分的指标（信息增益），XGBoost则利用到二阶导数。他们共同的不足是，计算信息增益需要扫描所有样本，从而找到最优划分点。在面对大量数据或者特征维度很高时，他们的效率和扩展性很难使人满意。微软开源的LightGBM（基于GBDT的）则很好的解决这些问题，它主要包含两个算法：

GOSS（从减少样本角度）：排除大部分小梯度的样本，仅用剩下的样本计算信息增益。

EFB（从减少特征角度）：捆绑互斥特征，也就是他们很少同时取非零值（也就是用一个合成特征代替）。

输入

输入一个数据集，特征列需要是数值或数值数组类型，标签列需要是整数或字符串类型，标签唯一值为2。

输出

输出LightGBM二分类(单机)模型。

算子参数

参数名称	是否必选	参数描述	默认值
两轮加载	是	如果数据文件太大而无法放入内存，可以设置两轮加载。	关闭
0作为缺失值	是	将加载数据中的所有0值作为缺失值，否则np.nan表示缺失值。	关闭
特征最大分箱数	是	特征值分箱的最大箱数。较少的分箱数可能会降低训练的准确性，但可能会提高总体训练效果（处理过拟合）范围：[2, inf)。	255
学习目标	是	二分类任务的学习目标。	logistic
迭代次数	是	提升迭代次数范围：[1, 200]。	100
学习率	是	步长收缩率范围：[0.01, 1.0]。	0.10
树最大叶子数	是	每棵树的最大叶子数范围：[2, 131072]。	31
划分最小信息增益	是	划分树（叶子）节点所需的最小信息增益范围：[0.0, inf)	0.0
叶子节点最小样本数	是	每个叶子节点的最小样本数。可用于处理过拟合范围：[0, inf)。	20
叶子节点最小样本权重和	是	每个叶子节点的最小样本权重和。可用于处理过拟合范围：[0.0, inf)。	0.001
样本采样频率	是	0表示禁用样本采样；k表示每k次迭代执行一次样本采样。要启用样本采样，[样本采样比例]的值也应设置为小于1.0 范围：[0, inf)。	0
样本采样比例	是	随机选择部分样本。可用于加快训练。可用于处理过拟合范围：[0.01, 1.0]。	1.00
正样本采样比例	是	用于不平衡的二分类问题，将随机采样[正样本数*正样本采样比例]个正样本。应该与[负样本采样比例]一起使用。将此设置为1.0以禁用。如果启用了平衡采样（值设置为小于1.0），则将忽略[样本采样比例] 范围：[0.01, 1.0]	1.00
负样本采样比例	是	用于不平衡的二分类问题，将随机采样[负样本数*负样本采样比例]个负样本。应该与[正样本采样比例]一起使用。将此设置为1.0以禁用。如果启用了平衡采样（值设置为小于1.0），则将忽略[样本采样比例] 范围：[0.01, 1.0]	1.00
样本采样随机种子	是	样本采样随机种子	3
树特征采样比例	是	如果值小于1.0，将在每次迭代（树）上随机选择部分特征。可用于加快训练。可用于处理过拟合范围：[0.01, 1.0]。	1.00
树节点特征采样比例	是	如果值小于1.0，将在每个树节点上随机选择部分特征。可用于处理过拟合。与树特征采样比例不同，这无法加快训练速度。每个树节点最终的特征采样比例为[树特征采样比例*树节点特征采样比例] 范围：[0.01, 1.0]	1.00
特征采样随机种子	是	特征采样随机种子	2
L1正则化系数	是	权重的L1正则化项范围：[0.0, inf)。	0.0
L2正则化系数	是	权重的L2正则化项范围：[0.0, inf)。	0.0
提升算法	是	目前支持两种提升算法：gbdt（梯度提升决策树）、rf（随机森林）；如果选择rf，需要设置「样本采样频率」大于0、「样本采样比例」大于0且小于1，这是rf算法本身隐含约束。	gbdt
线程数	是	0表示OpenMP中的默认线程数。要获得最佳速度，请将其设置为实际CPU内核数，而不是线程数（大多数CPU使用超线程为每个CPU内核生成2个线程）。如果数据集很小，请不要将其设置得太大范围：[0, 16]	0

字段参数

参数名称	是否必选	参数描述	默认值
特征列	是	预测使用的特征列，要求必须是数值或数值数组类型。	无
标签列	是	预测目标列，要求是整数或字符串类型，唯一值是2。	无
正样本标签值	否	二分类的正样本的标签值，应在标签列中存在。	无

使用示例

构建算子结构，配置参数，完成训练。

查看训练结果。

LightGBM多分类(单机)

LightGBM多分类与二分类算法原理一致，运用sotfmax和ova(一对多)的方式实现多分类。

输入

输入一个数据集，特征列需要是数值或数值数组类型，标签列需要是整数或字符串类型，标签唯一值大于2。

输出

输出LightGBM多分类(单机)模型，支持查看Top10分类的概率。

算子参数

参数名称	是否必选	参数描述	默认值
两轮加载	是	如果数据文件太大而无法放入内存，可以设置两轮加载。	关闭
0作为缺失值	是	将加载数据中的所有0值作为缺失值，否则np.nan表示缺失值。	关闭
特征最大分箱数	是	特征值分箱的最大箱数。较少的分箱数可能会降低训练的准确性，但可能会提高总体训练效果（处理过拟合）范围：[2, inf)。	255
学习目标	是	多分类任务的学习目标，目前支持：softmax和ova。	softmax
迭代次数	是	提升迭代次数范围：[1, 200]。	100
学习率	是	步长收缩率范围：[0.01, 1.0]。	0.10
树最大叶子数	是	每棵树的最大叶子数范围：[2, 131072]。	31
划分最小信息增益	是	划分树（叶子）节点所需的最小信息增益范围：[0.0, inf)	0.0
叶子节点最小样本数	是	每个叶子节点的最小样本数。可用于处理过拟合范围：[0, inf)。	20
叶子节点最小样本权重和	是	每个叶子节点的最小样本权重和。可用于处理过拟合范围：[0.0, inf)。	0.001
样本采样频率	是	0表示禁用样本采样；k表示每k次迭代执行一次样本采样。要启用样本采样，[样本采样比例]的值也应设置为小于1.0 范围：[0, inf)。	0
样本采样比例	是	随机选择部分样本。可用于加快训练。可用于处理过拟合范围：[0.01, 1.0]。	1.00
样本采样随机种子	是	样本采样随机种子	3
树特征采样比例	是	如果值小于1.0，将在每次迭代（树）上随机选择部分特征。可用于加快训练。可用于处理过拟合范围：[0.01, 1.0]。	1.00
树节点特征采样比例	是	如果值小于1.0，将在每个树节点上随机选择部分特征。可用于处理过拟合。与树特征采样比例不同，这无法加快训练速度。每个树节点最终的特征采样比例为[树特征采样比例*树节点特征采样比例] 范围：[0.01, 1.0]	1.00
特征采样随机种子	是	特征采样随机种子	2
L1正则化系数	是	权重的L1正则化项范围：[0.0, inf)。	0.0
L2正则化系数	是	权重的L2正则化项范围：[0.0, inf)。	0.0
提升算法	是	目前支持两种提升算法：gbdt（梯度提升决策树）、rf（随机森林）；如果选择rf，需要设置「样本采样频率」大于0、「样本采样比例」大于0且小于1，这是rf算法本身隐含约束。	gbdt
线程数	是	0表示OpenMP中的默认线程数。要获得最佳速度，请将其设置为实际CPU内核数，而不是线程数（大多数CPU使用超线程为每个CPU内核生成2个线程）。如果数据集很小，请不要将其设置得太大范围：[0, 16]	0

字段参数

参数名称	是否必选	参数描述	默认值
特征列	是	预测使用的特征列，要求必须是数值或数值数组类型。	无
标签列	是	预测目标列，要求是整数或字符串类型。	无

使用示例

构建算子结构，配置参数，完成训练。

查看训练结果。

LightGBM回归(单机)

LightGBM支持回归任务，不同于分类任务，回归任务的学习目标使用gamma、tweedie、l1、l2等。

输入

输入一个数据集，特征列需要是数值或数值数组类型，回归任务标签列需要是数值类型，对于回归任务目标函数gamma，要求标签列是正的，对于回归任务目标函数tweedie，要求标签列是非负的。

输出

输出LightGBM回归(单机)模型。

算子参数

参数名称	是否必选	参数描述	默认值
两轮加载	是	如果数据文件太大而无法放入内存，可以设置两轮加载。	关闭
0作为缺失值	是	将加载数据中的所有0值作为缺失值，否则np.nan表示缺失值。	关闭
特征最大分箱数	是	特征值分箱的最大箱数。较少的分箱数可能会降低训练的准确性，但可能会提高总体训练效果（处理过拟合）范围：[2, inf)。	255
学习目标	是	回归任务的学习目标，目前支持： gamma tweedie l1 l2	L2
迭代次数	是	提升迭代次数范围：[1, 200]。	100
学习率	是	步长收缩率范围：[0.01, 1.0]。	0.10
树最大叶子数	是	每棵树的最大叶子数范围：[2, 131072]。	31
划分最小信息增益	是	划分树（叶子）节点所需的最小信息增益范围：[0.0, inf)	0.0
叶子节点最小样本数	是	每个叶子节点的最小样本数。可用于处理过拟合范围：[0, inf)。	20
叶子节点最小样本权重和	是	每个叶子节点的最小样本权重和。可用于处理过拟合范围：[0.0, inf)。	0.001
样本采样频率	是	0表示禁用样本采样；k表示每k次迭代执行一次样本采样。要启用样本采样，[样本采样比例]的值也应设置为小于1.0 范围：[0, inf)。	0
样本采样比例	是	随机选择部分样本。可用于加快训练。可用于处理过拟合范围：[0.01, 1.0]。	1.00
样本采样随机种子	是	样本采样随机种子	3
树特征采样比例	是	如果值小于1.0，将在每次迭代（树）上随机选择部分特征。可用于加快训练。可用于处理过拟合范围：[0.01, 1.0]。	1.00
树节点特征采样比例	是	如果值小于1.0，将在每个树节点上随机选择部分特征。可用于处理过拟合。与树特征采样比例不同，这无法加快训练速度。每个树节点最终的特征采样比例为[树特征采样比例*树节点特征采样比例] 范围：[0.01, 1.0]	1.00
特征采样随机种子	是	特征采样随机种子	2
L1正则化系数	是	权重的L1正则化项范围：[0.0, inf)。	0.0
L2正则化系数	是	权重的L2正则化项范围：[0.0, inf)。	0.0
提升算法	是	目前支持两种提升算法：gbdt（梯度提升决策树）、rf（随机森林）；如果选择rf，需要设置「样本采样频率」大于0、「样本采样比例」大于0且小于1，这是rf算法本身隐含约束。	gbdt
线程数	是	0表示OpenMP中的默认线程数。要获得最佳速度，请将其设置为实际CPU内核数，而不是线程数（大多数CPU使用超线程为每个CPU内核生成2个线程）。如果数据集很小，请不要将其设置得太大范围：[0, 16]	0

字段参数

参数名称	是否必选	参数描述	默认值
特征列	是	预测使用的特征列，要求必须是数值或数值数组类型。	无
标签列	是	预测目标列，要求是数值类型。	无

使用示例

构建算子结构，配置参数，完成训练。

MxNet算法

MxNet 是一个深度学习框架，旨在提高效率和灵活性，允许混合符号和命令式编程，以最大限度地提高效率和生产力。 MxNet 算法组件：利用MxNet库编写自定义python代码，完成各类深度学习任务。该组件仅提供单机运行的模式。

输入

输入一个数据集作为训练集，编写Python代码。

输出

输出MxNet算法模型。

算子参数

参数名称	是否必选	参数描述	默认值
Python 代码编辑窗口	是	输入Python 代码

函数说明

fit：模型训练方法，有且仅有dataset参数
transform：模型预测方法，有且仅有dataset参数，返回的预测结果为pandas.DataFrame
save：模型保存方法,有且仅有model_path参数
load：模型加载方法,有且仅有model_path参数

使用示例

构建算子结构，编写python代码，完成训练。

查看代码，本例中特征列为slen、swid、plen、pwid，标签列为class。

查看训练结果。

Paddle算法

PaddlePaddle（PArallel Distributed Deep LEarning）是一个易用、高效、灵活、可扩展的深度学习框架。 Paddle 算法组件：利用 PaddlePaddle 库写自定义 python 代码，完成各类深度学习任务。

输入

输入训练数据集：paddle.reader，每行数据为pandas.core.series.Series格式数据；预测dataset：pandas.DataFrame,每行数据为pandas.core.series.Series格式数据。

输出

输出Paddle算法模型。

算子参数

参数名称	是否必选	参数描述	默认值
Python 代码编辑窗口	是	输入Python 代码

函数说明

fit：模型训练方法，有且仅有dataset参数
transform：模型预测方法，有且仅有dataset参数，返回的预测结果为pandas.DataFrame
save：模型保存方法,有且仅有model_path参数
load：模型加载方法,有且仅有model_path参数

使用示例

构建算子结构，编写python代码，完成训练。

查看代码，本例中特征列为slen、swid、plen、pwid，标签列为label。

多项式回归

多项式回归，回归函数是回归变量多项式的回归。多项式回归模型是线性回归模型的一种，此时回归函数关于回归系数是线性的。由于任一函数都可以用多项式逼近，因此多项式回归有着广泛应用。多项式回归模型通常使用最小二乘法来拟合。实现原理：多项式扩展 + 线性回归。

输入

输入一个数据集，数据集的特征列double/int，标记列是Double或Int类型。

输出

输出多项式回归模型。

算子参数

参数名称	是否必选	参数描述	默认值
多项式次数	是	多项式回归中选择的多项式次数范围：[2, 8]。	2
截距	是	多项式回归中是否使用截距。	开启
归一化	是	多项式回归中是否使用归一化。	关闭

字段参数

参数名称	是否必选	参数描述	默认值
特征列	是	预测使用的特征列，要求必须是数值或数值数组类型。	无
标签列	是	预测目标列，要求是数值类型。	无

使用示例

构建算子结构，配置参数，完成训练。

PyModel模型脚本

PyModel支持将上传的代码文件存放到用户填写的目录里面，同时还支持在算子里面用存储里的代码和数据集训练出模型，放到用户填写的目录里。

输入

输入选择存储中的文件，需要填写PyModel模型文件的存放路径。

输出

输出PyModel格式的模型。

算子参数

参数名称	是否必选	参数描述	默认值
存储名称	是	选择存储名称	无
资源文件	是	选择上传的资源文件	无
shell命令	是	算子执行的时候，会运行用户输入的shell命令，预期这个shell命令会在用户填写的模型目录产出一个PyModel格式的模型。	sh man.sh
模型目录(相对路径)，模型格式为PyModel	是	模型目录(相对路径)，模型格式为 PyModel	./model_dir

使用示例

上传的示例文件如下，命名为model.py

#!/usr/bin/env python
# -*- coding=utf8 -*-
"""
python script
"""
import pandas as pd
 
 
class PyModel(object):
    """
    运行环境为 Python 3
    """
 
    def transform(self, dataset):  # type:(pd.DataFrame)->pd.DataFrame
        """
 
        :param dataset:
        :return:
        """
        return pd.DataFrame([{'prediction': 0}])
 
    def load(self):
        """
 
        :return:
        """
        pass

选择存储名称、资源文件(model.py)，shell脚本输入框填写"mkdir model_dir && cp model.py model_dir"，完成训练。

PyTorch算法

PyTorch 是使用 GPU 和 CPU 优化的深度学习张量库。自定义 PyTorch 代码组件：利用 PyTorch 库写自定义 python 代码，完成各类深度学习任务。

输入

输入一个数据集作为训练集，编写Python代码。

输出

输出PyTorch算法模型。

算子参数

参数名称	是否必选	参数描述	默认值
Python 代码编辑窗口	是	输入Python 代码

函数说明

fit：模型训练方法，有且仅有dataset参数
transform：模型预测方法，有且仅有dataset参数，返回的预测结果为pandas.DataFrame
save：模型保存方法,有且仅有model_path参数
load：模型加载方法,有且仅有model_path参数

使用示例

构建算子结构，编写python代码，完成训练。

查看代码，本例中特征列为slen、swid、plen、pwid，标签列为class。

Sklearn算法

scikit-learn 是基于 Python 语言的机器学习工具。它是建立在 NumPy ，SciPy 和 matplotlib 上的简单高效的数据挖掘和数据分析工具。自定义 Sklearn 代码组件：利用 scikit-learn 库写自定义 python 代码，完成各类机器学习任务。

输入

输入一个数据集作为训练集，编写Python代码。

输出

输出Sklearn算法模型。

算子参数

参数名称	是否必选	参数描述	默认值
Python 代码编辑窗口	是	输入Python 代码

函数说明

fit：模型训练方法，有且仅有dataset参数
transform：模型预测方法，有且仅有dataset参数，返回的预测结果为pandas.DataFrame
save：模型保存方法,有且仅有model_path参数
load：模型加载方法,有且仅有model_path参数

使用示例

构建算子结构，编写python代码，完成训练。

查看代码，本例中特征列为slen、swid、plen、pwid，标签列为class。

查看训练结果。

Sklearn算法(Pmml模型)

Sklearn算法(Pmml模型)组件与Sklearn算法组件的使用方法一致，不同的是Sklearn算法(Pmml模型)组件中用户可以自定义load和save 防范，并且训练完成后支持导出Pmml格式的模型。

输入

输入数据：一个数据集作为训练集，编写Python代码。

输出

输出数据：Sklearn算法(Pmml模型)。

算子参数

参数名称	是否必选	参数描述	默认值
Python 代码编辑窗口	是	输入Python 代码

使用示例

构建算子结构，编写python代码，完成训练。

查看代码，本例中特征列为slen、swid、plen、pwid，标签列为class。

训练完成后的模型可以导出为PMML格式文件。

Tensorflow算法

TensorFlow 是一个端到端开源机器学习平台。它拥有一个包含各种工具、库和社区资源的全面灵活生态系统，可以让研究人员推动机器学习领域的先进技术的发展，并让开发者轻松地构建和部署由机器学习提供支持的应用。自定义 Tensorflow 代码组件：利用 Tensorflow 库写自定义 python 代码，完成各类深度学习任务。

输入

输入一个数据集作为训练集，编写Python代码。

输出

输出Tensorflow算法模型。

算子参数

参数名称	是否必选	参数描述	默认值
Python 代码编辑窗口	是	输入Python 代码

函数说明

fit：模型训练方法，有且仅有dataset参数
transform：模型预测方法，有且仅有dataset参数，返回的预测结果为pandas.DataFrame
save：模型保存方法,有且仅有model_path参数
load：模型加载方法,有且仅有model_path参数

使用示例

构建算子结构，编写python代码，完成训练。

查看代码，本例中特征列为slen、swid、plen、pwid，标签列为class。

WideAndDeep

WideAndDeep 模型是 Google 发布的一类用于分类和回归的模型，并应用到了 Google Play 的应用推荐中。WideAndDeep 模型的核心思想是结合线性模型的记忆能力（memorization）和 DNN 模型的泛化能力(generalization)，在训练过程中同时优化 2 个模型的参数，从而达到整体模型的预测能力最优。记忆(memorization)即从历史数据中发现 item 或者特征之间的相关性。泛化(generalization)即相关性的传递，发现在历史数据中很少或者没有出现的新的特征组合。 WideAndDeep组件：利用 WideAndDeep 模型完成二分类任务。

输入

输入一个数据集，需要指定标签列，deep模式配置列，wide模式配置列。

输出

输出WideAndDeep模型。

算子参数

参数名称	是否必选	参数描述	默认值
dnn_hidden_units	是	设置DEEP中神经网络的隐藏层节点数，数组中必须为正整数范围：[2, inf)。	初始有两行数据，默认值分别是100和50
batch_size	是	训练过程中的batch_size 范围：[1, inf)。	128
num_epochs	是	训练过程中的训练轮数范围：[1, inf)。	1
shuffle	是	在训练过程中数据是否进行打乱。	开启
存储名称	是	选择项目内存储名称。	无
资源文件	是	选择对应存储内的代码文件。	无

字段参数

参数名称	是否必选	参数描述	默认值
标签列	是	标签列，要求是整数类型且标签列值为0或1，唯一值是2。	无
numeric_column	是	设置需要numeric_column的列，需要为数值类型数据列。	无
embedding_column	是	设置需要embedding_column的列，需要为string类别型数据列。	无
embedding_column中的dimension参数	是	设置embedding_column中的dimension参数范围：[1, inf)。	8
categorical_column_with_vocabulary_list	否	设置WIDE模型中categorical_column_with_vocabulary_list列，需要为string类别型数据列	无
categorical_column_with_hash_bucket	是	设置WIDE模型中categorical_column_with_hash_bucket列，需要为string类别型数据列。	无
categorical_column_with_hash_bucket中hash_bucket_size参数	是	categorical_column_with_hash_bucket中hash_bucket_size参数范围：[1, inf)。	1000
crossed_column	否	设置WIDE模型中交叉特征列，最少选择两列数据，需要为string类别型数据。	无

使用示例

构建算子结构，配置参数，完成训练。

XGBoost二分类(单机)

XGBoost是一种提升树模型，它是将多个树模型（CART）集成在一起，形成一个很强的分类器。对于一个样本，每棵树都会预测出一个结果（分数），对于二分类问题来说，学习目标为logistic。

输入

输入数据集。特征列需要是数值或数值数组类型，标签列需要是整数或字符串类型，标签唯一值为2。

输出

输出XGBoost二分类(单机)模型。

算子参数

参数名称	是否必选	参数描述	默认值
作为缺失值显示的值	否	输入特征数据中需要作为缺失值显示的值（浮点型）。若没有设置，则默认为np.nan。	无
加载数据的线程数	是	适用并行化时用于加载数据的线程数。默认为1；如果为-1，则使用系统上可用的最大线程数。	1
学习目标	是	二分类任务的学习目标。	logistic
树最大深度	是	每棵树的最大深度。树越深，模型越复杂，越容易过拟合范围：[1, inf)。	6
迭代次数	是	提升迭代次数，范围：[1, 200]。	10
最小叶子样本权重和	是	叶子节点需要的最小样本权重和，范围：[0.0, inf)。	1
正样本缩放比例	是	控制正负权重的平衡，对于不平衡的类别很有用。典型值：sum（负实例）/ sum（正实例）范围：[1e-08, inf)。	1
学习率	是	更新中使用的步长缩小，以防止过拟合范围：[0.0, 1.0]。	0.30
gamma	是	节点分裂所需的最小损失函数下降值。gamma越大，算法越保守范围：[0.0, inf)。	0
随机采样比例	是	构造每棵树的所用样本比例（样本采样比例）范围：[0.01, 1.0]。	1.00
随机采样的特征比例	是	构造每棵树的所用特征比例（特征采样比例）范围：[0.01, 1.0]。	1.00
L1正则化系数	是	权重的L1正则化项。值越大，模型越保守范围：[0.0, inf)。	0
L2正则化系数	是	权重的L2正则化项。值越大，模型越保守范围：[0.0, inf)。	1
随机种子	是	随机数种子	0
并行运行线程数	否	用于训练模型的并行线程数。若没有设置，则默认为最大可用线程数范围：[1, 16]。	无

字段参数

参数名称	是否必选	参数描述	默认值
特征列	是	预测使用的特征列，要求必须是数值或数值数组类型。	无
标签列	是	预测目标列，要求是整数或字符串类型，唯一值是2。	无
正样本标签值	否	二分类的正样本的标签值，应在标签列中存在。	无

使用示例

构建算子结构，配置参数，完成训练，算子支持查看全量特征重要性。

查看训练结果。

XGBoost多分类(单机)

XGBoost 是一种提升树模型，它是将多个树模型（CART）集成在一起，形成一个很强的分类器。对于一个样本，每棵树都会预测出一个结果（分数），对于多分类问题来说，学习目标为softprob。

输入

输入一个数据集，特征列需要是数值或数值数组类型，多分类任务标签列需要是整数或字符串类型，标签唯一值大于2。

输出

输出XGBoost多分类(单机)模型，支持查看Top10分类的概率。

算子参数

参数名称	是否必选	参数描述	默认值
作为缺失值显示的值	否	输入特征数据中需要作为缺失值显示的值（浮点型）。若没有设置，则默认为np.nan。	无
加载数据的线程数	是	适用并行化时用于加载数据的线程数。默认为1；如果为-1，则使用系统上可用的最大线程数。	1
学习目标	是	多分类任务的学习目标。	softprob
树最大深度	是	每棵树的最大深度。树越深，模型越复杂，越容易过拟合范围：[1, inf)。	6
迭代次数	是	提升迭代次数，范围：[1, 200]。	10
最小叶子样本权重和	是	叶子节点需要的最小样本权重和，范围：[0.0, inf)。	1
学习率	是	更新中使用的步长缩小，以防止过拟合范围：[0.0, 1.0]。	0.30
gamma	是	节点分裂所需的最小损失函数下降值。gamma越大，算法越保守范围：[0.0, inf)。	0
随机采样比例	是	构造每棵树的所用样本比例（样本采样比例）范围：[0.01, 1.0]。	1.00
随机采样的特征比例	是	构造每棵树的所用特征比例（特征采样比例）范围：[0.01, 1.0]。	1.00
L1正则化系数	是	权重的L1正则化项。值越大，模型越保守范围：[0.0, inf)。	0
L2正则化系数	是	权重的L2正则化项。值越大，模型越保守范围：[0.0, inf)。	1
随机种子	是	随机数种子	0
并行运行线程数	否	用于训练模型的并行线程数。若没有设置，则默认为最大可用线程数范围：[1, 16]。	无

字段参数

参数名称	是否必选	参数描述	默认值
特征列	是	预测使用的特征列，要求必须是数值或数值数组类型。	无
标签列	是	预测目标列，要求是整数或字符串类型。	无

使用示例

构建算子结构，配置参数，完成训练，算子支持查看全量特征重要性。

查看训练结果。

XGBoost回归 (单机)

XGBoost 是一种迭代的决策树算法，它是由多棵决策树组成，所有树的结论累加起来做最终答案。XGBoost 几乎可用于所有回归问题(线性/非线性)。

输入

输入一个数据集，特征列需要是数值或数值数组类型，回归任务标签列需要是数值类型，对于回归任务目标函数gamma及tweedie，要求标签列是非负的。

输出

输出XGBoost回归(单机)模型

算子参数

参数名称	是否必选	参数描述	默认值
作为缺失值显示的值	否	输入特征数据中需要作为缺失值显示的值（浮点型）。若没有设置，则默认为np.nan。	无
加载数据的线程数	是	适用并行化时用于加载数据的线程数。默认为1；如果为-1，则使用系统上可用的最大线程数。	1
学习目标	是	回归任务的学习目标，目前支持： gamma squarederror tweedie	squarederror
树最大深度	是	每棵树的最大深度。树越深，模型越复杂，越容易过拟合范围：[1, inf)。	6
迭代次数	是	提升迭代次数，范围：[1, 200]。	10
最小叶子样本权重和	是	叶子节点需要的最小样本权重和，范围：[0.0, inf)。	1
学习率	是	更新中使用的步长缩小，以防止过拟合范围：[0.0, 1.0]。	0.30
gamma	是	节点分裂所需的最小损失函数下降值。gamma越大，算法越保守范围：[0.0, inf)。	0
随机采样比例	是	构造每棵树的所用样本比例（样本采样比例）范围：[0.01, 1.0]。	1.00
随机采样的特征比例	是	构造每棵树的所用特征比例（特征采样比例）范围：[0.01, 1.0]。	1.00
L1正则化系数	是	权重的L1正则化项。值越大，模型越保守范围：[0.0, inf)。	0
L2正则化系数	是	权重的L2正则化项。值越大，模型越保守范围：[0.0, inf)。	1
随机种子	是	随机数种子	0
并行运行线程数	否	用于训练模型的并行线程数。若没有设置，则默认为最大可用线程数范围：[1, 16]。	无

字段参数

参数名称	是否必选	参数描述	默认值
特征列	是	预测使用的特征列，要求必须是数值或数值数组类型。	无
标签列	是	预测目标列，要求是数值类型。	无

使用示例

构建算子结构，配置参数，完成训练，算子支持查看全量特征重要性。

聚类算法

NLP算法