机器学习

系统当前支持的机器学习算子类型包括：

数据准备

特征工程

分类

回归

聚类

异常检测

预测

数据准备

1. 数据过滤

用户可以配置单列特征的过滤方式和过滤规则，筛选掉冗余的样本数据行，或者仅保留有效的样本数据行。

过滤方式有两种：

保留行：保留符合过滤规则的样本数据行。

丢弃行：丢弃符合过滤规则的样本数据行。

过滤规则根据样本数据值进行配置，如下：

大于：保留或丢弃大于指定值的样本数据行。

小于：保留或丢弃小于指定值的样本数据行。

等于：保留或丢弃等于指定值的样本数据行。

参数配置说明如下：

IO参数：

输入表名：用户读取数据的表名。

组件参数：用户输出结果保存的表名。

资源参数：需要执行操作的列名，支持多列和单列选择或输入。

组件参数：

填充值方法：

zero：用0进行填充。

None：用Nan进行填充。

minimum：用最小值进行填充。

maximum：最大值进行填充。

average：用平均值进行填充。

value：用用户指定的数值进行填充。

value方法的填充值：value_data，用户指定的填充数值（仅当选择value方法时生效）。

资源参数：

memory(g)：选择内存大小。

cpu：选择cpu数量。

2. 数据修复

数据修复组件支持用户对单列和多列中的空值进行填充。

参数配置说明如下：

IO参数：

输入表名：用户读取数据的表名。

输出表名：用户输出结果保存的表名。

待操作列名：需要执行操作的列名，支持多列和单列选择或输入。

组件参数：

填充值方法：支持zero、None、minimum、maximum、average、value等。

zero：用0进行填充。

None：用Nan进行填充，None方法填充只支持字符型列，即none方法支持选中的列是sting类型。

minimum：用最小值进行填充。

maximum：最大值进行填充。

average：用平均值进行填充。

value：用户指定的数值进行填充。用户选择value填充方法时，需在“value方法的填充值”指定填充的数值。注意： value方法的填充值，需要选中的列为数字形式，且需要与选中的列的数字类型一致，例如，如果列的形式为int类型，则若value_data = 6.1 则会被填充为6。

value方法的填充值：value_data，即用户指定的填充数值（仅当选择value方法时生效）。

资源参数：

memory(g)：选择内存大小。

cpu：选择cpu数量。

3. 数据联合

数据联合可将右集指定列的数据在左集指定列名下方进行拼接，要求数据类型、维度一致，列名可以不一样。

参数配置说明如下：

IO参数：

输入表名（左集）：用户读取的左集表名。

输入表名（右集）：用户读取的右集表名。

左集列名：左集选中列的列名，支持多列和单列输入，多列之间用英文逗号隔开，如：col1,col2,col3。

右集列名：右集连接到左集对应列的列名，支持多列和单列输入，多列之间用英文逗号隔开，如：col1,col2,col3。

输出表名：用户输出结果保存的表名。

资源参数：

memory(g)：选择内存大小。

cpu：选择cpu数量。

4. 数据连接

将右集指定列的数据在左集右方进行拼接，连接方法分为'inner'交集，‘outer’并集。左集列名和右集列名不能相同。

参数配置说明如下：

IO参数：

输入表名（左集）：用户读取的左集表名。

输入表名（右集）：用户读取的右集表名。

输出表名：用户输出结果保存的表名。

左集列名：左集选中列的列名，支持多列和单列输入，多列之间用英文逗号隔开，如：col1,col2,col3。

右集列名：选右集中的列，添加到左集中，支持多列和单列输入，多列之间用英文逗号隔开，如：col1,col2,col3。

组件参数：

连接方法：用于连接的方法，'inner','outer'。

左键列：左集中选择的对齐键列，仅支持单列输入。

右键列：右集选中的对齐键列，仅支持单列输入。

5. 数据去噪

通过数据去噪，筛选掉时间序列中的异常数据。

参数配置说明如下：

IO参数：

输入表名：用户读取数据的表名。

输出表名：用户输出结果保存的表名。

待过滤列名：需要执行操作的列名，支持多列和单列输入，多列之间用英文逗号隔开，如：col1,col2,col3。

资源参数：

memory(g)：选择内存大小。

cpu：选择cpu数量。

6. 数据采样

对输入数据按照一定的比例进行随机采样，采样比例输入0.0~1.0之间的小数。

参数配置说明如下：

IO参数：

输入表名：用户读取数据的表名。

输出表名：用户输出结果保存的表名。

组件参数：

采样比例：随机采样比例，输入为小数，0.0~1.0。

资源参数：

memory(g)：选择内存大小。

cpu：选择cpu数量。

7. 计算dataframe列特征参数

返回dataframe的列名、最大最小值、标准差、有效值个数、平均值、空值个数、25%分位数、50%分位数、75%分位数等。

参数配置说明如下：

IO参数：

输入表名：用户读取数据的表名。

输出表名：用户输出结果保存的表名。

资源参数：

memory(g)：选择内存大小。

cpu：选择cpu数量。

8. 数据集分割

支持用户对数据集进行分割。

参数配置说明如下：

IO参数：

输入表名：用户读取数据的表名。

训练集输出表名：训练集输出结果保存的表名。

测试集输出表名：测试集输出结果保存的表名。

组件参数：

数据集分割比例：训练集所占整个数据集的比例，取值范围：0-1。

资源参数：

memory(g)：选择内存大小。

cpu：选择cpu数量。

9. 设置header

对没有列名的dataframe用户可以利用此算子设置列名。

参数配置说明如下：

IO参数：

输入表名：用户读取数据的表名。

输出表名：用户读取数据的表名。

组件参数：

列名配置：待设置的header列名，支持自动生成和用户自定义；如果输入列名数量与数据文件列数不相等，则会生成默认列名“col0,col1,col2,col3，...”。

资源参数：

memory(g)：选择内存大小。

cpu：选择cpu数量。

10. 列转行

对data进行列转行操作，将多列转成多行，将生成三列。

参数配置说明如下：

IO参数：

输入表名：用户读取数据的表名。

输出表名：用户输出结果保存的表名。

待转行的列名：用户指定的需要转行的列名。支持多列和单列输入，多列之间用英文逗号隔开，如：col1,col2,col3。

组件参数：

索引列：设置成索引的特征列，仅支持单列输入。

资源参数：

memory(g)：选择内存大小。

cpu：选择cpu数量。

11. 行转列

对dataFrame进行行转列操作，将多行转成多列，需要用户指定行索引列，key列和values列。

参数配置说明如下：

IO参数：

输入表名：用户读取数据的表名。

输出表名：用户输出结果保存的表名。

组件参数：

索引列：行索引所在的特征列，仅支持单列输入。

key列：用于生成新的列名特征列，仅支持单列输入。

values列：用于生成新列的values的特征列，仅支持单列输入。

保留列：保留的特征列，不进行转化，支持多列和单列输入，多列之间用英文逗号隔开，如：col1,col2,col3，不输入即为不保留。

资源参数：

memory(g)：选择内存大小。

cpu：选择cpu数量。

12. 数据字符化

用户可以针对输入数据的类型不同（连续型或离散型），选择相应的映射方法进行数据的字符化映射，离散型映射时，需要用户手动输入字典类型的离散型映射表，其中包括了离散型数值或字符及其所对应的种类名称。在映射时会将待映射列中的值替换为对应的种类名称。连续型映射时，需要用户在hdfs中导入csv格式的连续型映射表，该csv映射表包括三个列：Min（数值类型），Max（数值类型），Index（数值或字符类型）。其中的Min和Max组成了一个区间范围，Index中的值对应该范围对应的种类名称。用户可在csv映射表中输入多行多个区间范围及对应的种类名称。在映射时会将待映射列中的值替换为对应的种类名称。最后生成的结果为两列，第一列是要目标列，第二列是字符化后的结果，列名命名以目标列名+‘_characterization’这样的形式，例如：第一列列名，col0 第二列列名，col0_characterization。

参数配置说明如下：

IO参数：

输入表名：用户读取数据的表名。

输出表名：用户输出结果保存的表名。

列名配置：执行操作的列名，仅支持单列输入。

组件参数：

映射类型：数据映射的类型有两种，分别是连续型'Continuous'和离散型'Discrete'。

区间定义：一共有四种区间定义，分别是开区间('open interval')、闭区间('closed interval')、左开右闭('left open right closed interval')、左闭右开('left closed right open interval')。

离散映射表存储路径：离散型映射文件的存储路径，要求存储文件为json形式，例如：/aios/test.json。

连续型映射表存储路径：hdfs中离散型映射文件的存储路径，要求存储文件为json形式，例如：/aios/test.json。

资源参数：

memory(g)：选择内存大小。

cpu：选择cpu数量。

特征工程

1. 重命名

对选中的表名进行修改。注意：

目标列名不能与选中的列名相同。

选中的列名与目标列名的个数相同。

参数配置说明如下：

IO参数：

输入表名：用户读取数据的表名。

输出表名：用户输出结果保存的表名。

待操作列名：要配置的表名，支持多列和单列输入，多列之间用英文逗号隔开，如：col1,col2,col3。

目标列名：修改后的表名，支持多列和单列输入，多列之间用英文逗号隔开，如：col1,col2,col3。

资源参数：

memory(g)：选择内存大小。

cpu：选择cpu数量。

2. 归一化

对数据进行归一化操作，支持三种归一化算法：

MaxAbsScaler：这种方法通过原始数据（X）除以特征数据的绝对值的最大值将样本数据映射到[-1,1]区间上，转化函数为：X_result = Xi / |X|

MinMaxScaler：将特征列的样本数据映射到[0,1]区间上，转化函数为：X_result = (Xi - X.min) / (X.max - X.min)。

StandardScaler：这种方法给予原始数据（X）的均值（μ）和标准差（σ）进行数据的归一化。经过处理后的数据符合标准正态分布，即均值为0，标准差为1，转化函数为：X_result = （Xi-μ）/σ。

参数配置说明如下：

IO参数：

输入表名：用户读取数据的表名。

输出表名：用户输出结果保存的表名。

待操作列名：需要执行操作的列名，支持多列和单列输入，多列之间用英文逗号隔开，如：col1,col2,col3。

组件参数：

归一化方法：归一化方法，默认为'MinMaxScaler'。

资源参数：

memory(g)：选择内存大小。

cpu：选择cpu数量。

3. 标准化

标准化支持L1_norm和L2_norm两种算法对特征列的样本数据进行处理，说明如下：

L1_norm：所有样本数据的绝对值求和作为分母；样本数据作为分子。将样本数据映射到（-1,1）区间。

L2_norm：所有样本数据求平方和后开根号作为分母；样本数据作为分子。将样本数据映射到（-1,1）区间。

参数配置说明如下：

IO参数：

输入表名：用户读取数据的表名。

输出表名：用户输出结果保存的表名。

列名配置：需要标准化的列的列名,支持多列和单列输入，多列之间用英文逗号隔开，如：col1,col2,col3。

组件参数：

方法：支持L1_norm和L2_norm，说明如下：

L1_norm：所有样本数据的绝对值求和作为分母；样本数据作为分子。将样本数据映射到（-1,1）区间。

L2_norm：所有样本数据求平方和后开根号作为分母；样本数据作为分子。将样本数据映射到（-1,1）区间。

资源参数：

memory(g)：选择内存大小。

cpu：选择cpu数量。

4. 数值化

非数值化数据无法直接计算，需要通过数值化将其转换为数值型。数值化的思路是根据特征列的样本数据的种类进行编码，数值化后样本数据为取值范围在[0,样本数据种类-1]区间内的整型数据。

参数配置说明如下：

IO参数：

输入表名：用户读取数据的表名。

输出表名：用户输出结果保存的表名。

待操作列名：需要重命名的列的列名，支持多列和单列输入，多列之间用英文逗号隔开，如：col1,col2,col3。

资源参数：

memory(g)：选择内存大小。

cpu：选择cpu数量。

5. 离散化

特征离散化是将特征列连续的样本数据离散化为[0，离散数量-1]区间内的整型数据。选中的特征列必须为数值型。

参数配置说明如下：

IO参数：

输入表名：用户读取数据的表名。

输出表名：用户输出结果保存的表名。

待操作列名：需要执行操作的列名，支持多列和单列输入，多列之间用英文逗号隔开，如：col1,col2,col3。

组件参数：

离散数量：特征数据被离散的数量，最小离散数量为2。

资源参数：

memory(g)：选择内存大小。

cpu：选择cpu数量。

6. One-hot编码

One-hot就是采用向量的形式表示一个特征。

参数配置说明如下：

IO参数：

输入表名：用户读取数据的表名。

输出表名：用户输出结果保存的表名。

列名配置：需要标准化的列的列名,支持多列和单列输入，多列之间用英文逗号隔开，如：col1,col2,col3。

资源参数：

memory(g)：选择内存大小。

cpu：选择cpu数量。

7. 数据变换

数据变换是通过以自然常数e为底的自然对数（log）、以自然常数e为底的指数函数（exp）对特征列的样本数据进行变换，选中的特征列必须为数值型。其中：

log：如果当前样本数据比较大，可以通过对数函数进行变换。

exp：如果当前样本数据比较小，可以通过指数函数进行变换。

参数配置说明如下：

IO参数：

输入表名：用户读取数据的表名。

输出表名：用户输出结果保存的表名。

待操作列名：需要执行操作的列名，支持多列和单列输入，多列之间用英文逗号隔开，如：col1,col2,col3。

组件参数：

选择方法：支持log和exp，说明如下：

log：如果当前样本数据比较大，可以通过对数函数 log 对特征列的样本数据进行变换。

exp：如果当前样本数据比较小，可以通过指数函数 exp 对特征列的样本数据进行变换。

资源参数：

memory(g)：选择内存大小。

cpu：选择cpu数量。

8. 删除列

删除列即删除数据集中指定的特征列。

参数配置说明如下：

IO参数：

读取表名：用户读取数据的表名。

存储表名：用户输出结果保存的表名。

待操作列名：请输入需要删除的列，仅支持单列操作。

资源参数：

memory(g)：选择内存大小。

cpu：选择cpu数量。

9. 保留列

特征操作支持选择并保留数据集中指定的特征列，删除其余特征列。

参数配置说明如下：

IO参数：

读取表名：用户读取数据的表名。

存储表名：用户输出结果保存的表名。

选择列：请输入需要保留的列。

资源参数：

memory(g)：选择内存大小。

cpu：选择cpu数量。

10. 新增特征

新增特征支持用户基于已有的特征列，按照样本数据行的维度，通过求和、求均值，构造出新的特征列。例如，两个特征列ID1（2,7,1）和特征列ID2（3,2,7），求和后构造出的特征列为ID_SUM（5,9,8）。

参数配置说明如下：

IO参数：

读取表名：用户读取数据的表名。

存储表名：用户输出结果保存的表名。

模型保存路径：用户输出结果保存的表名。

待操作列名：输入要进行操作的特征列名，最少两列。

组件参数：

添加列：输入要添加的新列名，仅支持单列操作，例：a。

添加方法：选择想使用的方法，有sum（求和）和mean（求均值）。

资源参数：

memory(g)：选择内存大小。

cpu：选择cpu数量。

11. PCA

PCA的实质就是在尽可能代表原特征的情况下，将原特征进行线性变换，寻找数据分布的最优子空间，从而达到降维、去相关的目的。支持两种主成分分析算法：

PCA：主成分分析。将数据集从高维投影到低维，从而用极少的几个特征来涵盖大部分的数据集信息。主成分分析认为，沿某特征分布的数据的方差越大，则该特征所包含的信息越多，也就是所谓的主成分。适用于线性可分的数据集。

KPCA：基于核函数的主成分分析。KPCA与PCA基本原理相同，只是需要先升维再进行投影，因为有些非线性可分的数据集只有在升维的视角下才线性可分。

参数配置说明如下：

IO参数：

读取表名：用户读取数据的表名。

存储表名：用户输出结果保存的表名。

标签列：请输入标签列，标签列不参与PCA。

组件参数：

k值：PCA降维数量。

资源参数：

memory(g)：选择内存大小。

cpu：选择cpu数量。

12. 卡方检验

卡方检验用于衡量实际值与理论值的差异程度，通过计算数据集的特征列和标签列之间的偏离程度（即卡方值）筛选出有价值的特征列。将卡方值由小到大排序，筛选出TopK的特征列。说明如下：

特征列与标签列之间的偏离程度越大，卡方值越大，说明特征列与标签列不符；

特征列与标签列之间的偏离程度越小，卡方值越小，说明特征列越接近于标签列；

如果特征列与标签列完全相等，卡方值为0，说明特征列与标签列完全符合。

参数配置说明如下：

IO参数：

读取表名：用户读取数据的表名。

存储表名：用户输出结果保存的表名。

标签列：请输入标签列，标签列不参与卡方。

组件参数：

K值：需要保留的特征数量。

资源参数：

memory(g)：选择内存大小。

cpu：选择cpu数量。

13. 数据类型转换

对data的某列数据类型进行转换。其中：

feature_name：用户指定的需要转换的列名，只支持单列输入，输入格式为：["a"]。

data_type：要转化成的数据数据类型,目前支持的转化类型包括：int64、float64、complex128、bool、str、datetime2timestamp、timestamp2datetime；

注意：int64、float64只适合原数据是数值型字符串，complex128只适合原数据是数值型数据，bool转换后非0数据全是true。

参数配置说明如下：

IO参数：

读取表名：用户读取数据的表名。

存储表名：用户输出结果保存的表名。

输入特征列：请输入需要做类型转换的列名，仅支持单列操作。

组件参数：

转换类型：选择需要转换成为的类型，有Int、String、Bool、Double、Float五种类型。

资源参数：

memory(g)：选择内存大小。

cpu：选择cpu数量。

回归

1. 决策树回归

回归决策树主要指CART(classification and regression tree)算法，内部结点特征的取值为“是”和“否”，为二叉树结构。回归树就是将特征空间划分成若干单元，每一个划分单元有一个特定的输出。对于测试数据，我们只要按照特征将其归到某个单元，便得到对应的输出值。

参数配置说明如下：

IO参数：

读取表名：用户读取数据的表名。

存储表名：用户输出结果保存的表名。

模型保存路径：输出模型的保存路径。

组件参数：

输入特征列：feature_name是参与分析的特征列名。例：a,b,c。

标签列：column_label是数据的标签列名，仅支持输入单列。例：'a'。

决策树最大深度：决策树最大深度，需根据样本数据量大小，选择合适的值。

叶子节点最少样本数：整数，它指定了每个叶子节点包含的最少样本数。

资源参数：

memory(g)：选择内存大小。

cpu：选择cpu数量。

2. SGD回归

随机梯度下降法即指：每次计算梯度时，只随机的选取一个样本来计算梯度,这样就大大的减小了计算的复杂度。SGD回归是指通过SGD的方法进行回归预测。

参数配置说明如下：

IO参数：

读取表名：用户读取数据的表名。

存储表名：用户输出结果保存的表名。

模型保存路径：输出模型的保存路径。

组件参数：

输入特征列：feature_name是参与分析的特征列名。例：a,b,c。

标签列：column_label是数据的标签列名，仅支持输入单列。例：'a'。

惩罚因子：正则化的选择，可选的有L1正则化和L2正则化，默认是L1正则化。

损失函数：支持squaredError和huber。

最大迭代次数：模型训练时迭代运算过程中循环的最大次数。

资源参数：

memory(g)：选择内存大小。

cpu：选择cpu数量。

3. 保序回归

保序回归是寻找一组非递减的片段连续线性函数，即保序函数，使其与样本尽可能的接近。

参数配置说明如下：

IO参数：

读取表名：用户读取数据的表名。

存储表名：用户输出结果保存的表名。

模型保存路径：输出模型的保存路径。

输入特征列：feature_name是参与分析的特征列名。例：a,b,c。

标签列：column_label是数据的标签列名，仅支持输入单列。例：'a'。

组件参数：

拟合方式：若选择True，则以y递增的方式拟合回归；若选择False，则以y递减的方式拟合回归。拟合方式默认是True。

资源参数：

memory(g)：选择内存大小。

cpu：选择cpu数量。

4. GBDT回归

参数配置说明如下：

IO参数：

读取表名：用户读取数据的表名。

存储表名：用户输出结果保存的表名。

模型保存路径：输出模型的保存路径。

输入特征列：feature_name是参与分析的特征列名。例：a,b,c。

标签列：column_label是数据的标签列名，仅支持输入单列。例：'a'。

组件参数：

决策树最大深度：决策树最大深度，需根据样本数据量大小，选择合适的值。

节点最小实例数：拆分后每个子节点必须拥有的最小实例数。

最大迭代次数：迭代运算过程中循环的最大次数。

决策树分数：用于学习每个决策树的训练数据的分数。

学习率：是决定着目标函数能否收敛到局部最小值以及何时收敛到最小值的一种重要参数。

最小信息增益：在树节点上考虑最小的分割信息增益。

资源参数：

memory(g)：选择内存大小。

cpu：选择cpu数量。

5. 随机森林回归

随机森林回归树与分类树的唯一不同的是不纯度的指标，即参数Criterion不一致。回归树的Criterion为mse和mae两种。其他的参数与分类树完全一致。

参数配置说明如下：

IO参数：

读取表名：用户读取数据的表名。

存储表名：用户输出结果保存的表名。

模型保存路径：输出模型的保存路径。

特征列：feature_name是参与分析的特征列名。例：a,b,c。

标签列：column_label是数据的标签列名，仅支持选择单列。例：a。

组件参数：

决策树最大深度：决策树最大深度，需根据样本数据量大小，选择合适的值。

子树数量：设置随机森林中的子树数量。较多的子树可以让模型有更好的性能，但运行速率会低。因此在处理器能够承受的基础上，需选择尽可能高的值。

最小信息增益：在树节点上考虑最小的分割信息增益。

决策分数：用于学习每个决策树的训练数据的分数。

叶子节点最小样本数：加权样本计数的最小分数。

资源参数：

memory(g)：选择内存大小。

cpu：选择cpu数量。

聚类

1. Kmeans聚类

kmeans算法又名k均值算法。其算法思想大致为：先从样本集中随机选取 k 个样本作为簇中心，并计算所有样本与这 k 个“簇中心”的距离，对于每一个样本，将其划分到与其距离最近的“簇中心”所在的簇中，对于新的簇计算各个簇的新的“簇中心”。

参数配置说明如下：

IO参数：

读取表名：用户读取数据的表名。

存储表名：用户输出结果保存的表名。

模型保存路径：输出模型的保存路径。

输入特征列：参与分析的特征列名。例：a,b,c。

组件参数：

聚类数量：聚类的类别数量。

最大迭代次数：模型训练时的最大迭代次数。

资源参数：

memory(g)：选择内存大小。

cpu：选择cpu数量。

2. GMM聚类

GMM是高斯混合模型（或者是混合高斯模型）通过样本找到K个高斯分布的期望和方差，那么K个高斯模型就确定了。在聚类的过程中，不会明确的指定一个样本属于哪一类，而是计算这个样本在某个分布中的可能性。

参数配置说明如下：

IO参数：

读取表名：用户读取数据的表名。

存储表名：用户输出结果保存的表名。

模型保存路径：模型输出路径。

输入特征列：feature_name是参与分析的特征列名。例：a,b,c。

组件参数：

混合高斯模型个数：GMM聚类的聚类个数。

最大迭代次数：模型训练时的最大迭代次数。

资源参数：

memory(g)：选择内存大小。

cpu：选择cpu数量。

异常检测

当前暂不支持异常检测。

预测

1. 预测

调用算法生成的模型进行预测，生成prediction预测值列。

参数配置说明如下：

IO参数

读取表名：用户读取数据的表名。

模型输入路径：输入hdfs中的模型所在路径。

存储表名：用户输出结果保存的表名。

资源参数

memory(g)：选择内存大小。

cpu：选择cpu数量。

机器学习

数据准备

1. 数据过滤

2. 数据修复

3. 数据联合

4. 数据连接

5. 数据去噪

6. 数据采样

7. 计算dataframe列特征参数

8. 数据集分割

9. 设置header

10. 列转行

11. 行转列

12. 数据字符化

特征工程

1. 重命名

2. 归一化

3. 标准化

4. 数值化

5. 离散化

6. One-hot编码

7. 数据变换

8. 删除列

9. 保留列

10. 新增特征

11. PCA

12. 卡方检验

13. 数据类型转换

分类

1. SVM分类

2. 随机森林分类

3. 逻辑回归分类

4. 朴素贝叶斯分类

5. GBDT分类

回归

1. 决策树回归

2. SGD回归

3. 保序回归

4. GBDT回归

5. 随机森林回归

聚类

1. Kmeans聚类

2. GMM聚类

异常检测

预测

1. 预测