聊聊基于Alink库的特征工程方法

时间：2023-12-14

导读：独热编码.OneHotEncoder 是用于将类别型特征转换为独热编码的类。独热编码是一种常用的特征编码方式，特别适用于处理类别型特征，将其转换为数值型特征。.对于每个类别型特征，OneHotEncoder 将其编码成一个长度为类别数量的向量。.每个类别对应一个维度，如果样本的该

独热编码

OneHotEncoder 是用于将类别型特征转换为独热编码的类。独热编码是一种常用的特征编码方式，特别适用于处理类别型特征，将其转换为数值型特征。
对于每个类别型特征，OneHotEncoder 将其编码成一个长度为类别数量的向量。
每个类别对应一个维度，如果样本的该特征值为该类别，则对应维度置1，其他维度置0。

示例：

List <Row> df = Arrays.asList(
        Row.of("a", 1),
        Row.of("b", 1),
        Row.of("c", 1),
        Row.of("e", 2),
        Row.of("a", 2),
        Row.of("b", 1),
        Row.of("c", 2),
        Row.of("d", 2),
        Row.of(null, 1)
);
BatchOperator <?> inOp = new MemSourceBatchOp(df, "query string, weight int");
OneHotEncoder one_hot = new OneHotEncoder().setSelectedCols("query").setEncode(Encode.VECTOR);
// 或者单独设置输出列
// OneHotEncoder one_hot = new OneHotEncoder().setSelectedCols("query").setOutputCols("output");
one_hot.fit(inOp).transform(inOp).print();

输出结果如下所示：

query	weight
\(5\)0:1.0	1
\(5\)1:1.0	1
\(5\)2:1.0	1
\(5\)	2
\(5\)0:1.0	2
\(5\)1:1.0	1
\(5\)2:1.0	2
\(5\)3:1.0	2
\(5\)4:1.0	1

向量聚合

VectorAssembler 是用于将多列特征合并为单列特征向量的类。它将多个特征列的值合并为一个特征向量，通常用于特征工程的最后阶段，以准备机器学习模型的输入特征。
对于每个样本，VectorAssembler 将选定的特征列的值合并成一个特征向量。特征向量的维度等于选定的特征列数，每个维度对应一个特征列的值。

合并的特征列仅支持数值类型。

示例：

List <Row> df = Arrays.asList(
        Row.of("0", "$6$1:2.0 2:3.0 5:4.3", "3.0 2.0 3.0"),
        Row.of("1", "$8$1:2.0 2:3.0 7:4.3", "3.0 2.0 3.0"),
        Row.of("2", "$8$1:2.0 2:3.0 7:4.3", "2.0 3.0 2.2")
);
MemSourceBatchOp data = new MemSourceBatchOp(df, "id string, c0 string, c1 string");
VectorAssembler res = new VectorAssembler()
        .setSelectedCols("c0", "c1")
        .setOutputCol("table2vec");
res.transform(data).print();

输出结果如下所示：

id	c0	c1	table2vec
0	\(6\)1:2.0 2:3.0 5:4.3	3.0 2.0 3.0	\(9\)1:2.0 2:3.0 … 8:3.0
1	\(8\)1:2.0 2:3.0 7:4.3	3.0 2.0 3.0	\(11\)1:2.0 2:3.0 … 10:3.0
2	\(8\)1:2.0 2:3.0 7:4.3	2.0 3.0 2.2	\(11\)1:2.0 2:3.0 … 10:2.2

特征哈希

FeatureHasher 是用于将多列特征进行哈希映射，将特征合并成特征向量的类。
对于每个样本，将选定的特征列的值进行哈希映射，得到特征向量的维度。每个特征列的值经过哈希函数映射到特征向量的对应维度，形成一个特征向量。
这种方式可以降低特征维度，减少内存和计算资源的消耗，尤其适用于高维稀疏特征。

不限于数值类型的数据

示例：

List<Row> df1 = Arrays.asList(
        Row.of(1.1, true, 2, "A"),
        Row.of(1.1, false, 2, "B"),
        Row.of(1.1, true, 1, "B"),
        Row.of(2.2, true, 1, "A")
);
BatchOperator <?> inOp = new MemSourceBatchOp(df1, "double double, bool boolean, number int, str string");
FeatureHasher binarizer = new FeatureHasher().setSelectedCols("double", "bool", "number", "str").setOutputCol("output").setNumFeatures(3);

输出结果如下所示：

double	bool	number	str	output
1.1000	true	2	A	\(3\)0:3.0 1:1.1 2:1.0
1.1000	false	2	B	\(3\)0:3.0 1:1.1 2:1.0
1.1000	true	1	B	\(3\)0:2.0 1:1.1 2:1.0
2.2000	true	1	A	\(3\)0:2.0 1:2.2 2:1.0

文本特征生成

DocCountVectorizer 用于将文本数据转换为文本特征向量。它主要适用于文本数据的特征抽取和处理，以便进一步用于机器学习模型的训练和预测。主要用于自然语言处理（NLP）任务，如文本分类、情感分析、主题建模等。

特征抽取过程：

对于每个文本数据，DocCountVectorizer 统计每个词汇在文本中的出现次数，作为特征向量的值。
每个文本对应一个特征向量，特征向量的维度为词汇表的大小。

Alink库封装的DocCountVectorizer支持生成多种类型的特征向量，支持IDF/WORD_COUNT/TF_IDF/Binary/TF。默认是WORD_COUNT特征类型，即单词出现的频率。

示例：

List <Row> df = Arrays.asList(
        Row.of(0, "二手旧书:医学电磁成像"),
        Row.of(1, "二手美国文学选读（ 下册 ）李宜燮南开大学出版社 9787310003969"),
        Row.of(2, "二手正版图解象棋入门/谢恩思主编/华龄出版社"),
        Row.of(3, "二手中国糖尿病文献索引"),
        Row.of(4, "二手郁达夫文集（ 国内版 ）全十二册馆藏书")
);
BatchOperator <?> inOp = new MemSourceBatchOp(df, "id int, text string");
Pipeline pipeline = new Pipeline()
        .add(new Segment().setSelectedCol("text")) // 分词
        .add(new DocCountVectorizer().setFeatureType("TF_IDF").setSelectedCol("text").setOutputCol("vec"));
pipeline.fit(inOp).transform(inOp).print();

输出结果如下所示：

id	text	vec
0	二手旧书 : 医学电磁成像	\(37\)10:0.1831020481113516 14:0.1831020481113516 … 34:0.1831020481113516
1	二手美国文学选读（下册）李宜燮南开大学出版社 9787310003969	\(37\)0:0.04077336356234972 1:0.04077336356234972 … 35:0.06462425227459469
2	二手正版图解象棋入门 / 谢恩思主编 / 华龄出版社	\(37\)5:0.0915510240556758 6:0.0915510240556758 … 36:0.1831020481113516
3	二手中国糖尿病文献索引	\(37\)8:0.21972245773362198 9:0.21972245773362198 … 32:0.21972245773362198
4	二手郁达夫文集（国内版）全十二册馆藏书	\(37\)0:0.046209812037329684 1:0.046209812037329684 … 30:0.07324081924454065

文本哈希特征生成

DocHashCountVectorizer 将文本数据中的每个词汇通过哈希函数映射到特征向量的维度，得到特征向量。
特征向量的维度由用户设置的参数 numFeatures 决定，通常较小以减少维度。

示例：

List <Row> df = Arrays.asList(
        Row.of(0, "二手旧书:医学电磁成像"),
        Row.of(1, "二手美国文学选读（ 下册 ）李宜燮南开大学出版社 9787310003969"),
        Row.of(2, "二手正版图解象棋入门/谢恩思主编/华龄出版社"),
        Row.of(3, "二手中国糖尿病文献索引"),
        Row.of(4, "二手郁达夫文集（ 国内版 ）全十二册馆藏书")
);
BatchOperator <?> inOp = new MemSourceBatchOp(df, "id int, text string");
Pipeline pipeline = new Pipeline()
        .add(new Segment().setSelectedCol("text"))
        .add(new DocHashCountVectorizer().setFeatureType("TF_IDF").setSelectedCol("text").setOutputCol("vec").setNumFeatures(3));
pipeline.fit(inOp).transform(inOp).print();

输出结果如下所示：

id	text	vec
0	二手旧书 : 医学电磁成像	\(3\)0:-0.7331685343967134 1:-0.5207269374140805
1	二手美国文学选读（下册）李宜燮南开大学出版社 9787310003969	\(3\)0:-0.776296095243579 1:-0.24504797054780258 2:-0.21559781926450705
2	二手正版图解象棋入门 / 谢恩思主编 / 华龄出版社	\(3\)0:-0.7331685343967134 1:-0.17357564580469348 2:-0.30543024395805163
3	二手中国糖尿病文献索引	\(3\)0:-0.2932674137586854 1:-0.4165815499312644 2:-0.366516292749662
4	二手郁达夫文集（国内版）全十二册馆藏书	\(3\)0:-0.5865348275173707 1:-0.34715129160938696 2:-0.24434419516644132

Word2Vec

Word2Vec是Google在2013年开源的一个将词表转为向量的算法，其利用神经网络，可以通过训练，将词映射到K维度空间向量，它主要用于将单词表示成高维空间中的向量，以便能够在计算机上更好地处理自然语言文本。Word2Vec 提供了一种有效的方式来捕获单词之间的语义关系，这对于自然语言处理任务非常有用。

Word2Vec有两种主要模型：Skip-gram和Continuous Bag of Words (CBOW)。
Skip-gram模型是预测上下文单词，而CBOW模型是预测中心单词。

示例：

List <Row> df = Arrays.asList(
        Row.of("A B C")
);
BatchOperator <?> inOp = new MemSourceBatchOp(df, "tokens string");
Word2Vec word2vec = new Word2Vec().setSelectedCol("tokens").setMinCount(1).setVectorSize(2).setOutputCol("vec");
word2vec.fit(inOp).transform(inOp).print();

输出结果如下所示：

tokens	vec
A B C	0.7309789158041142 0.40841706187852966

我的博客即将同步至腾讯云开发者社区，邀请大家一同入驻：https://cloud.tencent.com/developer/support- plan?invite_code=11e2afjwefnzt

上一篇：何时使用GraphQL、gRPC

下一篇：MFAN论文阅读笔记（待复现）

阅读

内容

***性能优化和调整服务
2023-12-31

***性能优化和调整服务.***性能优化和调整服务是指针对服务器的硬件和软件进行调整和优化，以提高其运行效率和稳定性的服
科技创新孵化器服务
2023-12-16

科技创新孵化器服务.科技创新孵化器是指为初创科技企业提供办公、技术、**和资金服务的机构，而科技创新孵化器服务则是指这些
***迁移与升级解决方案
2024-01-05

***迁移与升级解决方案.随着业务的不断扩大和发展，很多企业逐渐意识到原有的***已经不能满足日益增长的需求，因此需要进
虚拟现实技术开发
2024-01-15

虚拟现实技术开发.虚拟现实技术已经成为了当今科技行业的热门话题，它的发展日益迅猛，给人们的生活和工作带来了巨大的变革。在
全球电子元件市场趋势分析
2023-12-31

全球电子元件市场趋势分析.近年来，全球电子元件市场呈现出不断增长的趋势。随着科技的不断发展和智能设备的普及，电子元件市场
电子元件质量检测与认证服务
2024-01-05

电子元件质量检测与认证服务.为什么需要电子元件质量检测与认证服务？.随着电子产业的不断发展，电子元件在各个生产领域都起着
***虚拟化技术咨询服务
2023-12-21

***虚拟化技术咨询服务.在当今数字化时代，***虚拟化技术越来越受到企业和个人用户的青睐。虚拟化技术通过将物理***划
高性能电子元件**
2024-01-10

高性能电子元件**.随着科技的不断进步，电子行业的发展日新月异。高性能电子元件作为电子产品的关键组成部分，对于产品的性能
定制化电子元件解决方案
2024-01-15

定制化电子元件解决方案.在现代科技发展迅速的时代，电子元件的需求日益增加，同时对于定制化的需求也在不断提升。定制化电子元
***安全加固与防护方案
2024-01-10

***安全加固与防护方案.随着互联网的快速发展，***安全问题日益凸显。一旦***遭受攻击，可能导致数据泄露、服务中断甚