好书推荐 好书速递 排行榜 读书文摘

特征工程入门与实践

特征工程入门与实践
作者:Sinan Ozdemir / Divya Susarla
译者:庄嘉盛
出版社:人民邮电出版社
出版年:2019-05
ISBN:9787115511645
行业:其它
浏览数:8

内容简介

特征工程是数据科学和机器学习流水线上的重要一环,包括识别、清洗、构建和发掘数据的特征,为进一步解释数据并进行预测性分析做准备。

本书囊括了特征工程的全流程,从数据检查到可视化,再到转换和进一步处理等,并给出了大量数学工具,帮助读者掌握如何将数据处理、转换成适当的形式,以便送入计算机和机器学习流水线中进行处理。后半部分的特征工程实践用Python作为示例语言,循序渐进,通俗易懂。

• 识别和利用不同类型的特征

• 清洗数据中的特征,提升预测能力

• 为何、如何进行特征选择和模型误差分析

• 利用领域知识构建新特征

• 基于数学知识交付特征

• 使用机器学习算法构建特征

• 掌握特征工程与特征优化

• 在现实应用中利用特征工程

......(更多)

作者简介

Sinan Ozdemir,数据科学家、数学家、约翰·霍普金斯大学讲师,Kylie.ai 公司联合创始人、CTO,在应用数据挖掘、功能分析和算法开发做出基于数据和知识的决策方面拥有丰富的经验。

Divya Susarla,在利用数据方面经验丰富,在包括投资管理、社会企业咨询和红酒营销的各个产业和领域里实现并应用过相应的策略。Kylie.ai 公司产品经理,目前专注于自然语言处理和生成技术。

......(更多)

目录

前言

第1章 特征工程简介  1

1.1 激动人心的例子:AI驱动的聊天 1

1.2 特征工程的重要性 2

1.3 特征工程是什么 5

1.4 机器学习算法和特征工程的评估 9

1.5 特征理解:我的数据集里有什么 12

1.6 特征增强:清洗数据 13

1.7 特征选择:对坏属性说不 14

1.8 特征构建:能生成新特征吗 14

1.9 特征转换:数学显神通 15

1.10 特征学习:以AI促AI 16

1.11 小结 17

第2章 特征理解:我的数据集里有什么 19

2.1 数据结构的有无 19

2.2 定量数据和定性数据 20

2.3 数据的4个等级 25

2.4 数据等级总结 38

2.5 小结 40

第3章 特征增强:清洗数据 41

3.1 识别数据中的缺失值 41

3.2 处理数据集中的缺失值 48

3.3 标准化和归一化 61

3.4 小结 70

第4章 特征构建:我能生成新特征吗 71

4.2 填充分类特征 72

4.3 编码分类变量 77

4.4 扩展数值特征 83

4.5 针对文本的特征构建 89

4.6 小结 97

第5章 特征选择:对坏属性说不 98

5.1 在特征工程中实现更好的性能 99

5.2 创建基准机器学习流水线 103

5.3 特征选择的类型 106

5.4 选用正确的特征选择方法 125

5.5 小结 125

第6章 特征转换:数学显神通 127

6.1 维度缩减:特征转换、特征选择与特征构建 129

6.2 主成分分析 130

6.3 线性判别分析 148

6.4 LDA与PCA:使用鸢尾花数据集 157

6.5 小结 160

第7章 特征学习:以AI促AI 161

7.1 数据的参数假设 161

7.2 受限玻尔兹曼机 163

7.3 伯努利受限玻尔兹曼机 169

7.4 在机器学习流水线中应用RBM

7.5 学习文本特征:词向量 180

7.6 小结 190

第8章 案例分析 191

8.1 案例1:面部识别 191

8.2 案例2:预测酒店评论数据的主题 200

8.3 小结 210

......(更多)

读书文摘

尝试在Spark上引入一些数据可视化包,将一些典型的分析图表进行呈现。 #python import matplotlib.pyplot import seaborn 直方图、热力图

特征理解:学习如何识别定量数据和定性数据。 特征增强:清洗和填充缺失值,最大化数据集的价值。 特征选择:通过统计方法选择一部分特征,以减少数据噪声。特征构建:构建新的特征,探索特征间的联系。 特征转换:提取数据中的隐藏结构,用数学方法转换数据集、增强效果。 特征学习:利用深度学习的力量,以全新的视角看待数据,从而揭示新的问题,并予以解决。

......(更多)

猜你喜欢

点击查看