好书推荐 好书速递 排行榜 读书文摘

大模型工程化:AI驱动下的数据体系

大模型工程化:AI驱动下的数据体系
作者:腾讯游戏数据团队 编著
出版社:人民邮电出版社
出版年:2025-03
ISBN:9787115659712
行业:其它
浏览数:1

内容简介

大模型在众多领域得到了广泛应用,促进了AI技术的整合和创新。然而,在实际应用过程中,直接将大模型应用于特定行业常常难以达到预期效果。本书详细阐述如何在游戏经营分析场景中利用大模型实现数据体系的建设。

本书分为6个部分,共16章。第1部分主要介绍大模型技术的发展与应用,从大模型的发展现状展开,重点介绍大模型与数据体系的相关知识。第2部分主要介绍大模型下的关键基础设施,涵盖湖仓一体引擎、湖仓的关键技术、实时数据写入和高效数据分析等内容。第3部分主要介绍大模型下的数据资产,围绕数据资产重塑、数据资产标准、数据资产建设、数据资产运营展开。第4部分主要介绍自研领域大模型的技术原理,涵盖领域大模型的基础、需求理解算法、需求匹配算法、需求转译算法等内容。第5部分主要介绍大模型的工程化原理,涉及工程化的基础、技术筹备、建设要点、安全策略等内容。第6部分介绍大模型在游戏领域的应用,通过游戏领域的经营分析案例,系统地阐述如何实现业务需求。

本书适合致力于大模型技术应用的数据工程师阅读,也适合寻求AI自动化编程解决方案的软件开发者阅读,还适合希望利用AI提升业务效率的企业决策者阅读。

......(更多)

作者简介

张凯,腾讯专家工程师,主要从事游戏的大数据分析工作。具有10多年的互联网从业经验,先后负责游戏安全对抗、反欺诈对抗、游戏大数据应用等项目。曾主编3本畅销图书,荣获异步社区“2023年度影响力作者奖”。

司书强,腾讯资深专家工程师,负责游戏业务的数据工程、数据分析等工作。在大数据技术工程、数据分析、商务智能、企业级数据治理等领域有10年以上的实践积累,主导并落地多个大型企业数据体系建设。

刘岩,腾讯资深专家工程师,前三一重工智能制造研究院院长。目前负责腾讯游戏AI驱动下的数据体系建设工作,曾负责全球“灯塔工厂”建设。在数据驱动业务、业务流程重构、数据智能应用等领域有20年以上的工作经验,主导和落地多个大型企业数字化转型项目。

张昱,腾讯资深工程师,主要从事游戏大模型、大数据应用等工作。具有10年大数据、数仓技术和数据分析领域从业经验,曾先后负责云产品研发、大数据治理、湖仓一体和大模型应用等项目。

戴诗峰,腾讯资深工程师,主要从事游戏的数据治理规划与架构工作。具有近20年的数据领域工作经验,参与多个领域大数据平台和数据治理的咨询与交付工作,擅长数据资产体系、数据资产持续运营、数据治理标准等方面的规划与设计。

谢思发,腾讯资深工程师,主要从事游戏行业的算法研究工作。具有8年以上的大数据搜索推荐实战经验,曾先后负责游戏用户画像建设、推荐系统建设及游戏知识图谱(游谱)系统的建设与应用。曾发表多篇学术论文和专利,在OGB挑战赛等国际赛事中获得佳绩。

李飞宏,腾讯专家工程师,主要从事游戏的大数据平台研发及治理工作。具有10多年的大数据行业从业经验,曾先后负责游戏大数据分析平台、游戏数据治理平台、游戏大数据应用等项目,主编并参与多个腾讯数据治理标准的编写工作。

......(更多)

目录

第1部分 大模型技术的发展与应用

第1章 大模型的发展现状 2

1.1 大模型的发展历程 2

1.2 大模型的市场规模 6

1.3 大模型技术的应用现状 8

1.3.1 通用大模型技术的应用 8

1.3.2 领域大模型技术的应用 10

1.4 小结 14

第2章 大模型与数据体系 15

2.1 业务对数据体系的需求 15

2.2 经典数据中台解决方案 19

2.2.1 技术平台 19

2.2.2 数据建模 21

2.2.3 数据治理 26

2.3 大模型带来的新机会 27

2.3.1 大模型的优势与不足 27

2.3.2 大模型与经典数据中台 30

2.3.3 大模型的新思路 32

2.4 全新的大模型解决方案 35

2.4.1 建设目标 35

2.4.2 关键技术 36

2.4.3 方案架构 37

2.5 小结 38

第2部分 大模型下的关键基础设施

第3章 大模型下的新基建 40

3.1 湖仓一体引擎 40

3.1.1 数据技术的发展 41

3.1.2 湖仓一体架构 47

3.2 DeltaLH湖仓的关键技术 51

3.2.1 存储计算分离 51

3.2.2 数据冷热分层 53

3.2.3 湖仓一体化 55

3.3 实时数据写入 57

3.3.1 实时数据链路 58

3.3.2 全链路监控 62

3.3.3 数据预构建 64

3.4 高效数据分析 67

3.4.1 查询引擎优化 67

3.4.2 物化透明加速 72

3.5 小结 74

第3部分 大模型下的数据资产

第4章 数据资产重塑 76

4.1 数据资产方案的现状 76

4.2 面临的核心挑战 80

4.2.1 缺失非结构化标准 80

4.2.2 建设和治理成本高 81

4.2.3 运营目标不一致 82

4.3 重塑数据资产的思路 83

4.4 小结 85

第5章 数据资产标准 86

5.1 需求资产标准 86

5.1.1 结构化需求 87

5.1.2 行业知识资产 87

5.1.3 AI可理解需求 89

5.2 特征资产标准 90

5.2.1 个人特征资产 90

5.2.2 公共特征资产 91

5.3 库表资产标准 92

5.3.1 粒度参数 93

5.3.2 热度参数 94

5.3.3 速度参数 95

5.4 小结 96

第6章 数据资产建设 97

6.1 AI助力资产初始化 98

6.1.1 特征资产初始化 99

6.1.2 库表资产初始化 100

6.2 AI辅助需求资产建设 101

6.2.1 结构化需求资产建设 101

6.2.2 行业知识资产建设 102

6.2.3 AI可理解的需求资产建设 106

6.3 AI辅助特征资产建设 109

6.3.1 个人特征资产建设 109

6.3.2 公共特征资产建设 112

6.4 AI辅助库表资产建设 113

6.4.1 成本模型训练 114

6.4.2 物化视图候选集生成 115

6.4.3 物化视图推荐 115

6.5 小结 116

第7章 数据资产运营 117

7.1 数据资产运营的目标 117

7.2 需求资产运营 118

7.2.1 需求质量评估模型 119

7.2.2 需求质量达标率 119

7.3 特征资产运营 120

7.3.1 公共特征转化率 121

7.3.2 特征资产复用率 122

7.4 库表资产运营 123

7.4.1 库表资产成本优化 123

7.4.2 库表资产覆盖率 125

7.5 小结 126

第4部分 自研领域大模型的技术原理

第8章 领域大模型的基础 128

8.1 领域大模型的背景 128

8.1.1 通用大模型的局限性 128

8.1.2 领域大模型的优势 130

8.2 领域大模型方案 131

8.2.1 3种构建方案 131

8.2.2 检索增强生成 132

8.2.3 参数高效微调 137

8.2.4 模型选型 143

8.3 领域大模型架构 144

8.4 小结 145

第9章 需求理解算法 146

9.1 从模糊需求到清晰需求 146

9.1.1 必要性 146

9.1.2 面临的挑战 148

9.2 常见的需求理解算法 148

9.2.1 传统Query理解算法 148

9.2.2 创新需求理解算法 149

9.3 需求理解算法的设计原理 150

9.3.1 构建业务知识库 151

9.3.2 构建需求理解链路 153

9.4 小结 155

第10章 需求匹配算法 156

10.1 从需求到资产 156

10.1.1 必要性 156

10.1.2 面临的挑战 158

10.1.3 解决方案 159

10.2 召回算法 161

10.2.1 资产图谱 161

10.2.2 文本召回 166

10.2.3 向量召回 171

10.2.4 意图召回 173

10.2.5 召回粗排 178

10.3 精排算法 179

10.3.1 数据生成 179

10.3.2 模型微调 182

10.3.3 多LoRA部署 184

10.4 小结 188

第11章 需求转译算法 189

11.1 从需求到查询 189

11.1.1 必要性 189

11.1.2 面临的问题 191

11.2 解决方案 191

11.2.1 传统的Text2SQL技术 191

11.2.2 创新的需求转译算法 192

11.3 实战原理 193

11.3.1 评测数据集 193

11.3.2 算法流程 195

11.4 小结 203

第5部分 大模型的工程化原理

第12章 工程化的基础 206

12.1 工程化的背景 206

12.1.1 工程化的定义 206

12.1.2 工程化的理念 207

12.2 工程化的核心 208

12.3 工程化的建设思路 210

12.3.1 业务流程 210

12.3.2 系统架构 211

12.4 小结 213

第13章 工程化的技术筹备 214

13.1 技术调研评估 214

13.2 大模型应用框架 216

13.2.1 核心层 217

13.2.2 社区组件层 218

13.2.3 应用层 220

13.2.4 技术生态层 221

13.3 提示词工程 221

13.3.1 少样本提示 222

13.3.2 链式思考提示 223

13.3.3 自调整提示 224

13.4 开发环境的准备过程 225

13.4.1 软件安装 225

13.4.2 依赖库安装 226

13.5 小结 227

第14章 工程化的建设要点 228

14.1 明确构建目标 229

14.1.1 功能性需求 229

14.1.2 非功能性需求 230

14.1.3 流程定义 230

14.2 核心功能的实现 233

14.2.1 模块化架构 233

14.2.2 安全管控 236

14.2.3 工具模型 239

14.2.4 人机协同 246

14.2.5 应用场景 257

14.3 运营质量的评估指标 259

14.3.1 回归评估指标 259

14.3.2 资产运营指标 261

14.4 小结 262

第15章 工程化的安全策略 263

15.1 安全体系建设要点 263

15.1.1 制度与流程 264

15.1.2 数据安全 264

15.1.3 运行安全 266

15.2 安全体系实施方案 268

15.2.1 数据分类分级方案 268

15.2.2 资产匿名化与脱敏方案 269

15.2.3 访问控制方案 270

15.2.4 监控告警方案 271

15.3 小结 272

第6部分 大模型在游戏领域的应用

第16章 游戏领域的应用案例 274

16.1 游戏经营分析的背景 274

16.2 智能助手系统架构 275

16.3 代码生成应用 277

16.4 探索分析应用 288

16.5 小结 291

......(更多)

读书文摘

......(更多)

猜你喜欢

点击查看