好书推荐 好书速递 排行榜 读书文摘

揭秘大模型:从原理到实战

揭秘大模型:从原理到实战
作者:文亮 / 江维
出版社:人民邮电出版社
出版年:2024-12
ISBN:9787115653352
行业:其它
浏览数:5

内容简介

本书从技术角度深度解析大模型的原理,从大模型的基础概念及领域发展现状入手,概述大模型的理论基础,介绍OpenAI GPT、清华大学GLM、Meta Llama等主流大模型的技术原理,并从大模型参数高效微调、大模型指令微调、大模型训练优化和大模型推理优化等多角度解析大模型背后的技术,带领读者全方位掌握大模型的原理和实践方法。本书最后介绍私有大模型的构建,手把手指导读者做技术选型并搭建自己的私有大模型。 本书适合人工智能领域有大模型开发需求或对大模型技术感兴趣的技术人员阅读,也适合普通用户扩展了解大模型的前沿应用。

......(更多)

作者简介

文亮

硕士毕业于电子科技大学,奇虎360智脑团队资深算法专家,参与过千亿参数级别大模型的训练与优化,拥有超过8年的人工智能模型优化经验,目前主要负责大模型后训练、COT优化以及通用技能优化等工作,著有《推荐系统技术原理与实践》一书。

江维

电子科技大学教授、博士生导师,主要研究可信人工智能、安全关键嵌入式系统、移动智能、大数据加速等领域,发表相关高水平论文100余篇。

......(更多)

目录

第1章 大模型简介 .................. 1

1.1 大模型初探 ......................................... 1

1.1.1 OpenAI大模型ChatGPT .............. 1

1.1.2 国内大模型—360智脑 .............. 8

1.2 大模型的概念 ..................................... 9

1.3 百花齐放—大模型发展现状 ............ 9

1.4 压缩即智能—为什么ChatGPT拥有智能 ................................................. 11

1.4.1 直观理解通用人工智能 ................ 12

1.4.2 如何实现无损压缩 ....................... 13

1.4.3 GPT是对数据的无损压缩 ........... 16

1.5 小结 ................................................. 19

1.6 参考文献 .......................................... 19

第2章 大模型理论基础 .......... 20

2.1 什么是语言模型 ............................... 20

2.2 传统语言模型 ................................... 21

2.2.1 循环神经网络(RNN) ............... 21

2.2.2 长短期记忆(LSTM)网络 .......... 22

2.2.3 门控循环单元(GRU) ............... 24

2.3 大模型基础结构—Transformer..... 25

2.3.1 Transformer的模型结构 ............. 25

2.3.2 Transformer输入表示 ................. 29

2.3.3 多头注意力 .................................. 30

2.3.4 编码器结构 .................................. 36

2.3.5 解码器结构 .................................. 40

2.3.6 Softmax输出 ............................... 44

2.4 Transformer应用实践—机器 翻译 ................................................. 46

2.4.1 葡萄牙文翻译为英文 ................... 46

2.4.2 英文翻译为中文 ........................... 51

2.5 小结 ................................................. 52

2.6 参考文献 .......................................... 53

第3章 OpenAI GPT系列大模型 ....................... 54

3.1 GPT发展历史— 从GPT-1到GPT-4 .......................... 54

3.2 GPT-1技术原理 ............................... 55

3.2.1 GPT-1的模型结构 ....................... 56

3.2.2 GPT-1应用实践—中文文本 分类 ............................................. 58

3.3 GPT-2技术原理 ............................... 63

3.3.1 GPT-2的模型结构 ....................... 64

3.3.2 GPT-2应用实践—文本分类和 文本生成 ..................................... 66

3.4 GPT-3技术原理 ............................... 69

3.4.1 GPT-3的模型结构 ....................... 70

3.4.2 GPT-3多项任务评估 ................... 71

3.5 横空出世—ChatGPT .................... 74

3.5.1 真正的通用人工智能— ChatGPT ..................................... 74

3.5.2 有监督微调 .................................. 75

3.5.3 训练奖励模型 .............................. 77

3.5.4 使用强化学习微调预训练 模型 ............................................. 78

3.5.5 ChatGPT应用 ............................. 79

3.6 GPT-4 .............................................. 80

3.6.1 GPT-4的涌现能力 ....................... 80

3.6.2 大模型预测扩展 ........................... 81

3.6.3 GPT-4性能分析 .......................... 82

3.6.4 GPT-4应用.................................. 84

3.7 小结 ................................................. 84

3.8 参考文献 .......................................... 84

第4章 清华大学通用预训练 模型—GLM ............. 86

4.1 GLM简介 ......................................... 87

4.2 GLM技术原理 .................................. 89

4.2.1 预训练目标 .................................. 91

4.2.2 GLM的模型结构 ......................... 92

4.2.3 微调GLM .................................... 93

4.2.4 效果评估 ..................................... 94

4.3 ChatGLM-6B全参数微调实践 ......... 94

4.3.1 环境搭建 ..................................... 95

4.3.2 全参数微调 .................................. 96

4.3.3 效果评估 ................................... 101

4.4 GLM-10B全参数微调实践 ............. 101

4.4.1 代码结构 ................................... 102

4.4.2 全参数微调 ................................ 103

4.4.3 效果评估 ................................... 108

4.5 小结 ................................................ 109

4.6 参考文献 ........................................ 109

第5章 Meta开源大模型 —Llama ............... 110

5.1 Llama简介 ..................................... 110

5.2 Llama技术原理.............................. 111

5.2.1 Llama预训练数据 ..................... 111

5.2.2 Llama的模型结构 ..................... 113

5.2.3 Llama优化器 ............................ 114

5.3 Llama改进版—Llama 2 ............. 114

5.3.1 Llama 2简介 ............................. 115

5.3.2 Llama 2预训练 ......................... 116

5.3.3 Llama 2有监督微调 .................. 118

5.3.4 基于人类反馈的强化学习 .......... 119

5.4 Llama 2应用实践 .......................... 121

5.4.1 Hugging Face玩转Llama 2 ..... 122

5.4.2 微调Llama 2 ............................. 122

5.5 小结 ............................................... 124

5.6 参考文献 ........................................ 124

第6章 大模型参数高效 微调 .........................125

6.1 LoRA—低秩矩阵分解 ................. 125

6.1.1 LoRA基本原理 .......................... 125

6.1.2 LoRA低秩矩阵初始化 ............... 127

6.1.3 LoRA开源实现 .......................... 127

6.2 谷歌参数高效微调— Adapter Tuning .............................. 128

6.3 斯坦福轻量级微调— Prefix-Tuning ................................. 129

6.4 谷歌微调方法— Prompt Tuning ............................... 130

6.5 清华大学参数微调— P-Tuning ........................................ 131

6.6 P-Tuning改进版— P-Tuning v2 ................................... 132

6.7 大模型参数高效微调实践 ............... 134

6.7.1 安装ChatGLM2-6B环境依赖 ........................................... 134

6.7.2 安装P-Tuning v2环境依赖 ........................................... 135

6.8 小结 ............................................... 136

6.9 参考文献 ........................................ 137

第7章 大模型指令微调 ........ 138

7.1 指令微调 ........................................ 138

7.2 指令微调和提示的异同 .................. 139

7.3 大模型思维链—优化模型 推理能力 ........................................ 139

7.3.1 思维链的开山之作— 思维链提示 ................................ 140

7.3.2 零样本提示思维链 ..................... 142

7.3.3 多数投票—自洽性 ................. 144

7.3.4 最少到最多提示过程 ................. 144

7.3.5 大模型微调 ................................ 146

7.3.6 微调思维链 ................................ 148

7.3.7 思维链的局限 ............................ 149

7.4 谷歌指令微调数据集—Flan 2022 ....................................... 150

7.5 小结 ............................................... 152

7.6 参考文献 ........................................ 152

第8章 大模型训练优化 ........ 153

8.1 稀疏Transformer ........................... 153

8.1.1 稀疏Transformer提出背景 ....... 154

8.1.2 稀疏Transformer实现原理 ....... 155

8.2 旋转位置编码 ................................. 159

8.2.1 传统位置编码—绝对位置 编码 ........................................... 160

8.2.2 二维旋转位置编码 ..................... 160

8.2.3 多维旋转位置编码 ..................... 161

8.2.4 旋转位置编码的高效计算 .......... 161

8.2.5 旋转位置编码的远程衰减 .......... 162

8.2.6 Llama和ChatGLM中的旋转位置编码实现 ................................... 164

8.2.7 旋转位置编码的外推性 .............. 167

8.3 大模型混合精度训练 ...................... 168

8.3.1 浮点数据类型 ............................ 168

8.3.2 使用FP16训练神经网络的 问题 ........................................... 169

8.3.3 混合精度训练相关技术 .............. 170

8.4 样本拼接 ........................................ 173

8.5 大模型并行训练 ............................. 175

8.6 小结 ................................................ 175

8.7 参考文献 ........................................ 176

第9章 大模型推理优化 ........ 177

9.1 大模型量化 ..................................... 177

9.1.1 量化的优势 ................................ 178

9.1.2 对称量化和非对称量化 .............. 178

9.2 大模型文本生成的解码策略 ........... 180

9.2.1 束搜索 ....................................... 182

9.2.2 top-k采样 .................................. 183

9.2.3 top-p采样 ................................. 184

9.2.4 温度采样 ................................... 186

9.2.5 联合采样 ................................... 187

9.3 小结 ................................................ 188

第10章 AIGC和大模型 结合 .................... 189

10.1 AIGC引来新一轮投资热 .............. 189

10.2 生成对抗网络 ............................... 191

10.2.1 生成对抗网络的模型结构 ........ 191

10.2.2 生成对抗网络的训练过程 ........ 193

10.2.3 生成对抗网络实战—生成 手写体数字图像 ....................... 194

10.3 AIGC主流模型—去噪扩散 概率模型 ...................................... 198

10.3.1 去噪扩散概率模型的原理 ........ 198

10.3.2 去噪扩散概率模型的训练 过程 ......................................... 200

10.3.3 去噪扩散概率模型实战—生成 手写体数字图像 ...................... 201

10.4 引入文字的去噪扩散概率模型...... 214

10.4.1 去噪扩散概率模型的文字生成 图像过程 ................................. 215

10.4.2 利用CLIP模型生成文本 向量 ......................................... 216

10.4.3 在U-Net模型中使用文本 向量 ......................................... 217

10.4.4 引入文字的去噪扩散概率模型的 训练过程 ................................. 218

10.5 去噪扩散概率模型改进版— Stable Diffusion ........................... 220

10.5.1 Stable Diffusion的文字生成图像过程 ................................. 221

10.5.2 Stable Diffusion前向扩散过程优化 ......................................... 221

10.5.3 Stable Diffusion反向去噪过程优化 ......................................... 222

10.5.4 Stable Diffusion的完整流程 ......................................... 224

10.5.5 Stable Diffusion应用场景 ....... 224

10.6 小结 ............................................. 226

10.7 参考文献 ...................................... 226

第11章 大模型和推荐系统结合 ..................... 228

11.1 大模型和推荐系统的异同 ............. 228

11.2 大模型和推荐系统的3种不同结合方法 ............................................. 229

11.2.1 基于大模型构建特征 ............... 229

11.2.2 基于大模型建模行为序列 ........ 230

11.2.3 基于行为序列微调大模型 ........ 231

11.3 大模型和推荐系统的结合效果 ...... 232

11.3.1 两阶段模式 .............................. 232

11.3.2 端到端模式 .............................. 233

11.3.3 预训练+两阶段/端到端模式 ..... 233

11.3.4 预训练+两阶段/端到端+ID特征模式 ......................................... 234

11.4 小结 .............................................. 235

11.5 参考文献 ...................................... 235

第12章 构建私有大模型 .... 236

12.1 大模型百花齐放 ........................... 236

12.2 选择基座模型 ............................... 238

12.3 环境安装 ...................................... 238

12.4 模型加载 ...................................... 239

12.4.1 代码调用 ................................. 239

12.4.2 网页版示例 .............................. 240

12.4.3 命令行示例 .............................. 241

12.5 低成本部署 ................................... 242

12.5.1 模型量化 ................................. 242

12.5.2 CPU部署 ................................ 242

12.5.3 Mac部署 ................................. 242

12.5.4 多卡部署 ................................. 242

12.6 构建自己的私有大模型 ................ 243

12.6.1 数据准备 ................................. 244

12.6.2 有监督微调 .............................. 244

12.6.3 部署私有大模型 ....................... 248

12.6.4 灾难性遗忘问题 ....................... 249

12.6.5 程序思维提示—解决复杂数值推理 ......................................... 252

12.7 小结 .............................................. 258

12.8 参考文献 ...................................... 258

......(更多)

读书文摘

......(更多)

猜你喜欢

点击查看