《多模态大模型：算法、应用与微调》 - 台灣·大書城 - 刘兆峰 - 机械工业出版社

	登入帳戶　 \|　訂單查詢　 \|　購物車/收銀台(0)　\|　在線留言板　 \|　付款方式　 \|　聯絡我們　 \|　運費計算　 \|　幫助中心　\|　加入書簽
		會員登入新用戶註冊

HOME

新書上架

暢銷書架

好書推介

2024年度TOP

香港／國際用戶

最新/最熱/最齊全的簡體書網

品種：超過100萬種書，正品正价，放心網購，悭钱省心

送貨：速遞 / 物流，時效：出貨後2-4日

『簡體書』多模态大模型：算法、应用与微调

書城自編碼： 3999270
分類：簡體書→大陸圖書→計算機/網絡→人工智能
作者：刘兆峰
國際書號(ISBN)： 9787111754886
出版社：机械工业出版社
出版日期： 2024-06-01

頁數/字數： /
書度/開本： 16开釘裝：平装

售價：NT$ 607

我要買件

** 我創建的書架 **
未登入.

新書推薦：

《医隐：伤寒易玄（最新版）》
售價：NT$ 374.0

《大自然中的美食（全5册）（帮助宝宝通过最熟悉的食物接触自然，引导孩子善待食物，敬畏自然）》
售價：NT$ 500.0

《东南亚的贸易时代：1450-1680年（第一卷）（120年珍藏本）》
售價：NT$ 663.0

《海错图笔记套装（博物君考证141幅原图）》
售價：NT$ 1193.0

《概率：人生的指南》
售價：NT$ 383.0

《南社大辞典》
售價：NT$ 2030.0

《清晨高效能+掌控清晨（2册）晨型精英都在用的时间管理术中小学课外阅读》
售價：NT$ 469.0

《睡虎地秦墓竹简汇释今译（语言服务书系·出土战国文献汇释今译丛书）》
售價：NT$ 2030.0

建議一齊購買：

NT$ 602
《机器学习算法在食品科学中的应用》

NT$ 500
《计算社会科学：原则与应用（原书第二版）智能计算译丛》

NT$ 414
《智能硬件项目教程——基于ESP32 》

NT$ 270
《名师讲科技前沿系列--图解芯片技术》

NT$ 254
《未来可期：与人工智能同行（写给渴望了解未来趋势的人：多维度解析人工智能发展态势，助你在未来世界定位自己，成为AI时代的领跑者）》

NT$ 894
《神经网络与深度学习》

編輯推薦：

（1）内容权威：作者为一线的LLM研究及实践者，本书受到多位研究专家、科技公司管理者的好评及推荐。全面覆盖了多模态大模型的算法原理和应用实战，从基础到高级，涵盖Transformer、GPT系列、深度生成模型等前沿技术，详尽介绍了预训练模型、分布式训练等重要内容。
（2）质量可靠：书中包含丰富的项目案例。通过具体实战项目，如Stable Diffusion进行图像生成和Code Llama进行代码生成，展示了大模型的实际部署和优化过程，并强调了微调技术的细节，确保读者能够在实际操作中有效应用所学知识。
（3）收获切实：通过阅读本书，你将：1）深入了解多模态大模型的架构、原理及应用；2）掌握大模型的实际部署和优化技巧；3）获得详细的微调技术指导，提升在深度学习模型领域的实战能力和职业竞争力。

內容簡介：

本书详尽地覆盖了多模态大模型的算法原理和应用实战，提供了丰富的微调技术细节和实际案例，适合对多模态大模型有兴趣的技术人员深入学习及应用。
本书分为两篇：
算法原理篇详细介绍了先进的深度学习模型，包括Transformer、GPT系列、深度生成模型，从基本架构、训练方法到特定应用，包括但不限于Seq2Seq结构、位置编码、注意力机制、残差连接、变分自编码器、GAN、ViT、CLIP、Stable Diffusion、各模型训练实践的知识点。此外，探讨了预训练模型的涌现能力、模型参数和通信数据量的估算，以及分布式训练的各种技术，如数据并行、模型并行和混合精度训练等。
应用实战篇聚焦于深度学习模型的实际应用，特别是文本和图像生成，以及代码生成的应用实战。通过具体实战项目，如利用Stable Diffusion进行图像生成和Code Llama进行代码生成，提供了微调技术的详细细节，介绍了LangChain等大模型应用框架。

關於作者：

刘兆峰
中国电信多模态算法工程师，基于多模态大模型提升长尾业务能力。天津科技大学人工智能专业硕士研究生。曾在京东科技担任算法工程师，从事京东白条申请评分卡开发。后加入创业公司，从事大规模预训练语言模型的分布式微调和AIGC相关衍生产品的系统开发，对LLM的训练和推理有深厚的理论基础和实战经验。
现主要研究方向为多模态大模型与Agent以及AGI系统研究，聚焦于多模态大模型的行业场景落地。工作期间技术成果丰硕，发表多篇论文，有多个软件著作权。

目　　录
前言
第一篇　算法原理
第1章　Transformer模型　2
1.1　Seq2Seq结构　2
1.1.1　分词器　2
1.1.2　编码器–解码器结构　6
1.1.3　注意力机制　9
1.1.4　实战：日期转换　13
1.2　Transformer模型介绍　18
1.2.1　位置编码　18
1.2.2　模型架构　24
1.2.3　标准化和残差连接　32
1.2.4　线性层和softmax层　36
1.2.5　损失函数　36
1.2.6　实战：日期转换　37
1.2.7　小结　45
1.3　ViT模型介绍　46
1.3.1　注意力机制在图像上的
应用　47
1.3.2　ViT模型架构　48
1.3.3　大数据预训练　50
1.3.4　ViT模型训练实践　52
1.4　本章总结　54
第2章　GPT系列模型　55
2.1　GPT-1　55
2.1.1　语言模型　56
2.1.2　训练框架　56
2.1.3　模型效果分析　62
2.2　GPT-2　63
2.2.1　模型架构分析　64
2.2.2　构造训练数据集　65
2.2.3　模型效果分析　65
2.3　GPT-3　66
2.3.1　上下文学习　67
2.3.2　构造训练数据集　67
2.3.3　训练停止判定　69
2.3.4　重要潜力　69
2.4　GPT-3.5　70
2.4.1　代码生成模型Codex　71
2.4.2　强化学习　76
2.4.3　ChatGPT的“孪生兄弟”：InstructGPT　85
2.4.4　RLAIF　96
2.5　GPT-4　97
2.5.1　GPT-4的非凡表现　98
2.5.2　基于规则的奖励模型　99
2.5.3　多模态架构　101
2.5.4　训练流程　103
2.5.5　局限性　104
2.6　语言模型的未来　104
2.6.1　自我学习与自我核实　105
2.6.2　稀疏专家模型　106
2.7　GPT系列的其他应用　107
2.7.1　MiniGPT-4　107
2.7.2　minGPT与nanoGPT　108
2.7.3　AutoGPT与AgentGPT　109
2.8　本章总结　109
第3章　深度生成模型　111
3.1　从自编码器到变分自编码器　111
3.1.1　自编码器　111
3.1.2　变分自编码器　116
3.2　生成对抗网络　119
3.2.1　网络架构　119
3.2.2　算法描述　120
3.2.3　实战：手写数字图像
生成　122
3.2.4　衍生应用　125
3.3　文本与图像的桥梁：CLIP　129
3.3.1　介绍　129
3.3.2　训练与推理　129
3.3.3　实战：图像文本匹配　132
3.3.4　CLIP的局限性　134
3.4　稳定扩散模型：Stable Diffusion　135
3.4.1　基本组件　135
3.4.2　扩散原理　136
3.4.3　数据集构建　139
3.4.4　流程梳理　141
3.4.5　实战：图像生成　144
3.4.6　Stable Diffusion升级　147
3.5　本章总结　148
第4章　预训练模型　150
4.1　大模型的涌现能力　151
4.1.1　缩放法则　151
4.1.2　涌现能力　152
4.2　模型参数量估算　153
4.3　通信数据量分析　155
4.3.1　点对点通信　156
4.3.2　集群通信　157
4.4　分布式训练　161
4.4.1　基本概念　161
4.4.2　数据并行　163
4.4.3　模型并行　171
4.4.4　混合并行　177
4.4.5　混合精度训练　178
4.5　DeepSpeed　180
4.5.1　ZeRO　181
4.5.2　ZeRO-Offload　185
4.5.3　ZeRO-Infinity　189
4.6　模型即服务平台　190
4.6.1　ModelScope　191
4.6.2　Hugging Face　192
4.7　本章总结　196
第二篇　应用实战
第5章　文本生成应用实战：利用ChatPDF与文件对话　198
5.1　大模型的落地应用　198
5.1.1　外部增强：领域工具
增强　200
5.1.2　提示词工程　201
5.1.3　模型微调　207
5.2　GLM系列模型　207
5.2.1　GLM与GLM-130B　209
5.2.2　ChatGLM、ChatGLM-6B
和ChatGLM2-6B　211
5.2.3　ChatGLM与ChatGPT的
区别　212
5.3　参数高效微调　213
5.3.1　Adapter Tuning　213
5.3.2　Prompt Tuning　214
5.3.3　Prefix-Tuning　215
5.3.4　P-Tuning　218
5.3.5　P-Tuning v2　219
5.3.6　ChatGLM2-6B的
P-Tuning v2微调　220
5.4　大语言模型应用框架：
LangChain　222
5.4.1　快速开始　223
5.4.2　基本概念　226
5.5　ChatGLM金融大模型挑战赛　232
5.5.1　任务目标　232
5.5.2　环境准备：SQLite　234
5.5.3　问题分析　235
5.5.4　NL2SQL　245
5.5.5　DocTree　261
5.5.6　集成　271
5.6　本章总结　275
第6章　文本生成算法实战：DeepSpeed-Chat　276
6.1　ZeRO 　276
6.1.1　权重量化　277
6.1.2　分层切片　278
6.1.3　梯度量化　278
6.1.4　ZeRO 与DeepSpeed-Chat结合　279
6.2　DeepSpeed-Chat快速开始　280
6.3　DeepSpeed-Chat的RLHF训练　281
6.3.1　数据收集与整理　282
6.3.2　有监督微调　284
6.3.3　奖励模型微调　287
6.3.4　RLHF微调　288
6.3.5　模型部署与测试　290
6.4　DeepSpeed混合引擎　290
6.5　本章总结　291
第7章　图像生成算法实战：Stable Diffusion微调　293
7.1　LoRA参数高效微调技术　293
7.1.1　奇异值分解　294
7.1.2　LoRA详解　295
7.2　用于Diffusers的LoRA微调　297
7.2.1　数据收集　297
7.2.2　训练参数配置　300
7.2.3　模型训练与测试　300
7.3　Stable Diffusion WebUI　302
7.3.1　安装　304
7.3.2　模型介绍　304
7.3.3　参数介绍　307
7.3.4　其他应用　310
7.4　可控扩散模型：ControlNet　313
7.4.1　原理介绍　314
7.4.2　安装插件并使用　316
7.5　本章总结　321
第8章　代码生成算法实战：
Code Llama微调　322
8.1　任务介绍　322
8.1.1　代码生成模型的应用
场景　323
8.1.2　相关模型介绍　327
8.1.3　常用代码数据集　331
8.2　Llama 2　336
8.2.1　模型介绍　336
8.2.2　预训练　336
8.2.3　有监督微调　337
8.2.4　奖励模型训练　338
8.2.5　迭代微调　339
8.2.6　多轮对话一致性　339
8.3　算法竞赛大语言模型　340
8.3.1　数据获取　340
8.3.2　数据清洗　348
8.3.3　text-dedup　351
8.3.4　模型训练　353
8.4　本章总结　358
第9章　综合应用实战：构建“漫画家”生成多模态漫画　360
9.1　应用介绍　361
9.1.1　需求分析　361
9.1.2　功能设计　363
9.2　功能实现选型　365
9.2.1　相关AI模型　365
9.2.2　后端技术栈　372
9.2.3　小结　377
9.3　相关模型部署　378
9.3.1　Stable Diffusion WebUI
部署　378
9.3.2　语音识别模型：Whisper　381
9.3.3　语音合成模型：
Sambert-Hifigan　383
9.4　后端应用搭建　386
9.4.1　创建项目　387
9.4.2　配置应用　388
9.4.3　基本功能开发　390
9.5　本章总结　403

內容試閱：

前　　言
为什么要写这本书
几年前，当我还是一名本科生时，就对自然语言处理（NLP）世界充满了好奇，那时技术领域的主流还是LSTM（长短期记忆网络），Transformer刚刚崭露头角。然而，随着时间的推移，如今发生了巨大的变化—大模型技术飞速发展，尤其是Transformer及其衍生技术已经成为AI领域的重要推动力。
我写这本书，是想分享我的学习和探索之旅。从LSTM到Transformer，再到GPT（生成式预训练Transformer模型）系列和深度生成模型，这一路上，我既是学习者也是实践者。我深刻地感受到，随着技术的演进，学习者面临的挑战也在不断增加。信息的爆炸式增长使知识更新变得越来越困难，而理论与实践之间的差距也在扩大。这些问题不仅仅是个人面临的挑战，也反映了整个行业的现状。
在本书的写作过程中，一方面，我个人进一步探索和理解了这些前沿技术，另一方面，我希望本书能够对这个领域做出一些贡献。我深信，分享知识和经验能够帮助他人更好地理解并运用这些复杂的技术，这种分享不仅可以帮助个人成长，还能够推动整个行业的发展。
社会和行业对于深入理解及有效应用如Transformer、GPT系列、深度生成模型等前沿技术的需求日益增长。然而，这个领域的快速变化也引发了不少问题，如理论与实践脱节、技术门槛提高，以及知识分散。在学习过程中，我也遇到了这些问题，并在解决这些问题的过程中积累了宝贵的经验。
本书旨在提供全面而深入的技术与实践指南，帮助读者应对这些挑战。为此，我尽力使书中的内容深入浅出，既详细解释复杂算法的原理，又直观展示它们在现实世界中的具体应用。从基础到高级，从理论到实践，本书旨在成为连接两侧的桥梁，帮助读者在人工智能的浪潮中乘风破浪，一往无前，并且激励和引导更多的人走上AI技术探索之路。
读者对象
在从学生到研究者再到实践者的身份转变过程中，我深知学习和应用新技术的难度。因此，我在本书中分享了许多个人经验和实践技巧，希望能够为读者提供更具实际价值的指导。
本书面向的读者群体广泛，包括但不限于以下四类人群。
1）数据科学家和机器学习工程师：追求深入理解并应用最新AI技术的专业人士。
2）学术研究人员：对人工智能领域的前沿进展保持浓厚兴趣的学者。
3）在校学生：人工智能、计算机科学等相关专业的学生。
4）技术爱好者：对AI技术充满好奇的自学者。
无论是数据科学家、研究人员，还是对AI技术感兴趣的学生和技术爱好者，都适合阅读本书。
本书特色
1）具备系统性和深度：本书不仅覆盖了从基础到高级的多个技术主题，还深入探讨了每个主题的细节。
2）理论与实践相结合：每个技术主题都配有实战案例，以帮助读者更好地理解和应用理论知识。
3）结构清晰、表达通俗易懂：本书内容层次清晰、逻辑连贯，语言通俗易懂，便于读者按章节顺序逐步学习。
如何阅读本书
本书分为两篇。
第一篇　算法原理（第1～4章）：主要介绍AIGC相关的算法原理。
第1章　介绍Transformer模型。它最开始出现在自然语言处理（NLP）领域的论文中，是后续GPT系列模型的基础，之后更是渗透到计算机视觉（CV）领域和强化学习（RL）领域，可以说Transformer模型在现在的深度学习（DL）领域中扮演着不可或缺的角色。
第2章　介绍GPT系列模型。GPT-3是大语言模型的起点，引领了ViT、CLIP（对比语言–图像预训练）、Diffusion和ChatGPT等多个领域大模型的崛起。
第3章　介绍深度生成模型，包括生成对抗网络（GAN）、自编码器（AE）和图像生成领域中常用的稳定扩散模型（Stable Diffusion）。自此，大模型开始朝着多模态的方向发展。
第4章　介绍预训练模型，讲解常见的分布式训练方式，同时带领读者体验由微软研究院开发的深度学习模型训练优化库—DeepSpeed，以及国内外常用的模型即服务（MaaS）平台，以帮助开发者快速建立应用。
第二篇　应用实战（第5～9章）：将抽象的算法知识转化为实际应用，并深入探讨如何利用这些先进技术来解决真实世界中的问题。
首先，从文本生成应用出发，第5章探索ChatPDF的实战应用，第6章则掀开DeepSpeed-Chat的神秘面纱。
接下来，进入图像生成算法实战，第7章以Stable Diffusion微调为核心，介绍LoRA参数高效微调技术，探讨如何进行数据收集、模型训练与测试，并深入探讨各种高效便捷的实战应用，如Stable Diffusion WebUI和可控扩散模型ControlNet。
然后，把目光转向代码生成算法，第8章介绍Code Llama微调技术，并深入探讨代码生成模型的各种应用场景。
最后，第9章结合文本和图像构建一个综合应用—漫画家，介绍多模态漫画生成功能是如何实现的。在这一章，不仅探索相关的AI模型，还涉及后端技术栈的选择，以及如何进行模型部署，确保整个应用能够高效、稳定地运行。
本书虽然尽量从零开始解释一些关键概念，但实在无法做到面面俱到，对于一些需要拓展的数学知识、编程技巧和网络结构知识，有许多其他很棒的书可以进一步参考学习。此外，本书假定读者已经了解了一些机器学习和深度学习的背景知识，并且熟悉Python和PyTorch编程。
有一定基础的读者可以根据实际需求灵活阅读本书，但建议初学

書城介紹　 \|　合作申請　\|　索要書目　 \|　新手入門　\|　聯絡方式　 \|　幫助中心　\|　找書說明　 \|　送貨方式　\|　付款方式	台灣用户　\|　香港/海外用户

megBook.com.tw
Copyright (C) 2013 - 2025 （香港）大書城有限公司　All Rights Reserved.