登入帳戶  | 訂單查詢  | 購物車/收銀台(0) | 在線留言板  | 付款方式  | 聯絡我們  | 運費計算  | 幫助中心 |  加入書簽
會員登入   新用戶註冊
HOME新書上架暢銷書架好書推介特價區會員書架精選月讀2024年度TOP分類閱讀雜誌 香港/國際用戶
最新/最熱/最齊全的簡體書網 品種:超過100萬種書,正品正价,放心網購,悭钱省心 送貨:速遞 / 物流,時效:出貨後2-4日

2025年05月出版新書

2025年04月出版新書

2025年03月出版新書

2025年02月出版新書

2025年01月出版新書

2024年12月出版新書

2024年11月出版新書

2024年10月出版新書

2024年09月出版新書

2024年08月出版新書

2024年07月出版新書

2024年06月出版新書

2024年05月出版新書

2024年04月出版新書

『簡體書』ChatGPT的基本原理与核心算法

書城自編碼: 4102442
分類: 簡體書→大陸圖書→計算機/網絡人工智能
作者: 邓志东
國際書號(ISBN): 9787302682639
出版社: 清华大学出版社
出版日期: 2025-03-01

頁數/字數: /
書度/開本: 16开 釘裝: 平装

售價:NT$ 352

我要買

share:

** 我創建的書架 **
未登入.



新書推薦:
现代艺术150年——一个未完成的故事(2024版)
《 现代艺术150年——一个未完成的故事(2024版) 》

售價:NT$ 653.0
传承:世代家族的财富管理观
《 传承:世代家族的财富管理观 》

售價:NT$ 714.0
MATLAB入门与应用实践(视频教学版)
《 MATLAB入门与应用实践(视频教学版) 》

售價:NT$ 607.0
再无孤岛:跨学科的逻辑、路径与实践(实现认知跃迁,洞见未来先机,必先构建跨学科思维!)
《 再无孤岛:跨学科的逻辑、路径与实践(实现认知跃迁,洞见未来先机,必先构建跨学科思维!) 》

售價:NT$ 602.0
社会情感学习经典入门
《 社会情感学习经典入门 》

售價:NT$ 357.0
盆底觉醒
《 盆底觉醒 》

售價:NT$ 403.0
作业治疗经典模式及实践应用
《 作业治疗经典模式及实践应用 》

售價:NT$ 500.0
从初等数学到高等数学(第3卷)
《 从初等数学到高等数学(第3卷) 》

售價:NT$ 398.0

編輯推薦:
u 各种大型语言模型及其相关基础方法、实现工具等,从文本单模态、视听觉多模态、具身智能到交互式智能体,几乎都可以完全使用深度神经网络进行系统阐述。这充分表明,自2012年AlexNet问世以来,各种基于端到端数据驱动的深度神经网络学习方法,已走了多远,不仅将自然语言处理、计算机视觉、语音处理等领域,进行了彻底改变,而且还正在让这些学科之间的边界消融,并迈向统一。
u 本书从深度神经网络的角度切入,体系化地介绍了ChatGPT的基本原理与核心算法,既包括了深度神经网络的基础知识与大演化脉络,Transformer兴起的缘由,也涉及ChatGPT等大型语言模型的预训练、微调、安全及价值对齐以及思维链提示应用等重点内容的介绍。
u 作者对深度卷积神经网络、LSTM、Transformer和强化学习方法进行了深入细致的剖析,其中对视觉Transformer相关基础大模型和GPT思想之旅的介绍,特色鲜明。
u 通用人工智能将给人类带来辉煌的未来。推动、掌握并有能力充分利用更多大型语言模型与通用人工智能相关基础知识的人,必将在这个快速发展与进化的世界中,获得更加强大的竞争力。
內容簡介:
能够模仿人类语言智能与思维,具有世界一般性知识的ChatGPT,开启了通用人工智能的新时代,正成为引爆第四次工业革命的火种。本书是第一本体系化介绍ChatGPT基本原理与核心算法的教材及专业图书。全书共分5章: 第1章为人工神经网络基础;第2章详细剖析了Transformer及其缘起,分析了视觉领域的Transformer算法;第3章综述了各种大型语言模型框架,分享了创建GPT系列模型的思想之旅;第4章重点介绍了ChatGPT的预训练方法与微调算法,系统地阐述了强化学习基础与基于人类反馈的强化学习;第5章为ChatGPT的应用,包括上下文学习提示与思维链提示,并讨论了智能涌现。本书体系严谨、系统性强、逻辑严密、内容丰富,不仅深入浅出、图文并茂、特色鲜明,而且具有引领性、前瞻性和思想启迪性。
本书可作为高等院校人工智能、智能科学与技术、计算机科学与技术、大数据、自动驾驶、新一代机器人及相关专业高年级本科生与研究生教材,也可供上述专业的研究人员、算法工程师及从事AI产品研发、产业发展与决策咨询等的工程技术人员、投资者、战略研究者和广大科技工作者参考。
目錄
第1章人工神经网络基础1
1.1引言1
1.2人工神经元模型3
1.2.1基准神经元模型: MP模型3
1.2.2第一代神经元模型: WSN模型4
1.2.3第二代神经元模型: RBF模型7
1.2.4第三代神经元模型: 发放模型7
1.3人工神经网络模型8
1.3.1神经网络的基本概念与方法8
1.3.2前馈神经网络模型18
1.3.3深度卷积神经网络模型25
1.3.4反馈神经网络模型37
1.3.5递归神经网络模型49
1.4本章小结50
第2章从LSTM到Transformer51
2.1引言51
2.2递归神经网络: 编码器解码器框架52
2.2.1从前馈神经网络到递归神经网络53
2.2.2Elman网络: 经典递归神经网络56
2.2.3长短期记忆网络60
2.2.4递归神经网络的编码器解码器框架71
2.3递归神经网络的注意力与点积相似性74
2.3.1长短期记忆网络的注意力74
2.3.2点积相似性75
2.4Transformer模型77
2.4.1传统编码器解码器框架下的Transformer网络结构77
2.4.2嵌入向量与位置编码82
2.4.3残差直连结构及前置归一化层82
2.4.4Transformer的核心结构单元: 多头注意力机制与逐位置前馈
神经网络84
2.4.5学习机制: 层堆叠自监督学习与基于误差反向传播的监督微调87〖1〗〖2〗ChatGPT的基本原理与核心算法〖1〗目录2.4.6Transformer的主要特性87
2.4.7与递归神经网络的联系与区别88
2.5应用领域: 从NLP扩展到CV89
2.5.1CV领域的Transformer90
2.5.2视觉目标检测与分割任务: DETR91
2.5.3图像分类任务: ViT93
2.5.4三维点云处理任务: Point Transformer96
2.5.5对比式语言图像预训练模型: CLIP101
2.5.6其他视觉任务及展望107
2.6本章小结107
第3章GPT系列预训练大型语言模型109
3.1引言109
3.2大型语言模型的Transformer框架112
3.2.1前缀(编码器)解码器架构的Transformer框架113
3.2.2编码器架构的Transformer框架114
3.2.3解码器架构的Transformer框架115
3.3混合式预训练大型语言模型118
3.3.1T5模型118
3.3.2GLM模型119
3.4判别式预训练大型语言模型121
3.4.1BERT模型121
3.4.2RoBERTa模型123
3.5GPT系列生成式预训练大型语言模型124
3.5.1GPT1: 利用生成式预训练改善语言理解126
3.5.2GPT2: 无监督多任务学习的语言模型129
3.5.3GPT3: 少样本学习的大型语言模型132
3.5.4GPT4: 图文多模态大型语言模型137
3.6本章小结141
第4章ChatGPT的大规模预训练与微调143
4.1引言143
4.2大型语言模型的大规模预训练145
4.2.1预训练任务与模型选择145
4.2.2大规模预训练方法149
4.2.3生成式Transformer大型语言模型的对比式自监督学习152
4.3ChatGPT预训练模型的微调154
4.3.1强化学习基础154
4.3.2预训练大型语言模型的指令调优与RLHF调优170
4.3.3初始动作器: SFT模型的监督训练173
4.3.4初始评判器: RM模型的监督训练174
4.3.5A2C框架下的PPOptx强化学习: 策略更新与价值对齐175
4.4性能评估183
4.4.1与人类意图及价值观对齐的性能评估183
4.4.2定量评测184
4.5ChatGPT规模化与工程化中的关键技术186
4.5.1大规模高质量数据资源的准备187
4.5.2大规模分布式预训练与微调所需的AI算力支撑190
4.6本章小结192
第5章ChatGPT的应用194
5.1引言194
5.2提示工程195
5.2.1预训练提示微调范式195
5.2.2零样本提示与少样本提示196
5.3上下文学习提示196
5.3.1语言模型的元学习196
5.3.2上下文学习提示198
5.4思维链提示199
5.4.1思维链提示的两种方式199
5.4.2少样本思维链提示200
5.4.3零样本思维链提示202
5.4.4自动少样本思维链提示204
5.5思维树提示207
5.5.1思维树提示的基本思想207
5.5.2思维树: 大型语言模型深思熟虑的问题求解方法208
5.5.3分析与讨论210
5.6智能涌现能力212
5.6.1智能涌现能力的定义213
5.6.2涌现能力发生的几种情形214
5.6.3涌现能力的分析与展望217
5.7本章小结218
內容試閱
ChatGPT作为一个可通过图灵测试且达到某种人类智能水平的聊天智能体,于2022年年底率先在自然语言处理(NLP)领域获得突破。以深度学习为代表的弱人工智能在经历十年大发展之后,艰难地实现了自我超越,一个全新的通用人工智能时代清晰可见,正在扑面而来。
在20世纪90年代初,作者在博士后期间就主要从事人工神经网络与强化学习方法的研究。自2009年以来,则主要在面向自动驾驶与移动机器人的计算机视觉(CV)领域深耕。2017年6月,谷歌的Transformer模型一经推出,作者就特别留意到这种基于自注意力学习机制的新一代神经网络,并积极开展计算机视觉中Transformer方法的研究。但ChatGPT之类的大型语言模型解决的大部分任务,毕竟大都发生在NLP领域,作者去体系化写作这样一部基础书籍,是否合适?
幸运的是,通过收集并阅读大量的相关文献,发现各种大型语言模型及其相关基础方法、实现工具等,除了其中涉及的NLP任务与性能评测外,几乎都可以完全使用神经网络进行系统阐述,这让作者惊讶不已。这其实也表明,自2012年AlexNet问世及其带来以深度学习为代表的第三次人工智能的蓬勃发展以来,各种基于端到端数据驱动的深度神经网络学习方法已走了很远!不仅将NLP、CV、语音识别与合成等领域进行了彻底改变,成为各个研究方向的主导方法,而且还正在让这些学科之间的边界逐步消融,并迈向统一。
人工智能通常被定义为研发用于模拟、延伸和扩展人类智能的理论、方法、技术及应用的一门综合性学科。现在看来,针对各种各样需要利用人类智能才能完成的复杂与挑战性任务,若数据智能新物种不但能又好又快地完成,而且还能达到乃至超过人类的总体平均水平,就可将其视为完成了对人类智能的外部功能模拟。换言之,人工智能的核心要义是完成任务的能力与水平,以及任务本身的宽度(范围)、深度(挑战性)和厚度(复杂性)。
ChatGPT等生成式人工智能模型,至少从文本单模态意义上模仿了人类的语言智能与人类思维,不仅拥有知识范围更加宽广的一般性常识,而且具有自监督的开放域学习能力。同时,机器算力的进化速度又远超生物算力,再加上ChatGPT等正逐步具有使用外部工具的能力,以及正不断加速演化的多模态与具身智能能力,相当于以大脑及小脑为中心,又分别装上眼睛、耳朵、嘴巴和手脚等。因此,通用人工智能新物种的发展潜力及对人类文明的改变确实令人期待。但也细思极恐,需要在构建国际共识下进行安全监管,对其不利的一面提前予以警惕及防范。
最早的人工神经元模型出现在1943年,由美国心理学家W. McCulloch和数理逻辑学家W. Pitts,在他们合作的论文A Logical Calculus of the Ideas Immanent in Nervous Activity中提出。以两人名字命名的MP模型,开启了人类利用数学模型,通过外部输入输出表达式而非基于内部生物微观运行机理,去模拟人脑部分功能的历史进程。1957 年,美国年轻的心理学家F. Rosenblatt 等基于上述MP神经元模型,提出了一种被称为“感知机”的人工神经网络,并将之视为生物神经系统感知外部刺激的简化模型。1986年,D. Rumelhart 和 G. Hinton等提出了多层感知机的误差反向传播算法,突破性地发展了这类前馈神经网络的监督学习算法。2012年,Hinton率领他的两位博士生在ImageNet分类比赛(ILSVRC2012)中,提出并实践了AlexNet。他们将Y. LeCun与Y. Bengio等于1995年提出的卷积神经网络算法,与大数据、GPU进行了化学反应式的有机结合,实验结果表现出惊人的图像分类能力。2016年出现的AlphaGo及深度强化学习(实现通用人工智能的另一条有效途径)加强了这一趋势。由此开创了以深度学习为代表的第三次人工智能的伟大复兴与产业发展。
〖1〗〖2〗ChatGPT的基本原理与核心算法〖1〗前言另一方面,对任何序列输入,若将传统前馈神经网络前一时间步的隐层状态进行记忆,并连同当前时间步的输入联合作用于当前隐层,就可以将其改进为Elman网络(1990)这样的经典递归神经网络,然后再利用门控机制将该网络发展为长短期记忆(LSTM)网络(1997),以缓解误差反向传播时的梯度遽变问题。2017年,基于LSTM注意力与点积相似性的相关研究,谷歌NLP组德英机器翻译团队的Vaswani等,摒弃当时主流的递归与卷积操作,通过引入全局注意力机制,创新性地提出了新一代通用型神经网络模型Transformer,并在Transformer框架下,利用编码器块或解码器块分别进行深度堆叠(如BERT),以此完成序列表达、序列理解与序列生成等语言建模主任务。与此同时,创建于2015年12月11日的OpenAI,在Transformer论文公开之后就迅速改写其语言模型,并持续进行规模化扩展,最终于2020年5月推出了具有1750亿个连接权规模的生成式预训练大型语言模型GPT3。以此作为基础模型,先后于2022年11月30日与2023年3月14日,正式发布了ChatGPT和GPT4。文本单模态的ChatGPT和图文多模态的GPT4甚至出现了智能涌现能力,表现出接近于人类水平的通用人工智能的一些特征,不仅在NLP领域引起风暴,而且还在不断引入多模态之后,持续向真实物理世界进行延伸与拓展。
人类大脑约有860亿个神经元,其中每个神经元有1000到1万个突触连接,因此整个人类大脑的突触连接规模,最高可达860万亿个。目前GPT4已达到1.8万亿个连接权参数,在更多更高阶多模态数据的喂养下,在平均每两年增长约275倍算力的“超摩尔定律”作用下,最终达到百万亿规模,在数量上抵近人类大脑“天花板”的“巅峰”时刻,相信不会让人类等得太久。如果大于某个量级的大模型,就能获得更强的多任务求解能力,那百万亿规模的巨模型是否会出现从量变到质变?是否会涌现出人类独有的符号水平的语义理解、知识与逻辑推理能力?甚至形成自主意图、自我奖赏与愉悦机制,并获得自主思维与自主意识等各种高级认知功能或人类智慧?
大模型的价值在于应用。只有在多样化的实际应用场景中赋能智能经济与智能社会的发展,才能找到产业价值,同时也才能成就大模型自身。因为具有人类语言智能与思维、懂常识的大模型,其性能迭代需要对下游任务的调优适应及获得涌现能力,需要进行安全与价值对齐,需要真实性(幻觉)矫正,需要混合专家(MoE)模型之类的专业化与模块化设计,而这些都只有在开放域中实际交互使用,才能大量获得来自现实世界与人类用户的真实反馈数据。目前,中国的大模型发展需重点强调行业应用,打造定制化的行业大模型。行业或垂域大模型需要行业丰富的专业数据进行喂养与调优,这可能会构建中国的新优势。除此之外,基础大模型本身的发展更需要强大的算力基础设施,需要智能云这样无所不在的分布式算力集群的强大支撑。算法与模型、数据与知识、芯片与算力、场景与真实的产业应用需求是构建人工智能产业生态的核心力量,是大模型国际竞争决胜的关键因素。
总之,人工智能将给人类带来辉煌的未来,也将带来从就业到认知边界、价值、法律、伦理、道德等在内的很多改变,甚至促使人类对学习与知识传承的方式进行深入思考。无论如何,掌握并有能力利用更多人工智能基础知识的人,必将在这个不断演变与进化的世界中,获得更加强大的竞争力。
在写作本书的过程中,研究团队中富有朝气的博士生与硕士生同学们,不断推进并演绎着他们的研究进展,给作者带来了很多启发与思考。硕士生姚懿格同学协助修改完善了第1章中的图1.2~图1.13和图1.16~图1.21,同时协助提供了第2章中图2.1~图2.10等的初版线框图,帮助录入了第1章与第2章的部分公式。在此郑重致谢!
感谢清华大学出版社对本书编辑、出版和发行等给予的大力支持。特别感谢本书的责任编辑白立军老师,没有他在2023年早春的写作邀约及之后的各种无私支持,本书是不可能完成的。诸事繁杂,要在各种压力纷扰中静下心来,精心构思、快速阅读与梳理写作,固已殊为不易,况ChatGPT惊艳问世仅区区两年多,同时在这个炽热的赛道,全球各种新思想、新进展不断爆款出现,这些就更增添了写作本书的困难。
本书最后列出的参考资料,其中大部分是最近4年发表的各相关方向的前沿论文,作者也阅读并参考了部分最新网络博文与相关网站。在这个日新月异、蓬勃发展的前沿新兴领域,各种新思想、新方法、新路径、新实践不断涌现,令人激动不已。在此特别感谢这些作者的原创贡献。由于作者水平与时间有限,若有任何理解偏差、遗漏或错误,祈望不吝指出,容后在新版中加以修正迭代。
本书获国家自然科学基金项目(批准号: 62176134)支持,特此致谢!
邓志东2024年12月30日于清华园

 

 

書城介紹  | 合作申請 | 索要書目  | 新手入門 | 聯絡方式  | 幫助中心 | 找書說明  | 送貨方式 | 付款方式 台灣用户 | 香港/海外用户
megBook.com.tw
Copyright (C) 2013 - 2025 (香港)大書城有限公司 All Rights Reserved.