新書推薦:
《
理解集(1930-1954)(阿伦特作品集)
》
售價:HK$
551
《
智慧储能革命 揭示储能行业的技术路线与底层逻辑 洞见能源革命的未来图景
》
售價:HK$
403
《
身体知道幸福:发现感恩、幸福与喜悦的意想不到的方式
》
售價:HK$
403
《
海外中国研究·道家与中国治道(国际汉学泰斗顾立雅集大成之作,一部打破哲学迷思的中国治道探源经典。开辟
》
售價:HK$
296
《
人体雕塑解剖学
》
售價:HK$
653
《
投喂AI:人工智能产业的全球底层工人纪实
》
售價:HK$
352
《
诛仙.全6册(最新典藏版)
》
售價:HK$
1616
《
怦然心动的人生整理魔法·实践解惑篇2025版 修订本
》
售價:HK$
254
內容簡介:
大语言模型(Large Language Model,LLM)是人工智能领域研究和应用的前沿焦点,现已成为人工智能发展的新方向和新一代人工智能的基础设施。本书较系统地介绍了语言大模型的基本内容,主要包括发展语言大模型的三次热潮、深度学习基础、注意力机制、残差链接与逐层归一化、Transformer模型、预训练语言模型、LLM结构与训练、迁移学习、人类反馈强化学习、元学习、GPT系列LLM、BERT模型、T5模型、统一语言模型和提示工程等。 本书适合作为本科院校相关专业的教材。
關於作者:
陈明,教授。历任吉林大学计算机科学系副教授、教研室主任、副教授;大连理工大学计算机科学与工程系系主任、教授;中国石油大学(北京)计算机科学与技术系创始系主任 、教授/博导;曾获德国科学联合会DFG基金赴德国图宾根大学计算机学院学习与研究。参加的学术组织及任职:中国计算机学会理事、高级会员、开放系统专委会副主任;中国人工智能学会理事;智能信息网专委会副主任;《计算机科学与探索》、《软件工程》、《计算机教育》编委。个人荣誉:北京市教学名师,北京市精品课程(数据结构)负责人,北京市计算机软件基础优秀教学团队带头人。所承担过的重点科研或教研项目及在项目中所承担的工作:参加并完成国家自然科学基金、国家863基金等多项科研任务。出版著作情况:撰写并出版计算机专著、译著和教材150余种。主要有《分布计算应用模型》(专著),科学出版社,2009-5;《神经网络模型》(专著),大连理工大学出版社,1995-12;《软件工程实用教程》,电子工业出版社,2006-1;《Absolute Java》(译著)电子工业出版社,2005-6;《多媒体技术》,电子工业出版社,2003-6;《大数据基础与应用》,北京师范大学出版社,2016-3;《数据科学与大数据导论》,清华大学出版社,2021-6;《Python语言程序设计》,清华大学出版社,2021-12。
目錄 :
目 录 第1章 大语言模型概述1 1.1 LLM的产生与发展1 1.1.1 LLM的产生2 1.1.2 LLM的发展2 1.2 LLM的特点与分类4 1.2.1 LLM的特点4 1.2.2 LLM的分类5 1.3 自然语言处理与LLM6 1.3.1 自然语言处理6 1.3.2 LLM的主要功能9 1.3.3 LLM扩展法则10 1.3.4 LLM的涌现现象与涌现能力12 1.4 LLM技术13 1.4.1 LLM基本技术13 1.4.2 LLM关键技术14 1.4.3 LLM知识体系与人工智能引擎16 1.4.4 LLM的评价指标19 1.5 LLM应用场景与LLM下游任务19 1.5.1 LLM应用场景20 1.5.2 LLM下游任务20 1.5.3 LLM应用场景与LLM下游任务的区别20 本章小结20 第2章 深度学习基础21 2.1 深度学习概述21 2.1.1 深度学习的产生与发展21 2.1.2 深度学习的内涵与外延22 2.2 机器学习方式24 2.2.1 监督式学习方式25 2.2.2 无监督式学习方式27 2.2.3 半监督式学习方式27 2.2.4 强化学习方式28 2.3 增强泛化能力方法28 2.3.1 泛化能力与泛化误差28 2.3.2 拟合29 2.3.3 逼近正确拟合的方法29 2.3.4 超参数和验证集31 2.4 神经网络模型基础33 2.4.1 神经网络模型及特点33 2.4.2 学习方式与学习规则39 2.4.3 神经网络学习原理47 2.5 深度学习48 2.5.1 神经网络与深度学习48 2.5.2 深度学习在LLM中的应用51 2.6 模型评价指标52 2.6.1 混淆矩阵52 2.6.2 评价模型的主要参数53 本章小结55 第3章 注意力机制56 3.1 编码器 解码器架构56 3.1.1 编码器功能与解码器功能57 3.1.2 编码器 解码器框架57 3.1.3 序列到序列模型61 3.2 注意力机制特点与计算63 3.2.1 注意力机制特点63 3.2.2 注意力机制的计算过程64 3.3 自注意力模型67 3.3.1 自注意力机制的核心思想67 3.3.2 自注意力模型计算67 3.3.3 注意力机制与自注意力机制比较71 3.3.4 多头注意力计算71 3.4 NLP注意力机制74 3.4.1 软注意力机制74 3.4.2 硬注意力机制75 3.4.3 局部注意力机制77 3.4.4 点积注意力机制78 3.4.5 加性注意力机制79 3.4.6 稀疏注意力机制80 3.5 注意力机制与编码器 解码器结构81 3.5.1 在编码器 解码器中引入注意力机制81 3.5.2 注意力机制的优势与应用场景82 本章小结83 第4章 残差连接与逐层归一化84 4.1 逐层归一化84 4.1.1 BN的计算过程与训练85 4.1.2 BN层的作用86 4.2 残差与残差分析87 4.2.1 残差87 4.2.2 残差分析88 4.3 残差模块89 4.3.1 残差模块的结构89 4.3.2 残差模块的类型91 4.3.3 残差模块的优势93 4.4 逐层归一化与残差连接在LLM中的应用94 4.4.1 逐层归一化在LLM中的应用94 4.4.2 残差连接在LLM中的应用94 本章小结95 第5章 Transformer模型96 5.1 Transformer模型术语与特点96 5.1.1 Transformer模型术语96 5.1.2 Transformer模型特点97 5.2 Transformer模型结构97 5.2.1 Transformer模型架构98 5.2.2 Transformer模型位置向量98 5.2.3 Transformer模型编码器101 5.2.4 Transformer模型解码器106 5.2.5 基于Transformer模型的机器翻译114 5.3 Transformer模型推理与训练117 5.3.1 Transformer模型推理117 5.3.2 Transformer模型训练所涉及的结构119 5.3.3 Transformer模型训练关键步骤123 5.3.4 Transformer模型并行训练与测试124 5.4 Transformer-XL模型126 5.4.1 长文本问题与解决策略126 5.4.2 Transformer-XL模型技术127 本章小结135 第6章 预训练语言模型137 6.1 PLM特点、结构与分类138 6.1.1 PLM特点138 6.1.2 PLM结构140 6.1.3 PLM分类141 6.2 自回归语言模型142 6.2.1 自回归语言模型原理142 6.2.2 自回归语言模型结构143 6.2.3 解码器自回归语言模型构建过程144 6.2.4 训练和推理的局限性145 6.3 自编码语言模型145 6.3.1 自编码语言模型原理145 6.3.2 自编码语言模型结构145 6.3.3 自编码语言模型训练146 6.4 编码器 解码器预训练语言模型146 6.4.1 编码器 解码器预训练语言模型原理146 6.4.2 编码器 解码器预训练语言模型结构148 6.5 前缀语言模型148 6.5.1 前缀语言模型原理148 6.5.2 前缀语言模型结构149 6.6 排列语言模型150 6.6.1 排列语言模型原理151 6.6.2 排列语言模型结构151 6.6.3 排列语言模型的特点与应用153 6.6.4 排列语言模型结构比较153 6.7 PLM训练153 6.7.1 预训练过程与作用154 6.7.2 预训练策略156 6.7.3 预训练与微调比较158 6.8 PLM微调158 6.8.1 微调方法分类158 6.8.2 高效微调159 6.8.3 P-Tuning微调160 6.8.4 指令微调161 6.8.5 LoRA微调163 6.8.6 前缀调优165 6.8.7 Prompt微调166 6.8.8 RLHF微调170 6.8.9 微调输出层171 6.9 PLM应用方法172 6.9.1 PLM的应用过程172 6.9.2 应用于文本生成过程173 本章小结174 第7章 LLM结构与训练175 7.1 LLM结构175 7.1.1 LLM架构175 7.1.2 LLM架构选择177 7.1.3 LLM构建178 7.1.4 LLM评估179 7.2 LLM结构优化181 7.2.1 LLM优化目标181 7.2.2 LLM优化部分介绍182 7.2.3 LLM数据增强194 7.2.4 LLM分词器196 7.2.5 LLM数据预处理200 7.3 词向量203 7.3.1 自然语言表示学习203 7.3.2 Word2Vec模型词向量204 7.3.3 静态词向量与动态词向量206 7.4 LLM训练206 7.4.1 LLM训练的基本策略与方法206 7.4.2 LLM的分布训练208 7.4.3 LLM的并行训练209 7.4.4 LLM的分布式并行训练210 本章小结212 第8章 迁移学习213 8.1 迁移学习概述213 8.1.1 同分布数据213 8.1.2 迁移学习原理214 8.2 迁移学习分类与实现217 8.2.1 迁移学习分类准则217 8.2.2 典型的迁移学习218 8.2.3 迁移学习的实现221 8.3 深度迁移学习222 8.3.1 深度神经网络的可迁移性222 8.3.2 深度迁移学习的自适应方法226 8.3.3 生成对抗迁移网络229 8.4 迁移学习的应用场景与方法231 8.4.1 迁移学习的应用场景231 8.4.2 迁移学习方法231 8.4.3 迁移学习在LLM中的应用232 本章小结234 第9章 人类反馈强化学习235 9.1 强化学习原理236 9.1.1 智能体及其特性236 9.1.2 强化学习模型与工作过程237 9.1.3 强化学习算法分类240 9.2 SARSA算法241 9.2.1 SARSA算法基本原理242 9.2.2 SARSA算法流程243 9.2.3 SARSA(λ)算法246 9.3 Q-Learning算法248 9.3.1 Q-Learning算法基本原理249 9.3.2 Q-Learning算法流程250 9.3.3 Q-Learning算法与SARSA算法比较252 9.4 基于人类反馈强化学习的模型与算法252 9.4.1 人类反馈强化学习模型253 9.4.2 人类反馈强化学习算法253 9.4.3 基于人类反馈强化学习算法的LLM预训练254 9.4.4 近端策略优化算法257 9.4.5 人类反馈强化学习模型的优势与特点261 本章小结264 第10章 元学习265 10.1 元学习概述265 10.1.1 元学习的基本原理265 10.1.2 元学习的基本特点266 10.2 元学习基本方法268 10.2.1 元学习的主要工作268 10.2.2 元学习过程270 10.3 MAML模型273 10.3.1 MAML模型的相关概念273 10.3.2 MAML算法分析275 10.3.3 MAML算法流程276 10.4 小样本学习278 10.4.1 问题的提出与先验范式的构建278 10.4.2 小样本学习方法279 10.4.3 小样本相似度学习282 10.5 元学习的应用285 10.5.1 元学习在LLM中的主要应用场景285 10.5.2 元学习在LLM中的应用实例286 本章小结287 第11章 GPT系列LLM288 11.1 GPT系列模型概述288 11.1.1 GPT系列模型的特点289 11.1.2 GPT系列模型的结构290 11.1.3 GPT系列模型的训练过程291 11.2 GPT-1模型(2018)293 11.2.1 GPT-1模型的特点293 11.2.2 GPT-1模型的结构与训练294 11.2.3 GPT-1不同下游任务的输入转换298 11.3 GPT-2模型(2019)298 11.3.1 GPT-2模型的特点298 11.3.2 GPT-2模型的结构299 11.3.3 Zero-Shot方法302 11.4 GPT-3模型(2020)303 11.4.1 GPT-3模型的特点303 11.4.2 GPT-3模型的结构304 11.4.3 GPT-3模型训练核心突破304 11.5 GPT-3.5模型(2023)307 11.5.1 GPT-3.5模型的特点307 11.5.2 GPT-3.5模型的结构308 11.5.3 GPT-3.5模型训练309 11.6 ChatGPT模型311 11.6.1 ChatGPT模型的主要特点311 11.6.2 ChatGPT模型的训练过程312 11.7 GPT-4模型313 11.7.1 GPT-4模型的创新313 11.7.2 GPT-4模型的应用场景展望314 11.7.3 GPT能力进化路径315 本章小结316 第12章 BERT模型317 12.1 BERT模型特点与结构317 12.1.1 BERT模型的特点317 12.1.2 BERT模型是语言表示模型318 12.1.3 BERT模型的上下游任1