新書推薦:

《
敦煌石窟乐舞图像研究
》
售價:NT$
857.0

《
原来数学还可以这样学
》
售價:NT$
407.0

《
108种手艺1:中国人的生活美学 王的手创非物质文化遗产的全新再现。以鲜活的一手内容全面展现优秀传统手艺
》
售價:NT$
1010.0

《
宁来一梦
》
售價:NT$
458.0

《
画魂 潘玉良传 潘玉良诞辰130周年精装纪念版
》
售價:NT$
398.0

《
好望角系列丛书·桅杆上的帝国:西班牙史
》
售價:NT$
1010.0

《
启微·清代中国的物价与经济波动
》
售價:NT$
500.0

《
宠物造型设计与修剪(王欣)
》
售價:NT$
286.0
|
編輯推薦: |
ChatGPT 引发 AI 热潮,本书从传统自然语言处理讲起,梳理大语言模型发展脉络,解析神经网络、Transformer 等核心技术,涵盖预训练、能力涌现等关键内容,兼顾原理与应用,助初学者入门、从业者进阶,是理解大语言模型的实用指南。
|
內容簡介: |
本书将带读者走进大语言模型的神奇世界,即使读者没有深厚的技术背景,也能轻松理解。本书首先从基础概念讲起,详细介绍大语言模型及其技术发展脉络。接着探讨大语言模型在日常生活中的广泛应用,比如智能客服、文本自动生成、语言翻译等。此外,本书还会客观地分析大语言模型的局限性和可能面临的挑战,例如准确性问题、伦理考虑等,帮助读者形成全面而理性的认识。最后,本书还会展望大语言模型的未来发展趋势,探讨它们将如何为读者所在的行业赋能。本书适合对新技术充满好奇的普通读者,以及希望跟上时代步伐的知识追求者阅读。
|
關於作者: |
董政,计算机软件与理论专业博士,2016年毕业于复旦大学。研究生期间,师从人工智能学者危辉教授,在上海市智能信息处理重点实验室的认知模型与算法课题组从事研究工作,研究方向包括视觉的脑神经机制和计算机建模,以及图像中的物体形状识别和定位等,研究成果发表于认知计算和神经网络等领域的期刊。毕业后,进入微软亚太科技有限公司云计算与人工智能事业部,担任资深软件工程师,将专家系统、机器学习算法、大语言模型智能体等人工智能技术应用于云服务运维优化,深耕人工智能理论研究和工程实践。
|
目錄:
|
目 录序前言第 1 章 早期的神经语言模型 11.1 神经网络模型之前的时代 21.1.1 基于规则的方法面临的困难 51.1.2 借助统计方法的力量 61.1.3 朴素统计模型的极限 81.2 神经网络如何理解语言 101.2.1 化解统计方法的维度灾难 111.2.2 神经网络模型如何学习 131.2.3 困惑度——量化评估语言模型的预测能力171.2.4 词嵌入——从词汇到可计算的数值向量 19第 2 章 深度学习时代的自然语言处理 252.1 擅长处理文本序列的循环神经网络 272.1.1 保持记忆的循环连接 282.1.2 控制记忆的门控单元 292.1.3 自然语言的编码器和解码器 332.2 Transformer“只需要注意力” 402.2.1 注意力机制的起源 422.2.2 “只需要注意力” 442.2.3 像检索数据库一样查看记忆 462.2.4 使用 Transformer 对语言进行编码和解码49第 3 章 预训练语言模型的兴起 533.1 通过预训练提升语言模型能力 543.1.1 预训练——视觉深度学习模型的成熟经验54VIII3.1.2 第一代 GPT 模型 563.1.3 GPT 和 BERT——选择不同道路 603.2 语言模型如何胜任多种任务 673.2.1 多任务模型先驱的启示 683.2.2 GPT-2 模型 713.2.3 适用于多种语言的字节对编码 753.2.4 高质量的 WebText 数据集 80第 4 章 大语言模型能力涌现 874.1 学会如何学习——元学习和语境学习能力884.1.1 GPT-3 模型 924.1.2 稀疏注意力——大模型的高效注意力机制944.1.3 语境学习能力显现 984.2 模型规模和能力的缩放定律 1094.2.1 龙猫法则 1144.2.2 能力涌现现象 1154.3 大语言模型学会写代码 1174.3.1 Codex 模型——程序员的智能助手 1204.3.2 检验语言模型的编程能力 123第 5 章 服从指令的大语言模型 1285.1 InstructGPT——更听话的语言模型 1295.1.1 从人类反馈中学习 1345.1.2 近端策略优化算法 1385.2 指令微调方法 1435.3 拒绝采样——蒸馏提纯符合人类偏好的模型 1465.4 从 AI 反馈中学习 147第 6 章 开源大语言模型 1516.1 GPT-J 和 GPT-Neo——开源社区的率先探索 1526.2 Pile 开源大语言模型训练数据集 1546.3 开源“羊驼”LLaMA 模型 1566.3.1 SwiGLU——改进神经网络激活函数 158IX6.3.2 适合更长文本的 RoPE 1606.3.3 分组查询注意力 1636.3.4 评估数据污染问题 1656.3.5 更听话的 Llama 2 模型 1676.4 ChatGLM——国产大语言模型的开源先锋1696.4.1 研发历程 1696.4.2 语言模型的架构选择 1706.4.3 GLM-130B 模型 1726.4.4 悟道语料库 176第 7 章 探秘大语言模型的并行训练1787.1 并行训练一瞥 1787.2 GPipe 流水线 1807.3 PipeDream 流水线 1827.3.1 高吞吐率的 PipeDream-2BW 流水线 1847.3.2 节省内存的 PipeDream-Flush 流水线 184第 8 章 大语言模型应用 1868.1 常见应用场景 1868.2 利用外部知识库打败“幻觉” 1878.2.1 检索增强生成 1888.2.2 句子编码器模型——编码知识库 1908.2.3 小世界模型——实现快速知识检索 1968.2.4 混合检索——重拾传统检索技术 2018.3 思维链——思维过程的草稿纸 2048.4 使用工具拓展能力范围 2068.4.1 学习如何使用外部工具 2078.4.2 ReAct——连续自主行动的智能体2098.5 定制专属的智能体 212第 9 章 大语言模型前沿展望 2159.1 多模态大模型——有眼睛和耳朵的大语言模型 2159.1.1 视觉语言模型——从 CLIP 模型到火烈鸟模型 216X9.1.2 Llama 3 模型的语音输入输出能力 2219.2 关于安全和隐私的挑战 2239.2.1 不同类型的安全和隐私问题 2249.2.2 如何应对安全和隐私风险 2279.3 大语言模型距离强人工智能还有多远 2289.3.1 世界模拟器——Sora 视频生成模型 2299.3.2 JEPA——世界模型 2319.3.3 草莓模型 o1——学会“深思熟虑” 233中英文对照表 238参考文献 241
|
內容試閱:
|
前 言科技日新月异,变革不断。二十多年前,我国的个人计算机刚刚普及,上网还需要通过电话线拨号连接。那时,大学新生中还有不少人并不熟悉基本的计算机操作。在计算机专业的课堂上,自然语言处理的授课内容以传统方法为主。作为课程实践作业,学生们常常选择金庸和古龙的武侠小说作为语料进行统计分析,发现两位大师的文字风格各有特点,比如金庸的平均句子长度比古龙短一些,古龙使用疑问句比金庸多一些。十年前,深度学习开始进入我国大学的实验室和课题组,使用显卡优化并行计算成为当时新兴的选修课程。那时,发表基于传统人工智能方法的学术论文,常常面临审稿人要求与深度学习做对比研究的诘难。业界也开始采用神经网络方法处理文本,后来重塑自然语言处理领域的 Transformer 模型在当时尚未面世。构建智能客服机器人仍需要采集很多问题样本进行手工标注,而且最终效果以今天的眼光来看完全不够“智能”。如今,大语言模型的出现带来了颠覆性的技术变革。2022 年底,ChatGPT 横空出世,标志着大语言模型技术的崛起,掀起了全球范围内人工智能研究和应用的新一轮热潮。基于大语言模型的智能对话助手展现出了令人惊叹的能力。它能够进行自然流畅的对话交互,涉猎广泛的知识领域,并且胜任写作、翻译、编程等复杂任务。人工智能技术再次跨越了学术圈的边界,进入大众视野,产生了广泛而深远的影响。大语言模型带来的技术进步,不断颠覆着我们的认知和生活方式。作为亲历者,我有幸见证了这场变革的全过程,并愿意将自己所知与读者分享,共同探索大语言模型的发展历程、技术原理、应用方法和前景展望。我们将从 20 世纪中叶计算机的发明开始,回顾自然语言处理的研究历史,了解研究人员如何一步步开发出神经网络和深度学习模型,直至大规模生成式预训练模型占据统治地位。技术演进过程可以帮助我们理解隐藏在背后的原理和推动力,向我们展示大语言模型如何获得惊人的能力,如何进入各种应用场景,未来又将把人工智能技术引向何方。在回顾大语言模型技术的发展历程时,我不禁感慨万千,原来这些革命性的成果早在数十年前就已经开始酝酿。从最初的基础研究,到如今的应用突破,无数研究人员不懈努力,铺就了通往技术巅峰的道路。2023 年,具有视觉理解能力的 GPT-4 问世,模型能够“看图”解答中学物理题,令人叹为观止。然而,仔细追溯会发现,这种视觉模型和语言模型的技术融合,早在数年前就已经开始了相关研究。再往前追溯,光学字符识别 (OpticalCharacter Recognition, OCR) 技术在二十年前就已经有了成熟应用。作为技术先驱的卷积神经网络模型,更是可以追溯到 20 世纪 80 年代末,最早的应用场景是识别信封上手写的邮政编码。这些看似新兴的技术,其实都有着悠久的历史积淀。面对浩如烟海的研究成果,我们很难一一发现哪些是具有颠覆性潜力的突破。但正是这些默默无闻的研究积累,最终成就了我们今天所见证的技术变革。回顾技术发展历程,我们可以揭开大语言模型的神秘面纱,了解推动技术进步的力量。大语言模型是一个活跃的研究领域,正处于蓬勃发展时期,新模型层出不穷,在规模、能力、原理和应用等方面不断取得突破性进展。这个变革的时代要求我们时刻保持学习的态度,与时俱进。我衷心希望与读者携手共同探索这个充满机遇与挑战的领域,共同见证人工智能的未来发展。让我们一起踏上这段精彩纷呈的学习之旅,共同开启探索知识海洋的新篇章。
|
|