新書推薦:

《
都市两极:北京14人
》
售價:NT$
347.0

《
时刻人文·1368:中国与现代世界之形成
》
售價:NT$
398.0

《
分歧与团结:以色列社会的运转逻辑和活力来源
》
售價:NT$
352.0

《
中国式管理(全集·全新)
》
售價:NT$
505.0

《
甲午战争中的北洋舰队
》
售價:NT$
296.0

《
香港影像志(180余张珍贵影像,180余年时间跨度,汇成一部香港成长史)
》
售價:NT$
1474.0

《
脂砚斋重评石头记甲戌校本(九次修订)
》
售價:NT$
374.0

《
一战全史
》
售價:NT$
347.0
|
編輯推薦: |
多模态大模型与AI Agent智能体技术的快速成熟,为未来的AI应用开辟了新的可能性,预示着人工智能将在更多领域发挥其深远的影响。本书正是在这样的背景下应运而生。它旨在为读者提供一个全面、深入地了解当前多模态大模型与AI Agent智能体最新研究进展和实践应用的窗口。全书共8章,力求将最前沿的技术原理、最实用的应用案例及最深刻的行业洞见呈现给读者。
|
內容簡介: |
本书深入探讨了GPT多模态大模型与AI Agent智能体的技术原理及其在企业中的应用落地。
全书共8章,从大模型技术原理切入,逐步深入大模型训练及微调,还介绍了众多国内外主流大模型。LangChain技术、RAG检索增强生成、多模态大模型等均有深入讲解。对AI Agent智能体,从定义、原理到主流框架也都进行了深入讲解。在企业应用落地方面,本书提供了丰富的案例分析,如基于大模型的对话式推荐系统、多模态搜索、NL2SQL数据即席查询、智能客服对话机器人、多模态数字人,以及多模态具身智能等。这些案例不仅展示了大模型技术的实际应用,也为读者提供了宝贵的实践经验。
本书适合对大模型、多模态技术及AI Agent感兴趣的读者阅读,也特别适合作为高等院校本科生和研究生的教材或参考书。书中内容丰富、系统,既有理论知识的深入讲解,也有大量的实践案例和代码示例,能够帮助学生在掌握理论知识的同时,培养实际操作能力和解决问题的能力。通过阅读本书,读者将能够更好地理解大模型技术的前沿发展,并将其应用于实际工作中,推动人工智能技术的进步和创新。
|
關於作者: |
陈敬雷,充电了么创始人,CEO兼CTO。拥有十几年互联网从业经验,曾任架构师、首席技术官、首席科学家等职务。在技术领域,尤其在大数据和人工智能方向有着丰富的算法工程落地实战经验,在猎聘网任职期间主导的推荐算法系统项目获得公司优秀项目奖,推荐效果得到5倍的提升。目前专注于大数据和人工智能驱动的上班族在线教育行业,研发了充电了么App,用深度学习算法、NLP、推荐引擎等技术来高效地提升在线学习效率。研发了上百门课程,在网易云课堂、腾讯课堂等平台累计有30万名学员。出版了《分布式机器学习实战》《自然语言处理原理与实战》,颇受好评。
|
目錄:
|
第1章大模型技术原理
1.1大模型技术的起源、思想
1.2基于Transformer的预训练语言模型
1.2.1编码预训练语言模型
1.2.2解码预训练语言模型
1.2.3基于编解码架构的预训练语言模型
1.3提示学习与指令微调
1.3.1提示学习
1.3.2指令微调
1.4人类反馈强化学习
1.4.1强化学习
1.4.2PPO算法
1.4.3大模型人类反馈强化学习对齐
1.5GPT智能涌现原理与AGI通用人工智能
1.5.1什么是智能涌现
1.5.2思维链
1.5.3上下文学习能力
1.5.4指令理解
1.5.5通用人工智能
第2章大模型训练及微调
2.1大模型训练概述
2.2分布式训练的并行策略
2.2.1数据并行
2.2.2模型并行
2.2.3混合并行
2.2.4并行计算框架
2.3预训练模型的压缩
2.3.1模型压缩方案概述
2.3.2结构化模型压缩策略
2.3.3非结构化模型压缩策略
2.3.48位/4位量化压缩实战
2.4大模型微调方法
2.4.1Prefix Tuning微调
2.4.2PTuning V1微调
2.4.3PTuning V2微调
2.4.4LoRA微调
2.4.5QLoRA微调
2.5基于旋转位置编码RoPE的长文本理解
2.5.1RoPE技术原理
2.5.2RoPE关键特性
第3章主流大模型
3.1国内大模型
3.1.1智谱清言ChatGLM
3.1.2百川智能
3.1.3百度文心一言
3.1.4阿里巴巴通义千问
3.1.5腾讯混元
3.1.6华为盘古
3.1.7360智脑
3.1.8科大讯飞星火
3.1.9智源悟道大模型
3.1.10月之暗面Kimi
3.1.11复旦大学MOSS
3.1.12零一万物
3.1.13字节跳动豆包大模型
3.2国外大模型
3.2.1OpenAI GPT4o
3.2.2Meta LLaMA
3.2.3Anthropic Claude
3.2.4谷歌Gemini和开源Gemma
3.2.5Mistral Large
3.2.6xAI Grok
3.3垂直类大模型
3.3.1HuatuoGPT
3.3.2BianQue
3.3.3BenTsao
3.3.4XrayGLM
3.3.5DoctorGLM
3.3.6ChatMed
3.3.7度小满轩辕
3.3.8BloombergGPT
3.3.9LawGPT
3.3.10LexiLaw
3.3.11Lawyer LLaMA
3.3.12ChatLaw
3.3.13ChatGLMMath
第4章LangChain技术原理与实践
4.1LangChain技术原理
4.2LangChain六大核心模块
4.2.1模型I/O
4.2.2数据增强模块
4.2.3链模块
4.2.4记忆模块
4.2.5Agent模块
4.2.6回调处理器
第5章RAG检索增强生成
5.1RAG技术原理
5.1.1RAG的概念与应用
5.1.2RAG技术架构
5.1.3分块和向量化
5.1.4搜索索引
5.1.5重新排序和过滤
5.1.6查询转换与路由
5.1.7RAG中的Agent智能体
5.1.8响应合成器
5.1.9大模型微调和RAG优劣势对比
5.2文本向量模型
5.2.1Embedding模型、Reranker模型及ColBERT模型
5.2.2阿里巴巴GTE向量模型
5.2.3中文acge_text_embedding模型
5.2.4智源中英文语义向量模型BGE
5.2.5Moka开源文本嵌入模型M3E
5.2.6OpenAI的textembedding模型
5.3向量数据库
5.3.1Faiss
5.3.2Milvus
5.3.3Pinecone
5.3.4Chroma
5.4RAG应用实践
5.4.1基于大模型构建企业私有数据的知识问答
5.4.2应对大模型落地挑战的优化策略
第6章多模态大模型
6.1多模态基础模型
6.1.1多模态对齐、融合和表示
6.1.2CLIP
6.1.3BLIP
6.1.4BLIP2
6.1.5InstructBLIP和XInstructBLIP
6.1.6SAM
6.1.7OpenFlamingo
6.1.8VideoChat
6.1.9PaLME
6.2OpenAI多模态大模型DALL·E 3、GPT4V、GPT4o、Sora
6.2.1文生图多模态大模型DALL·E 3
6.2.2GPT4V
6.2.3端到端训练多模态大模型GPT4o技术原理
6.2.4文生视频多模态大模型Sora
6.3通义千问多模态大模型
6.3.1开源QwenVL和QwenVLChat
6.3.2QwenVLPlus和QwenVLMax
6.4开源端到端训练多模态大模型LLaVA
6.4.1LLaVA
6.4.2LLaVA1.5
6.4.3LLaVA1.6
6.4.4MoELLaVA
6.4.5LLaVAPlus
6.4.6VideoLLaVA和LLaVANeXTVideo
6.5零一万物多模态大模型YiVL系列
6.5.1YiVL系列模型架构
6.5.2YiVL系列模型训练微调及推理
6.6清华系多模态大模型
6.6.1VisualGLM6B
6.6.2CogVLM2
6.6.3CogAgent
6.6.4CogView、CogVideo和CogVideoX
6.6.5CogCoM
6.6.6GLM4V9B
第7章AI Agent智能体
7.1AI Agent智能体介绍和原理
7.1.1AI Agent的定义与角色
7.1.2AI Agent技术原理
7.2主流大模型Agent框架
7.2.1AutoGPT
7.2.2MetaGPT
7.2.3ChatDev
7.2.4AutoGen
7.2.5FastGPT
7.2.6XAgent
7.2.7GPTEngineer
7.2.8BabyAGI
7.2.9SuperAGI
第8章大模型在企业应用中落地
8.1基于大模型的对话式推荐系统
8.1.1基于大模型的对话式推荐系统技术架构设计
8.1.2推荐AI Agent智能体
8.1.3面向推荐的语言表达模型
8.1.4知识插件
8.1.5基于大模型的推荐解释
8.1.6对话式推荐系统的新型评测方法
8.2多模态搜索
8.2.1多模态搜索技术架构设计
8.2.2多模态搜索关键技术
8.2.3多模态实时搜索与个性化推荐
8.3基于自然语言交互的NL2SQL数据即席查询
8.3.1NL2SQL数据即席查询技术原理
8.3.2NL2SQL应用实践
8.4基于大模型的智能客服对话机器人
8.4.1大模型智能客服对话机器人技术原理
8.4.2AI大模型赋能提升智能客服解决率新策略
8.4.3基于大模型的智能客服对话机器人系统搭建
8.5多模态数字人
8.5.1多模态数字人技术原理
8.5.2三维建模与三维重建
8.5.3声音克隆与形象克隆
8.5.4唇形同步算法
8.5.5NeRF、ERNeRF与RADNeRF模型
8.5.6数字人项目实践
8.6多模态具身智能
8.6.1多模态具身智能概念及技术路线
8.6.2多模态感知与场景理解
8.6.3视觉导航
8.6.4世界模型
8.6.5具身智能模拟器
8.6.6多模态多感官交互具身智能大模型
8.6.7端到端强化学习人形机器人
8.6.8多模态通才具身智能体
|
內容試閱:
|
在人工智能领域,多模态大模型与AI Agent智能体的研究与应用正处于一个前所未有的热潮之中。国际上,OpenAI的Sora模型代表了文生视频多模态大模型的最新突破,它能够根据文本描述生成连贯的视频内容,展现跨模态理解与生成的惊人能力。同时,GPT4o作为端到端训练的多模态大模型,进一步地提高了模型在多模态任务上的性能。国内方面,科技巨头如阿里巴巴、腾讯、百度等公司也在多模态大模型的研发上取得了令人瞩目的进展,通义千问、混元、文心一言等模型的推出,标志着国内在这一领域的研究和应用也达到了新的高度。在AI Agent智能体方面,最新进展体现在智能体的自主性和任务执行能力上。从AutoGPT到MetaGPT,智能体框架不断发展,使AI Agent能够更加智能地理解复杂任务,自主地进行多步骤的规划与执行。这些智能体通过插件自主调用第三方工具来执行各种复杂任务,如数据分析、报表生成等,极大地扩展了AI的应用范围和深度。这些前沿进展不仅标志着多模态大模型与AI Agent智能体技术的快速成熟,也为未来的AI应用开辟了新的可能性,预示着人工智能将在更多领域发挥其深远的影响。
本书正是在这样的背景下应运而生,旨在为读者提供一个全面、深入了解当前多模态大模型与AI Agent智能体最新研究进展和实践应用的窗口。全书共8章,力求将最前沿的技术原理、最实用的应用案例及最深刻的行业洞见呈现给读者。
第1章大模型技术原理为读者构建坚实的理论基础。从大模型技术的起源和思想开始,让读者了解大模型发展的来龙去脉。基于Transformer的预训练语言模型部分详细地阐述了编码、解码及编解码架构的预训练语言模型的特点和优势。提示学习与指令微调的内容则帮助读者掌握如何通过巧妙的提示和微调方法来优化模型的性能。人类反馈强化学习部分介绍了强化学习、PPO算法及大模型人类反馈强化学习对齐的原理和应用,而GPT智能涌现原理与AGI通用人工智能的探讨更是让读者对大模型的智能本质有了更深入的理解。
第2章大模型训练及微调聚焦于模型训练的实际操作和优化。大模型训练概述让读者对整个训练过程有一个宏观的认识。分布式训练的并行策略包括数据并行、模型并行和混合并行等,为大规模模型训练提供了高效的解决方案。预训练模型的压缩技术,如结构化和非结构化模型压缩策略及量化压缩实战,有助于在保证模型性能的前提下降低模型的存储和计算成本。多种大模型微调方法,如Prefix Tuning、PTuning和LoRA等,为模型的个性化定制和优化提供了有力的工具。基于旋转位置编码RoPE的长文本理解则解决了长文本处理中的关键问题,提高了模型对长文本的处理能力。
第3章主流大模型对国内外的主流大模型进行了全面梳理和介绍。国内大模型方面,涵盖了智谱清言ChatGLM、百川智能、百度文心一言、阿里巴巴通义千问、腾讯混元、华为盘古、360 智脑、科大讯飞星火、智源悟道大模型等众多知名模型,展示了国内在大模型领域的丰富成果和强大实力。国外大模型部分则介绍了OpenAI GPT4o、Meta LLaMA、Anthropic Claude、谷歌Gemini等,让读者了解到国外大模型的发展动态和技术特点。此外,垂直类大模型的介绍为特定领域的应用提供了有针对性的参考。
第4章LangChain技术原理与实践深入讲解了LangChain的关键技术。LangChain技术原理为读者揭示了其工作的基本机制。六大核心模块,包括模型I/O、数据增强模块、链模块、记忆模块、Agent模块和回调处理器,分别从不同角度为大模型的应用提供了支持和扩展。通过对这些模块的学习,读者能够更好地理解和运用LangChain来构建高效的大模型应用。
第5章RAG 检索增强生成全面阐述了RAG的技术原理和应用。从RAG的概念与应用入手,介绍了其技术架构、分块和向量化、搜索索引、重新排序和过滤、查询转换与路由、RAG中的Agent智能体、响应合成器等关键技术环节。大模型微调和RAG优劣势对比则为读者在选择模型优化方法时提供了参考。文本向量模型和向量数据库部分介绍了多种常用的模型和数据库,为RAG的实现提供了技术支持。RAG 应用实践则通过实际案例展示了RAG在企业私有数据知识问答和应对大模型落地挑战方面的应用。
第6章多模态大模型详细地介绍多模态基础模型和国内外知名的多模态大模型。多模态对齐、融合和表示的探讨为多模态大模型的构建提供了理论基础。CLIP、BLIP、BLIP2等基础模型的介绍展示了多模态模型的发展历程。OpenAI的GPT4o、Sora等多模态大模型及通义千问多模态大模型、LLaVA等开源多模态大模型的讲解,让读者了解到不同模型的特点和应用场景。
第7章AI Agent智能体深入地探讨AI Agent智能体的相关内容。AI Agent的定义与角色让读者对其有一个清晰的认识。AI Agent技术原理的介绍包括其工作机制、算法和技术实现等方面。主流大模型Agent框架部分则对AutoGPT、MetaGPT、ChatDev等多个框架进行了详细分析和比较,为读者在选择和应用Agent框架时提供了指导。
第8章大模型在企业应用中落地展示了大模型在实际企业应用中的多种场景。基于大模型的对话式推荐系统介绍其技术架构设计、推荐AI Agent智能体、语言表达模型、知识插件等关键技术和组件。多模态搜索部分讲解了其技术架构设计和关键技术,以及多模态实时搜索与个性化推荐的实现方法。基于自然语言交互的NL2SQL数据即席查询介绍了其技术原理和应用实践。基于大模型的智能客服对话机器人部分阐述了其技术原理、新策略和系统搭建方法。多模态数字人和多模态具身智能则分别介绍其技术原理、关键技术和项目实践,展示了大模型在这些前沿领域的应用前景。
扫描目录上方的二维码可下载本书源码。
本书的顺利出版离不开赵佳霓责任编辑的辛勤付出,她以严谨的学术态度和专业的编辑技能,对书稿进行了细致审阅和修改,确保了本书的高质量完成。在此,对赵佳霓编辑的辛勤付出表示衷心的感谢。
本书涵盖了多模态大模型和AI Agent智能体领域的众多关键技术和应用,无论是对专业的研究人员、开发者,还是对人工智能感兴趣的普通读者都具有重要的参考价值。希望本书能够为推动人工智能技术的发展和应用做出一份贡献,引领读者走进这个充满无限可能的人工智能世界。
陈敬雷
2025年3月
|
|