新書推薦:

《
投资你自己
》
售價:NT$
561.0

《
我喜欢相爱的人们
》
售價:NT$
388.0

《
网格本·飘(全两册/外国文学名著丛书)
》
售價:NT$
959.0

《
时刻人文·环球共此食:工业化英国、食品系统与世界生态(2021年美国历史学会杰里·本特利世界史奖获奖作品。一部融合饮食史、环境史、科技史的力作,揭示“地球不能承受之食”的来龙去脉)
》
售價:NT$
434.0

《
DK艺术百科(典藏版)(全彩)
》
售價:NT$
857.0

《
心流2.0:在复杂世界中创造最优体验
》
售價:NT$
301.0

《
日本艺术50讲(一本读懂日本5000年艺术史,20余种艺术类型,280余幅经典之作)
》
售價:NT$
1117.0

《
疑案里的中国史1.2.3(套装3册)
》
售價:NT$
1019.0
|
編輯推薦: |
可学AI团队倾力打造,详解AI语音与音乐生成的核心知识与场景应用。
只讲干货,重在实践提升,通过33个典型案例快速提高读者的实际动手能力。
国内知名游戏音乐公司“小旭音乐”创始人卢小旭点评并推荐。
采用“图书 教学视频 拓展学习 答疑解惑”的立体教学方式。
赠送教学视频、案例素材、提示词、教学PPT等超值资源。
提供QQ书友群、B站和公众号等完善的售后服务渠道。
本书特色:
轻松上手:通过“图书 教学视频 拓展学习 答疑解惑”的立体教学方式,带领读者轻松上手。
内容全面:涵盖AI语音的发展历史、基本原理、平台与工具、场景应用和综合实战等,涉及31个AI语音类在线平台与工具、16个开源AI语音模型、4种常用ComfyUI语音工作流,帮助读者一站式掌握AI语音与音乐生成的相关知识。
技术新颖:紧跟技术发展趋势,基于当前流行的工具、平台和模型进行讲解,以确保技术的新颖性和时效性。
图文并茂:结合230多幅图讲解核心知识点和应用实战案例,直观地展现AI语音与音乐生成的基本原理和实际效果。
实践性强:详解33个类型丰富、由易到难的典型应用案例,涵盖AI语音与音乐生成的各
|
內容簡介: |
《AI语音与音乐生成》结合33个典型案例,从AI语音与音乐生成的发展历史、基本原理、平台与工具、场景应用、综合实战5方面详细介绍其核心知识、主流工具、操作技巧和应用实践等,从而帮助读者系统掌握AI语音与音乐生成的相关知识,并给相关企业解决真实场景问题提供参考。《AI语音与音乐生成》提供配套教学视频、案例素材、提示词文件、语音类工作流文件、教学PPT和软件安装文件等超值配套资源,帮助读者高效、直观地学习。
《AI语音与音乐生成》共19章,分为5篇。第1篇AI语音概论,系统介绍AI语音发展历史、AI语音技术引发的社会争议和AI语音未来展望;第2篇音频技术原理,主要介绍语音识别、语音合成和音乐生成的基本原理等;第3篇AI语音平台与工具,主要介绍国内综合语音平台、国外综合语音平台、常用的专业化语音平台、重要的开源AI语音模型等;第4篇AI语音场景应用,主要介绍声音处理、声音识别、语音合成和音乐生成4种常见的AI语音场景应用;第5篇AI语音综合应用实战,首先介绍AI语音类工作流,然后介绍如何综合使用前面章节介绍的工具、模型和技巧,带领读者进行应用实践,从而完成AI翻唱、文案配音、 “复活”亲人和郭老师说英语4个热门AI语音综合应用实战案例。
《AI语音与音乐生成》内容丰富,讲解深入浅出,案例典型、适合自媒体创作、音乐创作、游戏配音和影视配音等相关领域的从业者与爱好者阅读,也适合高等院校和培训机构作为AI语音类课程的教材或培训用书。
|
關於作者: |
王双:博士,毕业于中国科学院大学。现任教于武汉纺织大学,兼任可学AI的顾问。自2017年起教授人工智能的相关课程,对PINN和AIGC的相关理论与应用有深入的研究,熟练掌握AIGC的相关原理、工具与开发技巧,熟悉AIGC的各种场景应用,主持开发了高校AIGC实训中心平台。已为多所高等院校提供AIGC相关课程、师资、平台综合解决方案。主持编写并出版了《AI绘画大师之道:轻松入门》《AI绘画全场景案例应用与实践》《AIGC绘画与音视频生成:ComfyUI工作流应用与实践》等图书。
尹子成:现任可学AI高级研发工程师。兼任智能语音和生成式音乐负责人,从事AI语音与音乐课程开发、应用开发与技术测试,理论基础扎实,经验丰富。
白玉棋:现任可学AI高级研发工程师,专注于ComfyUI工作流研发,能为特定的AIGC任务开发复杂的工作流。授课经验丰富,已经为武昌理工学院、东湖学院和武汉交通职业学院等多所院校的师生授课。
张珈毓:现任可学AI研发工程师,负责文案撰写、语音教程编写、开源模型测试等,代码编写能力较强,能熟练使用各类开源语音模型与工具。
何媛媛:博士,毕业于中国科学院大学。现任教于武汉纺织大学,兼任可学AI的顾问。自2024年起研究AIGC,并专注于生成式3D,熟悉Nerf、Guassians Splatting等3D重建算法,致力于探索AI 3D的推广与应用。
|
目錄:
|
第1篇 AI语音概论
第1章 AI语音简史 2
1.1 缓慢进步时期 4
1.2 快速发展时期 7
1.3 突破爆发时期 10
第2章 AI语音技术引发的社会争议 12
2.1 AI语音电诈 12
2.1.1 AI语音电诈防不胜防 12
2.1.2 诈骗2亿港元的视频会议 13
2.2 利用AI语音“复活”亲人 14
2.3 AI语音产品版权之争 16
2.3.1 AI生成的内容有版权吗 16
2.3.2 第一例AI声音侵权案 17
2.3.3 孙某某的无奈 18
第3章 AI语音未来展望 20
3.1 AI音乐——让听觉更自由 20
3.2 语音交互——迎接智能新世界 21
第2篇 音频技术原理
第4章 语音识别原理 24
4.1 传统语音识别系统的构成 25
4.2 传统语音识别流程 28
4.3 端到端语音识别系统的构成 32
4.4 端到端语音识别流程 35
第5章 语音合成原理 38
5.1 语音合成基础 38
5.1.1 基于规则的语音合成方法 39
5.1.2 基于数据的语音合成方法 40
5.1.3 基于统计参数的语音合成方法 41
5.1.4 基于深度学习的语音合成方法 42
5.2 语音合成技术框架 43
5.2.1 语音合成流程简介 43
5.2.2 声音模型训练 45
第6章 音乐生成原理 50
6.1 音乐生成基础 50
6.1.1 常用的生成模型 51
6.1.2 Transformer模型 55
6.1.3 DiT模型 57
6.1.4 AI音乐模型训练流程 58
6.2 如何通过提示词控制音乐生成效果 60
第3篇 AI语音平台与工具
第7章 国内综合语音平台 64
7.1 百度语音平台 64
7.2 讯飞开放语音平台 65
7.3 华为云语音平台 68
7.4 阿里云语音平台 70
7.5 其他语音平台 71
第8章 国外综合语音平台 73
8.1 Microsoft Azure语音平台 73
8.2 Google Cloud语音平台 74
8.3 其他语音平台 75
第9章 常用的专业化语音平台 76
9.1 文本转语音类在线平台 76
9.1.1 Fish Audio在线平台 76
9.1.2 TTS Online平台 78
9.1.3 讯飞智作在线平台 79
9.1.4 Murf在线平台 80
9.1.5 其他在线平台 82
9.2 音乐生成类在线平台 83
9.2.1 Suno在线平台 83
9.2.2 Udio在线平台 84
9.2.3 Stable Audio在线平台 87
9.2.4 Audio box在线平台 89
9.2.5 其他在线平台 89
9.3 音频处理类在线平台 90
9.3.1 Vocal Remover在线平台 90
9.3.2 LALAL.AI在线平台 91
9.3.3 UVR5在线平台 93
9.3.4 其他在线平台 94
9.4 综合类在线平台 94
9.4.1 Dubbing X在线平台 94
9.4.2 魔音工坊在线平台 96
9.4.3 Myedit在线平台 97
9.4.4 Eleven Lab在线平台 98
9.5 多模态语音平台 100
第10章 重要的开源AI语音模型 102
10.1 环境搭建 102
10.1.1 本地部署 102
10.1.2 云端部署 103
10.1.3 常见问题 104
10.1.4 环境安装 105
10.2 语音识别开源模型 108
10.2.1 Faster-whisper语音识别模型 108
10.2.2 FunASR语音识别模型 110
10.2.3 SenseVoice语音识别模型 111
10.3 语音合成开源模型 113
10.3.1 GPT-SOVITS声音克隆模型 113
10.3.2 Bert-VITS2语音合成模型 115
10.3.3 CosyVoice语音合成模型 117
10.3.4 Chat TTS语音合成模型 119
10.3.5 Fish Speech文本转语音模型 121
10.3.6 其他语音合成工具 123
10.4 声音转换开源模型 124
10.4.1 RVC实时变声模型 124
10.4.2 So-VITS歌声转换模型 126
10.5 音乐生成开源模型 129
10.5.1 AudioCraft音乐生成模型 129
10.5.2 AudioLDM-2多功能音乐生成模型 129
第4篇 AI语音场景应用
第11章 声音处理 132
11.1 UVR5使用简介 132
11.2 声音降噪 134
11.3 音频切割 136
11.4 音频分离 138
11.5 其他处理工具 139
第12章 声音识别 141
12.1 语音识别案例:将语音记录成文字 141
12.2 语种识别案例:德语还是法语 146
12.3 声纹识别案例:嗓音身份证 147
12.4 情感识别案例:开心还是悲伤 148
12.5 语音唤醒案例:打开空调 149
12.6 声音分析案例:发电站水泵安全检测 150
12.7 音乐分析案例:用Sonoteller工具专业化分析音乐 151
12.8 其他识别工具 153
第13章 语音合成 154
13.1 文字转语音案例:盲人听报 154
13.2 声音克隆案例:声纹永生 155
13.3 语言替换案例:中、日、英全精通 166
13.4 音色替换案例:零门槛翻唱热门歌曲 172
13.5 实时变声案例:变声器 179
第14章 音乐生成 184
14.1 提示词基础 184
14.1.1 提示词简介 184
14.1.2 歌曲创作规则 187
14.2 文生音乐 189
14.2.1 通过提示词描述生成音乐 189
14.2.2 通过提示词描述生成音效 191
14.3 通过图像生成音乐和音效 192
14.4 通过参考音乐生成新的音乐 193
第5篇 AI语音综合应用实战
第15章 AI语音类工作流 196
15.1 文字转语音 196
15.1.1 使用Chat TTS实现文字转语音 196
15.1.2 使用MSSpeech_TTS进行文字转语音 200
15.2 数字人口播 202
15.2.1 使用V-Express实现数字人口播 202
15.2.2 使用EchoMimic实现数字人口播 206
15.2.3 其他数字人口播插件 208
15.3 语音克隆 210
15.3.1 使用Chat TTS实现语音克隆 211
15.3.2 使用Fish Speech实现语音克隆 212
15.4 音乐生成 215
15.4.1 使用Stable Audio Open生成音乐 215
15.4.2 使用ComfyUI-sound-lab生成音乐 217
第16章 AI翻唱 221
16.1 数据预处理 221
16.1.1 准备数据集 221
16.1.2 提取人声 222
16.1.3 对数据集进行分割 222
16.2 声音训练 223
16.2.1 使用So-VITS进行数据预处理 224
16.2.2 设置训练参数 226
16.2.3 开始训练 228
16.3 声音推理 229
16.3.1 加载声音模型 229
16.3.2 推理转换 230
16.4 影响声音模型质量的因素和其他音色替换工具与应用场景 231
第17章 文案配音 233
17.1 生成文案 233
17.2 基于在线平台和开源模型进行文案配音 234
17.2.1 基于在线平台进行文案配音 234
17.2.2 基于开源模型进行文案配音 235
17.3 生成背景音乐 238
17.4 生成视频和图片 238
17.4.1 利用多模态大模型生成图片 238
17.4.2 生成视频 240
17.5 剪辑整合 242
17.6 其他文案配音工具与应用场景 243
第18章 “复活”亲人 244
18.1 声音克隆 244
18.2 数字人对口型 245
18.3 工作流整合 245
18.4 其他语音合成工具与应用场景 246
第19章 郭老师说英语 247
19.1 使用开源模型进行同声传译 247
19.2 使用在线平台进行同声传译 248
19.3 其他同声传译工具与应用场景 250
参考文献 251
|
內容試閱:
|
以AIGC(人工智能生成内容)为代表的人工智能浪潮正在以前所未有的速度席卷各行各业。各种新模型层出不穷,基于新模型的新应用场景不断涌现。AI语音与音乐作为AIGC的重要应用场景正在深刻地影响着人们的日常生活。从智能家居控制到自动驾驶,从数字人口播到跨语种沟通,从音乐生成到文案配音等,AI语音与音乐正在逐渐成为人们生活的一部分。可以说,AI语音与音乐生成已经成为音视频领域的创作者、音乐从业者、智能产品开发者、游戏从业者以及大中专院校影视动画与音乐等相关专业的师生必须掌握的基本技能。
为了帮助AIGC从业者全面、系统、深入地学习绘画、语音和视频等生成与处理技术,“可学AI”团队于2023年便开始组织人员筹划相关图书的写作和出版事宜,并于2024年先后出版了《AI绘画大师之道:轻松入门》和《AI绘画全场景案例应用与实践》。这两部图书上市后均获得了广大读者的好评。为了帮助读者更加系统地学习AIGC相关技术,“可学AI”团队经过调研,计划进一步推出《AIGC绘画与音视频生成:ComfyUI工作流应用与实践》《AI语音与音乐生成:原理、工具与应用实践》《AI视频生成:原理、工具与应用实践》《AI绘画与视频生成模型微调:原理、工具与应用实践》等图书,这些图书组成“AIGC技术探索丛书”供读者阅读。
本书为“AIGC技术探索丛书”中的《AI语音与音乐生成:原理、工具与应用实践》分册,详细介绍AI语音与音乐生成的主流工具、操作技巧和应用实践,以及声音处理、语音识别、语音合成和音乐生成等相关应用。通过阅读本书,读者可以全面、系统、深入地掌握AI语音与音乐生成涉及的核心技术、工具、模型、技巧与场景应用等。
本书特色
? 轻松上手:通过“图书 教学视频 拓展学习 答疑解惑”的立体教学方式,带领读者轻松上手。
? 内容全面:涵盖AI语音的发展历史、基本原理、平台与工具、场景应用和综合实战等,涉及31个AI语音类在线平台与工具、16个开源AI语音模型、4种常用的ComfyUI语音工作流,帮助读者一站式掌握AI语音与音乐生成的相关知识。
? 技术新颖:紧跟技术发展趋势,基于当前流行的工具、平台和模型进行讲解,以确保技术的新颖性和时效性。
? 图文并茂:结合230多幅图讲解核心知识点和应用实战案例,直观地展现AI语音与音乐生成的基本原理和实际效果。
? 实践性强:详解33个类型丰富、由易到难的典型应用案例,涵盖AI语音与音乐生成的各种常见场景应用,帮助读者快速提高实际动手能力。
? 举一反三:针对同一功能或场景应用,提供多种实现思路,帮助读者融会贯通,从而达到举一反三的效果。
? 资料超值:提供大量的超值配套学习资源,帮助读者高效、直观地学习。
? 服务完善:提供QQ书友群、电子邮箱、B站和公众号等多种服务渠道,为读者的学习保驾护航。
本书内容
第1篇 AI语音概论
第1章介绍AI语音的发展历史与现状,让读者对其发展有基本的了解。
第2章介绍AI语音技术引发的社会争议,包括AI语音电信诈骗、数字人“复活”和AI语音作品版权3个话题,让读者了解AI语音技术发展带来的一些争议。
第3章从AI音乐和语音交互两个方面展望AI语音的未来。
第2篇 音频技术原理
第4章介绍语音识别的技术原理,包括传统语音识别系统的构成与工作流程,以及端到端语音系统的构成与工作流程等。
第5章介绍语音合成的算法原理与框架,包括基于规则、数据、统计参数和深度学习的语音合成方法,以及语音合成流程和声音模型训练等。
第6章介绍音乐生成原理,包括常用的生成模型、Transformer模型、DiT模型、AI音乐模型训练流程,以及通过提示词控制音乐生成效果的方法等。
第3篇 AI语音平台与工具
第7章介绍国内综合性语音平台,包括百度语音、讯飞开放语音、华为云语音、阿里云语音四大平台,以及腾讯云、有道智云和火山引擎等其他语音平台。
第8章介绍国外综合语音平台,包括Microsoft Azure语音平台、Google Cloud语音平台及其他语音平台。
第9章介绍常用的专业化语音平台,包括文本转语音、音乐生成、音频处理、综合工具箱4种类型的专业平台与工具。
第10章介绍语音识别、语音合成、声音转换和音乐生成等重要的开源AI语音模型的部署过程与使用方法。
第4篇 AI语音场景应用
第11章介绍声音处理工具及其应用,包括UVR5、声音降噪、音频切割和音频分离等。
第12章介绍声音识别场景应用,包括语音识别、语种识别、声纹识别、情感识别、语音唤醒、声音分析和音乐分析等。在每个场景应用中,首先总结相关应用的行业前景,然后通过具体案例展示其实际效果。
第13章介绍语音合成场景应用,包括文字转语音、声音克隆、语音替换、音色替换、实时变声等。在每个场景应用中,首先总结相关应用的行业前景,然后通过具体案例展示其实际效果。
第14章介绍音乐生成的相关知识,包括提示词基础、文生音乐、通过图像生成音乐或音效、通过参考音乐生成新的音乐等。
第5篇 AI语音综合应用实战
第15章介绍AI语音类工作流的相关知识,包括文字转语音、数字人口播、语音克隆和音乐生成等。
第16~19章介绍如何综合使用前面章节介绍的工具、模型和技巧进行应用实践,从而完成AI翻唱、文案配音、亲人“复活”和郭老师说英语4个热门AI语音综合应用实战案例。
读者对象
本书读者对象如下:
? 音视频领域的自媒体从业者;
? 数字人和直播行业的从业者;
? 配音、音乐创作等音乐行业的从业者;
? 对AI语音和音乐感兴趣的程序员和工程师;
? 高等院校音乐、播音和主持等专业的师生;
? 相关培训机构的学员。
配套资源获取方式
本书赠送以下超值配套资源:
? 教学视频;
? 案例素材;
? 提示词文件;
? 语音类工作流文件;
? 教学PPT;
? 软件安装文件。
上述配套资源有两种获取方式:一是关注微信公众号(见书),回复数字“50”自动获取下载链接;二是在清华大学出版社网站上搜索到本书,然后在本书页面上找到“资源下载”栏目,单击“网络资源”按钮进行下载。另外,读者也可以在“B站”上(见书)在线观看本书配套教学视频。
意见反馈
AI语音与音乐生成正在持续高速发展中,其功能迭代日新月异。尽管本书在写作中已尽力保持内容的时效性与新颖性,但鉴于技术的快速变化和作者认知的局限性,书中难免存在一些未尽完善之处或细微疏漏,敬请各位读者批评与指正,笔者会及时进行调整和修改,您的宝贵意见是我们不断进步的动力。读者可以通过本书QQ书友群或电子邮箱(见书)联系我们,也可关注微信公众号(见书),了解AIGC的相关进展信息。读者也可关注微信公众号(见书),回复数字“50”自动获取QQ书友群号等信息。
致谢
感谢秦天琪、苌欣睿、夏小康、王佑琳、朱美霞、张洋和王浩铭等人在本书写作期间给予笔者团队的支持与帮助!
感谢欧振旭在本书出版过程中给予笔者的大力支持与帮助!
感谢清华大学出版社参与本书出版的所有人员!是你们一丝不苟的精神,才使得本书得以高质量出版。
感谢妻子琼和女儿朵朵在漫长且艰难的写作过程中给予笔者的无私支持,谢谢你们!
王双
2025年5月
|
|