登入帳戶  | 訂單查詢  | 購物車/收銀台(0) | 在線留言板  | 付款方式  | 聯絡我們  | 運費計算  | 幫助中心 |  加入書簽
會員登入   新用戶註冊
HOME新書上架暢銷書架好書推介特價區會員書架精選月讀2024年度TOP分類閱讀雜誌 香港/國際用戶
最新/最熱/最齊全的簡體書網 品種:超過100萬種書,正品正价,放心網購,悭钱省心 送貨:速遞 / 物流,時效:出貨後2-4日

2025年04月出版新書

2025年03月出版新書

2025年02月出版新書

2025年01月出版新書

2024年12月出版新書

2024年11月出版新書

2024年10月出版新書

2024年09月出版新書

2024年08月出版新書

2024年07月出版新書

2024年06月出版新書

2024年05月出版新書

2024年04月出版新書

2024年03月出版新書

『簡體書』语音与音乐信号处理轻松入门(基于Python与PyTorch)

書城自編碼: 4090995
分類: 簡體書→大陸圖書→計算機/網絡程序設計
作者: 姚利民
國際書號(ISBN): 9787302679110
出版社: 清华大学出版社
出版日期: 2025-03-01

頁數/字數: /
書度/開本: 16开 釘裝: 平装

售價:NT$ 352

我要買

share:

** 我創建的書架 **
未登入.



新書推薦:
历代玉器收藏与鉴赏
《 历代玉器收藏与鉴赏 》

售價:NT$ 1836.0
铁腕拗相王安石:北宋的改革家和变法者
《 铁腕拗相王安石:北宋的改革家和变法者 》

售價:NT$ 500.0
中国法律史学学说史(中国法学学术史丛书;国家出版基金项目)
《 中国法律史学学说史(中国法学学术史丛书;国家出版基金项目) 》

售價:NT$ 857.0
方尖碑(全2册)
《 方尖碑(全2册) 》

售價:NT$ 490.0
出土文献与汉唐法制史新论
《 出土文献与汉唐法制史新论 》

售價:NT$ 398.0
最美最美的博物书(全5册)
《 最美最美的博物书(全5册) 》

售價:NT$ 745.0
戏剧影视表演专业原创小品合集
《 戏剧影视表演专业原创小品合集 》

售價:NT$ 449.0
在游戏中培养自立的孩子
《 在游戏中培养自立的孩子 》

售價:NT$ 230.0

建議一齊購買:

+

NT$ 458
《Python数据分析从入门到精通(第2版)》
+

NT$ 834
《PHP与MySQL程序设计 第5版》
+

NT$ 153
《算法大挑战:进阶探秘》
+

NT$ 588
《JavaScript全栈开发实战》
+

NT$ 629
《架构师修炼之道》
+

NT$ 505
《Python数据可视化从入门到项目实践(超值版)》
編輯推薦:
本书以科普读物风格对音频信号处理由浅入深地进行了介绍,同时辅以大量实战案例,以期达到轻松入门、事半功倍的效果。
通俗易懂 语言生动、浅显易懂,避免枯燥的理论和公式。
图文并茂 大量插图配合文字说明有助于抽象概念的理解。
内容丰富 包括声学基础、音频信号分析、语音识别、语音合成、音乐分析、MIDI编曲、深度学习等丰富内容。
轻松实战 采用Python和PyToch(深度学习部分)编程,门槛低,易学易会;主要函数列出函数原型,便于应用和参考。
大量示例 介绍了音频处理各领域众多Python库的用法,如NumPy、SciPy、Librosa、Pyaudio、Moviepy、Pydub、Soundfile、OpenAI-whisper、Pyttx3、SpeechLib、PyWorld、Parselmouth、Mido、Music21、PyTorch等。
內容簡介:
近年来人工智能技术突飞猛进,以语音识别为代表的音频处理技术取得了大量突破,但该领域内理论结合实战的入门书籍却较为缺乏,本书旨在为有志学习音频信号处理的读者提供一本实用的入门书籍。
本书共13章,第1章和第2章是基础部分,包括声学基础知识及Python基础等内容;第3到4章介绍了音频信号的获取及分析方法;第5~8章介绍了语音识别基础、传统语音识别技术及语音识别、语音合成的实战技术;第9章和第10章介绍了常用的音乐分析方法及Python编曲等内容;第11~13章介绍了深度学习的基础知识及如何用PyTorch对语音和音乐信号进行分析处理。
本书以通俗易懂的语言、图文并茂的讲解力图使读者在短时间内掌握音频信号处理的基本技术。本书既可供包括高校学生在内的各类初学者快速入门、也可供该领域的专业技术人员及爱好者参考。
關於作者:
姚利民,毕业于东南大学,长期在外资企业从事管理工作,同时致力于AI及图像处理的研究。2012年赴某知名跨国企业全球总部工作,回国后自主创业。目前专注于人工智能各领域的研究。著有《Java OpenCV高效入门》和《Java OpenCV案例佳作选》。
目錄
第1章基础知识
1.1声学基础
1.1.1声音的产生和传播
1.1.2声波的描述
1.1.3声音的客观衡量
1.1.4声音的主观属性
1.2音频文件格式
1.2.1WAV文件格式
1.2.2MP3文件格式
1.2.3MIDI文件格式
1.2.4其他文件格式
1.3Praat简介
1.3.1Praat概要
1.3.2Praat的下载和安装
1.3.3Praat的主要功能
1.3.4Praat基础操作
第2章Python基础
2.1Python简介
2.2Anaconda的安装
2.3主要Python库
2.4Python绘图基础
2.4.1散点图的绘制
2.4.2线性图的绘制
2.4.3图形的美化
2.4.4子图的绘制
2.5FFmpeg的安装与配置
第3章音频信号的获取
3.1采样与量化
3.1.1采样相关概念
3.1.2从话筒拾取信号
3.2读取音频文件
3.3从视频文件提取
3.4声音的合成
3.4.1纯音的生成
3.4.2复合音的生成
3.4.3音效的合成
第4章音频信号分析初步
4.1分帧
4.2加窗
4.3信号的时域分析
4.3.1短时平均过零率
4.3.2短时平均能量
4.3.3短时自相关函数
4.4信号的频域分析
4.4.1频谱图
4.4.2傅里叶变换
4.4.3傅里叶变换的应用
4.5信号的时频域分析
4.5.1短时傅里叶变换
4.5.2语谱图
4.5.3宽带语谱图和窄带语谱图
4.5.4Praat中查看语谱图
4.6小波变换
4.6.1概述
4.6.2连续小波变换
4.6.3离散小波变换
4.6.4小波变换的应用
第5章语音识别基础
5.1语音的产生和感知
5.1.1语音信号的产生
5.1.2语音信号的感知
5.1.3语音信号的数字模型
5.2汉语的语音特征
5.2.1元音和辅音
5.2.2声母和韵母
5.2.3音素
5.2.4音调
5.3元音与共振峰
5.4语音端点检测
5.4.1音量法
5.4.2平均能量法
5.4.3双门限法
5.5基音估计
5.6梅尔倒谱系数
5.6.1MFCC特征提取步骤
5.6.2MFCC特征
5.6.3Fbank特征
第6章传统语音识别技术
6.1语音识别概述
6.2动态时间规整
6.3高斯混合模型
6.3.1高斯分布
6.3.2高斯混合模型
6.3.3GMMUBM
6.4隐马尔可夫模型
6.4.1马尔可夫链
6.4.2隐马尔可夫模型
6.4.3Viterbi算法
第7章语音识别实战
7.1Whisper的安装
7.2Whisper的使用
第8章语音合成
8.1文本转语音
8.1.1使用SAPI
8.1.2使用Pyttsx
8.1.3使用SpeechLib
8.2语音合成
8.2.1World声码器
8.2.2World声码器优点
8.2.3World的主要模块
8.2.4语音合成实战
第9章音乐分析
9.1常用音乐术语
9.2音乐分析常用指标
9.2.1频带能量比
9.2.2频谱特征
9.2.3恒Q变换
9.3声音的包络
9.4节拍检测
9.5音高识别
9.6调性分析
第10章MIDI文件编程
10.1MIDI文件格式剖析
10.1.1HC和TC
10.1.2时间差
10.1.3事件
10.2用Mido操作MIDI
10.3用Music21编曲
10.3.1Music21简介
10.3.2Music21的安装及配置
10.3.3Music21的层级结构
第11章深度学习基础
11.1神经网络基础
11.1.1神经元
11.1.2激活函数
11.1.3前馈神经网络
11.1.4梯度下降法
11.2PyTorch基础
11.2.1PyTorch简介
11.2.2PyTorch的主要模块
11.2.3PyTorch的安装
11.2.4张量
11.2.5计算图
11.2.6自动求导机制
11.2.7损失函数
11.2.8优化器
11.3案例: 声音的分类
11.3.1数据集介绍
11.3.2预处理
11.3.3数据载入类
11.3.4构建网络
11.3.5训练模型
11.3.6预测与验证
第12章常用神经网络
12.1卷积神经网络
12.1.1卷积运算
12.1.2池化
12.1.3卷积神经网络的结构
12.2循环神经网络
12.2.1RNN
12.2.2LSTM
12.2.3GRU
12.3案例: 音乐风格分类
12.3.1数据集介绍
12.3.2特征提取
12.3.3模型及训练
第13章深度学习与语音识别
13.1Word2Vec
13.1.1词向量
13.1.2Word2Vec
13.1.3Hierarchical Softmax
13.1.4负采样
13.2ELMo
13.3Transformer
13.3.1Transformer的构成
13.3.2位置编码
13.3.3注意力机制
13.3.4多头注意力
13.3.5残差连接和层归一化
13.3.6Transformer整体架构
內容試閱
近年来,以语音识别为代表的音频处理技术取得了重大突破。2008年底,谷歌公司发布了第1个语音搜索应用; 2010年,苹果公司收购Siri并将其改造成语音助手。此后的十余年,语音技术的发展日新月异。与此同时,相关领域也有一些新技术如雨后春笋般涌现,例如根据声音样本生成语音的声音克隆技术、用AI技术模仿人类唱歌的虚拟歌手、将歌声与伴奏分离的人声分离技术等。毋庸讳言,音频处理与计算机视觉一样都处于人工智能大潮的风口之上。
音频信号处理涉及众多的理论知识,单单语音识别领域就涉及梅尔倒谱系数(MFCC)、Fbank特征、共振峰、端点检测、动态时间规整(DTW)、高斯混合模型(GMM)、隐马尔可夫模型(HMM)等众多的概念,要在短时间内掌握这些内容纯属不易。以笔者的经验而言,理论性强的内容最好用浅显易懂的语言配以精美的插图进行阐述,加上精心设计的动手环节(计算过程或程序示例)则往往事半功倍,本书正是秉承这一理念写作而成。
与语音相比,音乐更具节奏性,而曲调、和弦等要素更是语音信号所不具备的,因此音乐信号的分析处理与语音信号有着明显的不同。此外,音乐还能以MIDI格式保存,这种近似乐谱的文件格式被广泛地应用于音乐创作、编辑等领域。MIDI音乐不仅可以通过音乐制作软件生成,也可以通过一些第三方库用编程的方式实现,而这也为自动作曲提供了极大的便利。本书不仅将对音乐信号分析的理论和方法进行讲解,也将对MIDI格式的处理和编曲等内容进行详细介绍。
随着人工智能时代的到来,深度学习在音频分类和识别等领域都发挥着不可或缺的作用。本书的最后几章将关注深度学习及其在音频处理领域的应用。对于深度学习知之甚少的读者也不必担心,相关章节将从深度学习的基本概念讲起,以浅显易懂的语言对神经网络领域的有关理论由浅入深地进行介绍,并引入PyTorch这个深度学习框架解决一些实际问题。
总而言之,本书的内容相当丰富,但同一些纯理论的书籍不同的是,本书力图以类似科普读物的风格让读者“轻松、快速”地入门。当然,这里的“入门”不仅是理论知识的入门,也是实战技术的入门。

本书主要内容
本书共13章,各章的主要内容如下:
第1章介绍声学基础知识、音频文件格式等最为基础的内容。
第2章介绍Python的基础操作,并对Python的绘图功能进行了重点强化。
第3章介绍各种获取音频信号的方法,例如从话筒拾取信号,从音频文件读取,从视频文件提取,计算机生成或合成等。
第4章介绍音频信号分析的基础内容,包括分帧、加窗、时域分析、频谱图、傅里叶变换、语谱图、小波变换等。
第5章介绍语音信号相关概念及共振峰、端点检测、基音检测、梅尔倒谱系数提取等内容。
第6章介绍传统的语音识别方法,包括动态时间规整、高斯混合模型、隐马尔可夫模型等内容。
第7章介绍用Whisper进行语音识别的方法和技巧。
第8章介绍文本转语音(TTS)和语音合成的实战技术。
第9章介绍频带能量比、频谱特征、恒Q变换等音乐分析方法及包络提取、节拍检测、音高识别、调性分析等内容。
第10章先对MIDI文件格式进行深入剖析,然后介绍用Mido和Music21进行MIDI编曲等内容。
第11章先介绍深度学习和PyTorch的基础知识,然后介绍一个深度学习的案例。
第12章介绍卷积神经网络和循环神经网络等常用的神经网络,并用一个案例展示其实际应用。
第13章介绍语音识别中涉及的深度学习技术,主要包括Word2Vec、ELMo、Transformer模型等内容。

阅读建议
总体来讲,本书内容由浅入深,因此建议读者按顺序阅读。对于有一定基础的读者,可以跳过基础部分从感兴趣的内容开始。本书涉及了大量的第三方库,考虑到各层次读者的需要,书中采用了Python的Anaconda版,IDE则采用Spyder(Anaconda自带无须另行安装),其中Python的版本为3.11.5。对于初学者而言,推荐使用较新版本的Anaconda,因为有些第三方库需要较新版本的支持。Python基础较好的读者可根据需要采用PyCharm等其他IDE。
本书第1~3章为基础部分,读者可根据自身情况选读。
第4章是音频处理的基础部分,无论是语音还是音乐信号的处理都会用到其中的概念和算法,建议读者学习时不要跳过。
第5~8章主要涉及语音识别与合成,既有理论又有实战,建议读者先通读一遍,以便了解其中的概念和原理,然后边运行程序边加深对算法的理解。
第9章和第10章主要与音乐相关,实战内容较多,多动手实践对相关内容的掌握有益无害。
第11~13章则是深度学习的内容。该部分内容涉及面广且内容较多,因为此书在内容安排上遵循了“由浅入深”的原则,所以建议初次接触的读者从头开始循序渐进地进行学习,在对相关概念和原理有一定理解之后再进入实战。
扫描封底的文泉云盘防盗码,再扫描目录上方的二维码可下载本书源码。
致谢
感谢我的家人,感谢你们一直以来对我的理解和支持!
本书的写作也得到了清华大学出版社赵佳霓编辑的大力帮助,在此深表感谢!
由于本书涉及内容广泛,加上笔者水平有限,难免存在疏漏之处,还请各位读者不吝批评指正。

姚利民
2024年10月

 

 

書城介紹  | 合作申請 | 索要書目  | 新手入門 | 聯絡方式  | 幫助中心 | 找書說明  | 送貨方式 | 付款方式 台灣用户 | 香港/海外用户
megBook.com.tw
Copyright (C) 2013 - 2025 (香港)大書城有限公司 All Rights Reserved.