顶部
收藏

语音信息处理理论与实践


作者:
王龙标 党建武 于强
定价:
49.00元
ISBN:
978-7-04-058364-9
版面字数:
450.000千字
开本:
16开
全书页数:
暂无
装帧形式:
平装
重点项目:
暂无
出版时间:
2024-12-20
物料号:
58364-00
读者对象:
高等教育
一级分类:
计算机/教育技术类
二级分类:
计算机类专业核心课程
三级分类:
人工智能

本书阐述语音信息处理的理论与实践内容。全书共8章。第1章介绍语音产生与感知机理,以及与此相关的语言基础知识,是全书的理论基础。第2章介绍语音信号处理基础,包括语音产生与感知的数学模型、语音听觉的数学模型、时域语音信号处理方法、基于产生机理的语音信号处理方法以及基于感知机理的语音信号处理方法。第3章介绍语音识别的原理与技术,重点介绍基于隐马尔可夫模型和基于深度学习的声学模型、语言模型、语音识别解码算法、语音识别技术展望以及基于HTK、Kaldi等工具的相关实践。第4章介绍语音合成原理与技术,主要包括语音合成的原理、基于深度神经网络和端到端的语音合成方法。第5章介绍语音增强的原理与技术,涉及单通道及多通道的各种语音增强算法以及相关实践。第6章介绍说话人识别原理与技术,包含传统说话人识别算法以及基于深度学习的说话人识别算法,最后介绍相关实践。第7章介绍语音对话系统,主要涉及任务型语音对话系统、闲聊系统以及相关实践。第8章介绍语音信息处理前瞻技术。

本书可作为高等学校人工智能专业、计算机科学与技术专业的本科高年级学生、研究生相关课程教材,也可作为从事语音信息处理工作的专业技术人员的参考读物。

  • 前辅文
  • 第1章 语音产生与感知机理
    • 1.1 语音产生机理
      • 1.1.1 有声语言的形成
      • 1.1.2 发音运动及其范畴化
    • 1.2 声源产生机理与感知
      • 1.2.1 声带的生理结构及振动机理
      • 1.2.2 声音的高低与强弱
      • 1.2.3 辅音声源的产生
    • 1.3 语音感知机理
      • 1.3.1 听觉器官的构造及其功能
      • 1.3.2 听觉感知机理与听觉模型
      • 1.3.3 人的语音感知机理
      • 1.3.4 语言中副语言信息和非语言信息的感知
    • 1.4 语音信号及其特性
      • 1.4.1 语音产生的声学计算
      • 1.4.2 声调、语调及韵律
    • 1.5 言语产生与感知的相互作用
      • 1.5.1 言语知觉运动理论
      • 1.5.2 语音产生和感知的时频表示
    • 1.6 小结
    • 1.7 语音生成实验
    • 推荐读物
    • 习题1
    • 参考文献
  • 第2章 语音信号处理基础
    • 2.1 语音产生与感知的数学模型
      • 2.1.1 语音产生系统的表示及其信号的数字化
      • 2.1.2 离散时间信号与离散系统表示
      • 2.1.3 压缩采样理论的原理应用
    • 2.2 语音听觉的数学模型
      • 2.2.1 基于神经心理学研究的听觉数学模型
      • 2.2.2 听觉滤波器
      • 2.2.3 听觉模型
      • 2.2.4 基于双耳机制的声源定位方法
      • 2.2.5 听觉的时间信息处理机制
    • 2.3 时域语音信号处理方法
      • 2.3.1 短时平均能量
      • 2.3.2 短时平均过零率
      • 2.3.3 短时自相关函数
    • 2.4 基于产生机理的语音信号处理方法
      • 2.4.1 倒谱分析
      • 2.4.2 线性预测编码
      • 2.4.3 语音基频的提取
    • 2.5 基于感知机理的语音信号处理方法
      • 2.5.1 滤波器组的分析
      • 2.5.2 梅尔频率倒谱分析
      • 2.5.3 感知线性预测分析
      • 2.5.4 语音信息处理系统的前端增强
    • 2.6 小结
    • 2.7 语音信号处理实验
    • 推荐读物
    • 习题2
    • 参考文献
  • 第3章 语音识别原理与技术
    • 3.1 语音识别概述
      • 3.1.1 简介
      • 3.1.2 发展历史
      • 3.1.3 基于模板匹配的语音识别
    • 3.2 声学模型
      • 3.2.1 隐马尔可夫模型的基本原理与算法
      • 3.2.2 基于GMM-HMM的声学模型
      • 3.2.3 深度神经网络简介
      • 3.2.4 基于深度学习的声学模型
    • 3.3 语言模型
      • 3.3.1 基于N-gram的语言模型
      • 3.3.2 基于深度学习的语言模型
    • 3.4 语音识别解码算法
      • 3.4.1 基于Viterbi的解码算法
      • 3.4.2 基于加权有限状态转换机的解码算法
    • 3.5 语音识别技术的展望
    • 3.6 小结
    • 3.7 语音识别实践
      • 3.7.1 开源数据集
      • 3.7.2 语音识别工具
      • 3.7.3 搭建语音识别系统
    • 习题3
    • 参考文献
  • 第4章 语音合成原理与技术
    • 4.1 语音合成方法的回顾
      • 4.1.1 基于语音产生机理的语音合成方法
      • 4.1.2 基于参数分析的语音合成方法
      • 4.1.3 文语转换语音合成方法
    • 4.2 语音合成的原理
      • 4.2.1 文本分析
      • 4.2.2 韵律分析
      • 4.2.3 统计参数语音合成的原理
    • 4.3 语音合成的主流技术
      • 4.3.1 基于深度神经网络的语音合成
      • 4.3.2 端到端语音合成
    • 4.4 多样化语音合成
      • 4.4.1 基于平均音模型的多样化语音合成
      • 4.4.2 基于深度学习的多样化语音合成
      • 4.4.3 低资源场景下的语音合成
      • 4.4.4 抗噪语音合成
    • 4.5 小结
    • 4.6 语音合成实践
      • 4.6.1 实验设计
      • 4.6.2 实验内容
    • 习题4
    • 参考文献
  • 第5章 语音增强原理与技术
    • 5.1 语音增强概述
    • 5.2 单通道语音增强
      • 5.2.1 基于传统信号处理的语音增强方法
      • 5.2.2 基于深度学习的语音增强方法
    • 5.3 基于麦克风阵列的语音增强
      • 5.3.1 固定波束形成
      • 5.3.2 自适应波束形成
    • 5.4 语音增强技术的展望
      • 5.4.1 语音增强和语音分离的结合
      • 5.4.2 语音增强和脑科学研究的结合
      • 5.4.3 多模态语音增强技术
      • 5.4.4 实时在线语音增强技术
    • 5.5 小结
    • 5.6 语音增强实践
      • 5.6.1 加噪声、混响
      • 5.6.2 语音增强Matlab算法实践
      • 5.6.3 基于深度神经网络的语音增强实践
      • 5.6.4 基于Wave-U-Net的语音增强实践
    • 习题5
    • 参考文献
  • 第6章 说话人识别原理与技术
    • 6.1 说话人识别概述
      • 6.1.1 说话人识别概念
      • 6.1.2 说话人识别技术优势
      • 6.1.3 说话人识别应用前景
      • 6.1.4 说话人识别技术难点
      • 6.1.5 说话人识别发展历程
    • 6.2 传统说话人识别算法
      • 6.2.1 经典前端特征
      • 6.2.2 经典识别模型
    • 6.3 基于深度学习的说话人识别算法
      • 6.3.1 深度说话人特征
      • 6.3.2 后端判别算法
      • 6.3.3 端到端的说话人识别模型
      • 6.3.4 迁移学习、多任务学习及多数据库联合学习
    • 6.4 小结与展望
    • 6.5 说话人识别实践
      • 6.5.1 所需环境
      • 6.5.2 数据库与评价指标
      • 6.5.3 基于i-vector的说话人识别实践
      • 6.5.4 基于x-vector的说话人识别实践
      • 6.5.5 常用声纹数据库及工具箱
    • 习题6
    • 参考文献
  • 第7章 语音对话系统
    • 7.1 语音对话系统概述
      • 7.1.1 语音对话系统的发展历史
      • 7.1.2 语音对话系统的分类及应用场景
    • 7.2 任务型语音对话系统
      • 7.2.1 口语理解
      • 7.2.2 对话状态追踪
      • 7.2.3 对话策略学习
    • 7.3 闲聊系统
      • 7.3.1 检索式闲聊系统
      • 7.3.2 生成式闲聊系统
    • 7.4 语音对话系统展望
    • 7.5 小结
    • 7.6 语音对话系统实践
      • 7.6.1 对话行为识别实验
      • 7.6.2 域检测、意图识别和槽填充联合训练实验
      • 7.6.3 对话状态追踪实验
      • 7.6.4 对话策略学习实践
      • 7.6.5 检索式聊天机器人的实现
      • 7.6.6 生成式闲聊系统的实现
    • 习题7
    • 参考文献
  • 第8章 语音信息处理前瞻技术
    • 8.1 语音情感信息处理与分析
      • 8.1.1 情感描述模型
      • 8.1.2 语音情感数据库
      • 8.1.3 语音情感特征
      • 8.1.4 语音情感识别算法
      • 8.1.5 结论与展望
    • 8.2 基于端到端的语音信息处理
      • 8.2.1 面向语音识别的端到端模型
      • 8.2.2 端到端口语理解模型
      • 8.2.3 问题及展望
    • 8.3 基于类脑计算的语音信息处理
      • 8.3.1 基于稀疏关键点的编码方法
      • 8.3.2 神经元模型
      • 8.3.3 多脉冲学习算法
      • 8.3.4 基于稀疏关键点编码技术和多脉冲学习算法的环境声音识别模型
      • 8.3.5 结论与展望
    • 习题8
    • 参考文献

相关图书