语音合成技术在电力物资供应业务的话务服务中的应用

发表时间:2021/1/13   来源:《中国电业》2020年第27期   作者:邓努波、张建华、张丽娟、向洪伟、黄嫄、郭强、程洁
[导读] 电力物资供应业务场景中的话务服务量大,需为供应商提供7*24小时业务咨询服务
        邓努波、张建华、张丽娟、向洪伟、黄嫄、郭强、程洁
        国网重庆市电力公司物资分公司,重庆   400020
        摘要
        电力物资供应业务场景中的话务服务量大,需为供应商提供7*24小时业务咨询服务,依靠语音识别,语音合成可以实现自助应答,依托电力物资知识库,解决供应商在招投标及物资履约及结算过程中各类问题,改善营商环境。
        本文总体上使用理论研究和实证研究相结合的研究方法。理论研究上,主要对AI智能外呼系统中的语音合成技术,将注意力上下文向量与编码器输出编码序列拼接在一起,使前一个解码过程后的累积注意权重被当作一个附加特征,使得模型在沿着输入序列前进时保持一致性,减少了解码时可能出现的子序列遗漏或重复等问题,提高了最后合成语音的准确性;实证研究上,通过其在电力物资供应商平台的表现情况,来实际说明其有效性和实用性。
        关键词:语音合成,人工智能,外呼系统
        第一章引言
        电力物资企业为更好地服务供应商,对供应商提供7*24小时标准化无差异业务咨询服务,随着人工智能时代的到来,图像识别、语音识别等技术日趋成熟,具备了在各领域应用实践的条件,依托工智能语音技术可以接管大部分人工话务工作,释放人力,提高效率。因此,大量电力物资公司纷纷开始了智能外呼系统的建设。
        智能外呼系统将语音识别技术与现有物资供应商通知业务相结合,供应商服务大厅工作人员可以便捷地实现中标信息的批量通知、资质业绩核实结果的反馈、合同结算单据催办等功能,从而简化人工外呼频率、减少坐席人员外呼工作量、提高信息通知效率。最大限度的提升服务效率和服务满意度,直接提高供应商服务满意度。
第二章AI智能外呼系统的主要架构
2.1 系统概述
        智能外呼系统通过对客户资料数据,设置外呼的启动时间段、呼叫间隔频率、呼叫次数、接通后的后续处理方式等条件,系统会自动根据该任务的客户列表进行调度并完成向外拨打电话;智能外呼系统的语音交互功能,可以实现将客户语音信号进行分析归类,将客户提出问题寻找相对应的应答结果,及时反馈给客户;或者以文本形式提交到数据处理中心,将同类问题集中进行分析,并最终予以批量回复,这样能够极大的提高工作效率,同时给予用户优质的服务体验。
2.2系统的主要架构
        智能外呼系统是基于人工智能技术的产品,有很多复杂的底层构架,但主要由下面几部分组成:
        
    
第三章智能语音合成技术
        3.1智能语音技术概述
        在智能外呼系统中,最主要的功能使用就是人机交互功能,而人机交互功能是通过语音技术进行实现的。系统语音技术主要分两个部分,一是语音识别技术;二是语音合成技术。语音合成技术作为智能语音技术中最重要的组成部分,也是本文所集中研究讨论的主要内容。
        智能语音技术的组成部分相关说明如下:
        (1)智能系统语音识别(ASR):检索服务器负责对用户的语音转写成文本。智能检索系统服务器与IVR服务器进行交互,对客户的输入的语音转写成文本,然后调用智能知识检索系统的核心引擎结合知识管理优化服务器上的信息和规则对转写的文本进行智能分析,得到分析结果后,将分析结果返回给IVR平台。完成智能客服“听”的功能和“思考”的功能。
        (2)智能系统语音合成(TTS):语音合成服务器负责将知识库内容进行语音合成。IVR服务器调用语音合成引擎,将知识库内容的文本合成为语音,然后IVR服务器把合成的语音播放给用户,通过语音交互的方式回答或解决用户的问题,完成智能客服“说”的功能。


        3.2语音合成技术(TTS)研究语音合成技术TTS,TTS是Text To Speech的缩写,即从文本到语音。它是在内置芯片的支持之下,通过神经网络的设计,把文字智能地转化为自然语音流。TTS技术对文本文件进行实时转换,转换时间之短可以用秒计算。在其特有智能语音控制器作用下,文本输出的语音音律流畅,使得听者在听取信息时感觉自然,毫无机器语音输出的冷漠与生涩感。
        在本项目建设中采用语音合成系统提供语音合成能力。语音合成系统是业界领先的语音转化引擎,采用最先进的中文文本、韵律分析算法和大语料库的合成方法,合成语音已经接近真人的自然效果。
        语音合成模型的特征提取分为文本特征提取和声学特征提取。文本特征提取模块首先对输入文本数据做字符嵌入(Character Embedding),即使用固定维度大小的向量来对文本字符进行表征,然后通过Pre-Net、CBHG两个子网络,得到特征数据。模型使用梅尔频谱和线性频谱作为声学特征,充当连接文本和音频之间的媒介。声学特征提取模块首先对语音数据进行预加重处理,将原始音频信号通过一个高通滤波器得到预加重后的语音数据。然后进行短时傅里叶变换得到线性谱:
        
       
        其中为源信号,为窗函数。最后用梅尔滤波器组处理线性频谱得到梅尔频谱:

        模型框架使用了加入了位置信息的位置敏感注意力机制,和基于内容的注意力机制相比,敏感注意力机制能够同时考虑输入音素的内容和位置,可以使前一个解码过程后的累积注意权重被当作一个附加特征,使得模型在沿着输入序列前进时保持一致性,减少了解码时可能出现的子序列遗漏或重复等问题。
        解码器中使用两层残差GRU结构,其输出是输入与经过GRU单元输出之和。每层同样包含了256个GRU单元。最后通过一层线性层输出预测的梅尔特征。每次解码时,可以预测多个非重叠的帧,从而降低模型的复杂度并减少模型训练和预测的时间。模型框架还加入了停止令牌模块,这个模块用于计算解码过程是否结束的概率,是一个二分类问题,能在推断时允许模型动态决策是否结束频谱生成,而不是在固定时间内一直运行,能有效加速计算,减小内存占用。
        在解码器之后,使用CBHG模块作为后处理网络,在一个线性频率范围内预测幅度谱,并且由于该模块的输入是完整的梅尔谱特征序列,可以有效的改善解码器自回归计算过程中存在的偏差。格里芬-林(Griffin Lim)算法可以在不破坏相邻的幅度谱和自身幅度谱的情况下,求一个近似的相位,使用格里芬-林算法来将后处理网络的输出合成为语音。
第四章结束语
        综上所述,本文对智能语音技术中的语音合成模型进行了更深层次的研究与探讨,他通过对语音的特征提取、语音信号的滤波处理、解码、重建等操作,将语音进行了更加准确的解析,以输出更为合适当前社会应用需求的语音音频。作为智能计算机研究的主导方向和人机智能交互的关键技术——“语音合成技术”将会有更大发展空间,其理论技术和社会实用性将会被进一步的挖掘。
参考资料
        [1]詹舒波, 张文涛, 牟晓隆. 呼叫中心技术[M]. 人民邮电出版社, 2015.
        [2]李亚梦, 张国鹏, 刘浏, et al. 智能外呼系统研究及设计[J]. 邮电设计技术, 2018, 514(12):83-88.
        [3]赵峻松. 利用TTS技术开发计算机语音功能[J]. 五邑大学学报:自然科学版, 2002, 016(001):54-58.
        [4]姚涵珍, 陆文秀. TTS中文语音合成技术的研究与实践[J]. 天津科技大学学报, 2004(01):65-67.
        [5]毕晓君, 静广宇, 徐先锋. 利用TTS技术实现文本文件的语音合成[J]. 自动化技术与应用, 2004, 23(9):49-49.
投稿 打印文章 转寄朋友 留言编辑 收藏文章
  期刊推荐
1/1
转寄给朋友
朋友的昵称:
朋友的邮件地址:
您的昵称:
您的邮件地址:
邮件主题:
推荐理由:

写信给编辑
标题:
内容:
您的昵称:
您的邮件地址: