语音识别在电力调度中的应用分析

发表时间:2020/8/12   来源:《电力设备》2020年第10期   作者:黄太芬
[导读] 摘要:针对于高智能电网调度而言,为提高语音识别的准确率,将相关技术引入语音识别领域,基于深度神经网络,提出了电力调度语音识别技术。
        (广西电网有限责任公司河池金城江供电局  广西河池市  547000)
        摘要:针对于高智能电网调度而言,为提高语音识别的准确率,将相关技术引入语音识别领域,基于深度神经网络,提出了电力调度语音识别技术。本文对语言识别基本框架及流程进行了阐述,对电力调度语音识别进行了分析,其包括DNN训练原理及方法、电力调度语音语料库制作以及端点检测等,并列举了具体应用实例,希望能帮助到相关人士。
        关键词:端点检测;电力调度;模型训练;语音识别
        引言:现如今,在电力物联网不断发展的背景下,相关的先进技术将被广泛应用于电力调度,比如人工智能技术及云大转移技术等。对于调度运行及电网控制系统来说,仍使用较为传统的方式来进行人机交互,具体而言,交互过程通过键盘及鼠标得以完成,操作起来较为繁琐。语音人机技术的应用,逐渐淘汰传统交互方式,该技术属于人工智能技术范畴,且具备较好的应用效果。对于语音人机而言,语言识别是其基础,语言识别准确与否将直接决定人机交互效果。
        1.语言识别基本框架及流程
        针对于语言识别基本框架而言,其流程图如图1所示,语音流程主要包括以下4个方面,既是数据采集、模型训练、端点检测及语音识别。
       
        图1 语音识别基本框架流程图
        数据采集:依据采集到的数据,进而进行录音及制作数据文本。通过数据预处理,能对相关数据(比如音频数据及文本等)进行修正,由此促使音频与文本相匹配,为获取准确的序列(音素序列及拼音序列),需为其打上标签。模型训练:针对于模型训练,可以将其分为声学及语言两种类型。在对语音进行识别时,需对说话人的声音进行分析,需将声音进行分帧处理,具体而言,需将声音进行分段,并以每小段作为一帧。对于语音识别概率训练而言,主要包括以下几种,语言概率:基于语言统计规律,进而获得语句发生的概率;转移概率:也就是指一个状态转移到另一个状态的概率;观察概率:指每一个语音状态所对应的概率。对于转移及观察概率的获取,主要基于声学建模得以实现,语言概率则基于语言模型得以实现。端点检测:一般而言,在开始语音识别之前,需去除空白音频,及存在噪音的音频,识别语音信号是否有效,若存在无效语音信号,需将其去除。语音识别:在进行语音识别时,主要基于声学模型,并识别未知语音序列,由此将语言转变为文本。语音识别模型的建立主要基于模型训练(声学模型及语言模型),并结合端点检测结构。
        2.基于DNN的电力调度语音识别分析
        本文对于电力调度语音识别分析而言,主要包括DNN训练原理及方法、电力调度语音语料库制作以及端点检测等,接下来将主要从这几方面进行探讨,以供参考。
        2.1DNN训练原理及方法
        针对于深度学习,其本质是借助于机器,进而学习有关模型及数据特征,并获取大量的数量,在这样的情况下,不仅能提高数据分类的准确率,也能提高数据预测的准确率。与浅层学习相比而言,深度学习具有以下两个特点:更加突出模型结构的深度,通常情况下,隐层节点高于5层;强调数学特征学习的必要性,采用变换特征的手段,在空间之间进行转移,由此促使预测及分类更加准确。对于DNN的训练过程而言,主要包括两个过程,一个是调优过程,另一个是预训练过程。对于预训练过程而言,在该过程中采取的学习方式为非监督形式,其遵循自下而上的原则,具体而言,从底层至顶层进行训练,训练中所采用的数据,可以是标定的,也可以是非标定的,虽然该过程无监督,相对于传统神经网络而言,其是区别最大的部分。监督性调优过程:该过程采用的学习方式为监督形式,同样遵循自下而上原则,训练中所采用的数据是标定的,针对于误差传输,采用自顶向下的方式。
        2.2电力调度语音语料库制作及端点检测
        针对于电力调度领域,及某一地区电网所需,制定了电力调度语音语料库,具体包括以下方面。文本语料制作:首先将对文本语音资料进行分类及去重处理,并对文中的韵母及声母进行统计,结果发现文本中声母占有率为98%,文本韵母占有率为95%。通过在文本中增加韵母中文汉字,进而促使文本中的韵母覆盖率至100%。在切分语料时,需以标点符号为界限,语音录制时间为15秒为宜。
        语音录制:将语音资料发送至录音者,在语音录制完之后,将音频进行回收处理,并给文本及文本音频进行达标。最终得出,有效文本语音时长为204小时,文本容量为22.3G,文本及音频数量皆为68000个。对文件及语音进行注音:为制作模型语料,需对中文进行注音,在对其注音时,不仅要结合汉语拼音,而且要使用标准拼音。对于端点检测而言,其实质是基于音频流,检测有效的语音段,具体而言,包括检测语音起始点,及语音终止点,以此来确定音频信号是否有效,具体检测流程图如3所示。结合电力语音特征,本文采用功率谱熵算法,该方法使用起来较为简单,且计算效果较为有效,促使子波数和设计存在一定的差异。
        3.应用实例分析
        依据本文提出的语音识别技术,研发了语音识别系统。该系统的主程序布置于电网三区,实现电力调度语音识别的流程如图2所示。
       
        图2 系统流程图
        对于日志语音记录的功能而言,其能在较短时间内,录入大量的文字,对于厂站语音调阅功能而言,能在较短时间内直达厂站画面,由此提高人机交互的效果,促使人机交互更友好。D5000画面流程:通过语音识别系统的作用,将出入至系统的语音转换成文本,之后将文本转化为指令(此阶段过指令生成)。再将指令从电网三区传送至电网一区,然后从电网一区传送至指定台,再通过相应工作站执行命令,以此打开D5000画面。人机交互示意图如图3所示。
        选取常用的记录进行语音记录检测,记录条数为100条,并以键盘记录为对照。对于100条记录而言,键盘记录检测所耗用的时间是1230秒,而语音记录检测所耗用的时间是649秒,进而证明语音记录效果更好,记录时间大约降低了46%。D5000厂站画面语言调阅共测试某区域电网厂站共计205座,采用语音调阅厂站画面方式,测试成功率能高达95%,若说话人具有较高的普通话水平,成功率甚至能接近于98%,系统响应速度较快,能满足使用要求。
       
        图3 系统与D5000交互示意图
        结论:通过以上的分析可以得知,基于深度神经网络,提出的电力调度语音识别技术,能提高语音识别的准确率;在对语音进行识别时,需对说话人的声音进行分析,需将声音进行分帧处理,需将声音进行分段;在开始语音识别之前,需去除空白音频,及存在噪音的音频,识别语音信号是否有效,若存在无效语音信号,需将其去除;采用变换特征的手段,在空间之间进行转移,能促使预测及分类更加准确;学习有关模型及数据特征,并获取大量的数量,不仅能提高数据分类的准确率,也能提高数据预测的准确率。
        参考文献:
        [1]窦建中,罗深增,金勇,等.基于深度神经网络的电力调度语音识别研究及应用[J].湖北电力,2019,43(03):16-22.
        [2]鄢发齐,王春明,窦建中,等.基于隐马尔可夫模型的电力调度语音识别研究[J].武汉大学学报(工学版),2018,51(10):920-923.
投稿 打印文章 转寄朋友 留言编辑 收藏文章
  期刊推荐
1/1
转寄给朋友
朋友的昵称:
朋友的邮件地址:
您的昵称:
您的邮件地址:
邮件主题:
推荐理由:

写信给编辑
标题:
内容:
您的昵称:
您的邮件地址: