人工智能的语音识别系统及应用研究

发表时间:2021/9/6   来源:《中国科技信息》2021年9月下   作者:于传 胡胜利 唐毅 吴可汗
[导读] 作为一种生物识别技术,语音识别是在现有指纹和掌纹的生物特征基础上发展起来的一种新技术。语音识别技术是通过分析一个或多个语音信号的特征来匹配和区分语音信号。笔者对人工智能的语音识别系统及应用进行分析,以期为相关领域的研究奠定一定的基础。

国网安徽省电力有限公司培训中心 安徽电气工程职业技术学院  于传 胡胜利 唐毅 吴可汗    230000 

【摘要】作为一种生物识别技术,语音识别是在现有指纹和掌纹的生物特征基础上发展起来的一种新技术。语音识别技术是通过分析一个或多个语音信号的特征来匹配和区分语音信号。笔者对人工智能的语音识别系统及应用进行分析,以期为相关领域的研究奠定一定的基础。
关键词:人工智能;语音识别;系统应用
        一、引言
        语言识别是一种通过对一个或多个语音信号的特征进行分析,实现声音信号匹配与识别的技术。语言识别是一种生物特征识别技术。因个人声带、口、舌、唇、软腭、咽腔、肺容积、鼻腔、牙齿等声控器官的不同,发音频率不同,音调、强度、音长、音高也不同。世界上没有两种声音是完全相同的,相关领域对这些细微的差异进行观察、描述、区分、识别,是语音识别技术必须解决的问题。
        二、相关概念概述
        (一)语音识别技术
        在指纹识别、DNA识别等方面,语音识别是第三个具有广泛应用前景的新型识别技术。现在,中国科研机构可以在“1: N”级别上搜索并识别10亿秒声音。个人声音的采集、建模和数字化是语音识别技术的基础。可远距离采集语音识别,这样可以方便、快速地确认个人身份。当前,公安机关在办案过程中广泛应用语音识别技术,取得了明显的效果。
        (二)语音识别系统
        1.系统的原理
        语言类似于人体的许多其他生物特征,是独一无二的。世上没有两个人的声音相同。该方法从单个语音信号中提取出的语音特征进行建模和数字化,并通过自动的将整个样本语音集与单个语音样本进行对比,从而进行识别等判断。语音识别系统原理如下图所示。

       
         2.系统模块
        本系统主要分为四个部分:预处理模块、参数分析模块、训练模块和识别模块。预处理模块将模拟语音信号采集到数字语音信号中,这是语音识别的第一步。预处理模块主要完成语音采集和 A/D (模拟/数字)转换,语音识别系统的预处理模块实现了波形编辑处理和(D/A转换)播放等功能。
        通过参数分析模块对语音参数进行提取,提取语音参数能准确地反映出语音的特点。在 TDSI参数分析模块中,采用了基音曲线、偏相关和音长参数作为个体语音特征参数,为参数分析增加正交性。
        由训练模块提取的语音参数作为个体建立训练模块。在 TDSI训练模块 TDSI系统中,采用线性压缩技术将训练语音调节到15帧(0.02 s/frame),通过调整训练语音为1帧(0.02 s/frame)的帧(0.02 s/frame)。识别模块将模板库语音模板和测试语音进行对比,根据最佳接近标准,锁定与测试语音匹配的个体。在 TDSI系统中,采用多层次的识别策略。
        三、语音识别步骤及实验测试
        (一)语音识别步骤
        1.提取特征参数
        特征量是表示物质和现象特性的参数信息。利用语音频谱描述被提取个体的生理结构,主要表现在每个个体的发声器官。不同的声带在医学结构上并不完全相同,有其独特性。对这些参数进行分类筛选,捕捉并测量出每个人声音的短期频谱特征。
        对语音参数的线性预测是基于某些“过去”的语音样本,而“当前”语音参数的计算是基于数学模型,用所得的语音参数计算语音特征。有预见性的计算可以提高计算效率,减少实现成本,而且不需要很多参数就能实现特殊语音的性能。
        利用小波方法提取小波特征参数的特征信息。小波对分辨率变化的适应能力要求语音参数交叉稳定,但对时频域的兼容性要求较高。
        2.识别匹配模式
        通过对获得的语音特征参数进行深入的分析和准确判断,是模式匹配和识别必须完成的任务。
        利用语音参数的矢量设置对检测的个体语音特征进行向量化。若要识别被检测人的语音特征,则应将人声特征的参数作为可表示隐私的语音矢量,并提供相应的标准。在检测人的语音信息发生状态转移时,系统识别出语音信息随时间发生状态转移的最大概率,从而对被检测人的语音模型进行进一步的判断分析。
        (二)实验测试
        1.识别过程
        构造一个语音识别模型,并用图2所示的语音识别系统进行语音识别。声音识别的过程分为五个阶段:
        该方法首先针对采集的原声进行了相应的分帧、预增益、加窗等技术处理。
        然后计算梅尔的频率倒谱系数,并输入特征矩阵I(n*r)。r是帧数。
        再次,通过深度神经网络逐层进行前向计算,得到输出矩阵 O (m*r)。
        然后在输出矩阵中求出列向量输出的最大概率值,并用元素 r构造马氏链。hr=(h1,h2,...,hr);
        五是将前一步所得的 Hr输入语音识别模型,分析语音识别模型,确定最大的对应路径,得到相应的文字信息,最后输出识别结果。
        步骤如下图所示。

         
        2.数据分析
        试验采用一种混合模型,结合深度循环神经网络和高斯隐马尔科夫混合模型进行语音识别。找出语音的特征值后,再利用深度循环神经网络逼近语音的特征值。再将深度循环神经网络输出的语音特征值输入到混合分布的 HMM中,以对 HMM进行比较,最终得到识别结果。
        运用DNN-HMM混合语音识别模型和GMM-HMM常规语音识别模型对语音识别的准确性进行了比较。在DNN-HMM语音识别系统中,单字识别精度达到96.6%,而GMM-HMM语音识别系统仅达到79.8%。其它情况下也得出类似结论。但是DNN-HMM语音识别系统在噪声干扰等个别情况下,仅达80%的识别率,还需要继续研究改进。
        四、结 语
        笔者在本系统通过人工计算和人工智能技术,对语音信息识别与处理中的错误进行纠正和改善,降低语音识别的误检率,提高容错率。其发展应用广泛。所以,智能语音识别系统具有现有语音识别系统无法比拟的优点,其技术开发难度远远低于现有的语音识别系统,有待于进一步完善。语音识别系统的功能随着人工智能与语音识别系统的进一步融合而不断扩展。
参考文献
[1]张国锋.人工智能下深度学习的语音识别方法分析[J].电子技术与软件工程,2020,{4}(11):176-177.
[2]秦继丹.面向终端硬件的智能语音识别及其应用研究[D].电子科技大学,2019.
[3]房爱东,张志伟,崔琳,谢士春.基于人工智能的语音识别系统及应用研究[J].宿州学院学报,2019,34(08):62-65.
[4]栗昱.计算机人工智能识别技术应用瓶颈探析[J].电脑迷,2017,{4}(07):12-13.
[5]杨明翰.深度学习语音识别系统在嵌入式端的研究[D].成都理工大学,2019.

投稿 打印文章 转寄朋友 留言编辑 收藏文章
  期刊推荐
1/1
转寄给朋友
朋友的昵称:
朋友的邮件地址:
您的昵称:
您的邮件地址:
邮件主题:
推荐理由:

写信给编辑
标题:
内容:
您的昵称:
您的邮件地址: