机器翻译算法概述

发表时间:2021/7/2   来源:《中国科技信息》2021年8月   作者:叶浩祺
[导读] 随着人工智能技术的不断发展,机器翻译技术也得到了显著的改善和提高,为人们的工作学习带来很大的帮助。

深圳市第二高级中学   叶浩祺  518000

摘要:随着人工智能技术的不断发展,机器翻译技术也得到了显著的改善和提高,为人们的工作学习带来很大的帮助。本文将对机器翻译算法进行简要的介绍,旨在帮助大家了解机器翻译算法的知识,促进机器翻译算法未来的进一步发展。
关键词:机器翻译;神经网络;Google翻译
        1 引言
        机器翻译,又称为自动翻译,是利用计算机将一种自然语言(源语言)转换为另一种自然语言(目标语言)的过程。在各国文化、经济、政治走向全球化的今天,实现世界常用语言甚至全部语言之间的互相转换成为了迫切需要。而面对科技的迅速发展,机器翻译将会逐渐取代人工翻译成为世界各国无障碍沟通的常用工具。然而现阶段机器翻译算法仍存在一些不足,为探究机器翻译算法,从而推动其升级换代,本文将对机器翻译发展历史、机器翻译算法、常用机器翻译软件对比及机器翻译发展趋势进行简要概述。
        2 机器翻译发展历史
        早在20世纪30年代时,苏联科学家 Peter Troyanskii已尝试研究一种基于胶片相机和打印机的简易翻译机器并向当时的苏联科学院提交,却被认定没有实用价值。而随着计算机的出现,1949年,美国科学家W. Weaver 发表《翻译备忘录》 ,正式提出机器翻译的思想,开启了人们对机器翻译的探索之路。在这期间,通过机器翻译的算法的演变,可以分为四个阶段。
        2.1 基于规则的机器翻译算法
        从1954年IBM与美国乔治敦大学研发的世界上第一台俄译英翻译机IBM-701到20世纪90年代,在这贯穿冷战时期的四十多年中,基于规则的机器翻译算法,即通过逐字对应以及语法规则的翻译算法,一直认为是世界上主流的研究方向。但因为不同语言语法的复杂性和模糊性,一直未能得到满意的结果。以至于在1966年11月,美国科学院语言自动处理咨询委员会否定了机器翻译的可行性,使得机器翻译的进展工作一度受阻。这段时期也被学术界公认为是机器翻译研究的受挫期(1964-1975)。
        2.2 基于实例的机器翻译算法
        上文提到,世界各国的机器翻译工作曾一度停滞不前。而日本却因为国民总体英语水平不高,从而对于机器翻译有着迫切需要,一直开展研究工作。1984年,日本京都大学的长尾真教授提出了基于实例的机器翻译算法,即将翻译的句子与相似的例句进行对比,将其中的不同的词进行替换从而实现翻译。这种算法摒弃了先前对于语言语法规则的执念,而是基于语言初学者的习惯用法。同时其中提出的利用语料库的思想,更是推动了机器翻译算法过渡到下一个阶段。
        2.3 基于统计的机器翻译算法
        从本质上讲,基于统计的机器翻译算法与上文提及的基于实例的算法都是通过实例从而进行翻译。而基于统计的机器翻译算法之所以在14年神经网络算法出现前一度成为主流算法,甚至被当时世界上最好的机器翻译软件——Google翻译沿用。重新将机器翻译算法定义为概率学问题,主张通过大量的平行语料库对比,统计出同一个短语所出现不同译意的概率,使得机器翻译从逐词翻译跨越到短语翻译的新时代。
        2.4 基于神经网络的机器翻译算法
        虽然基于统计的机器翻译算法看上去准确度已经大大提升,但由于需要制作大量的平行语料交给计算机运算、使得机器翻译的成本比起人工翻译高到惊人,因此利用这种方法难以让机器翻译真正取代人工翻译。而在2014年,蒙特利尔大学计算机科学与运算研究系教授Yoshua Bengio,在其论文中首度提出将神经网络用于机器翻译。自此,基于神经网络的机器翻译算法确定了基本架构。起初,这种算法并没有在互联网领域引起波澜,唯独Google公司对其十分重视。经过2年研发,宣布2016年全面替换其基于统计的机器翻译为神经网络翻译算法。经过这几年的发展,如今,神经网络算法已经成为世界的机器翻译算法的主流研究方向[1]。
        3 机器翻译算法介绍
        接下来,本章将会对基于规则、基于统计以及基于神经网络的三种算法的工作原理和优缺点进行概述。
        3.1 基于规则的机器翻译算法
        在这种算法下,首先引入的是“词典”这一概念,它通常是由多个词项及其相关的短语和用法习惯组成,与我们生活中常用的词典类似,它是这类算法是否能够完成句法分析、顺利翻译的基础资源。在接收到一个待翻译的句子时,首先通过句法语义以及标点符号等方式对其进行断句分割。接着将分割出来的每一部分一一匹配词典并调用其中的信息,词典的检索方式有多种算法可以实现,但是算法的选择决定了翻译的效率,因此业内常用哈希表查询方案进行检索。匹配完信息之后,再对句子的整体翻译结果进行语法上的分析,加以修正,最后得出结果[2]。因此,基于规则的机器翻译算法的优点在于,因为它是基于语言的句法规则和词汇的语义进行翻译,确保了翻译结果的严谨性。但同时由于语言规则的复杂与模糊,在对于多义词以及特殊句式的问题上,在基于此类算法的架构下难以找到有效的解决方法,这也使得它退出了主流的舞台[2]。
        3.2 基于统计的机器翻译算法
        此类算法的不同之处在于:它将机器翻译问题定义为有着数学统计学理论为基础的概率问题,通过大量的语料库对比统计,让机器得出翻译一个句子的最优解。此类算法的重心放在了机器的训练模型上,令机器在大量的双语平行语料库中,学习词汇的多种译义、双语句子之间对应词汇的方法等翻译知识。因此,在得到待翻译的句子时,只需要在模型中调用相关的信息,得出句子最大概率的翻译结果[3]。这种算法的优点在于:它避开了语法规则的复杂性,不需要人工去构造翻译知识,而是让机器自己在语料库中学习,令翻译结果能更贴切实际的生活应用而非生硬的知识。同时当开发者构造好学习方法后,剩下的只有机器不断的学习和更新,减少了人力成本。当然,要使机器能够进行翻译,至少需要上百万条语料库的对应译句,而这些译句的获取,则需要大量的金钱成本。同时,由于翻译在本质上并不完全是概率问题,使得会出现同一个句子出现不同翻译结果的情况。除此之外,当某种翻译的结果存在偏差时,由于数据的庞大,将难以对其进行修正。



        3.3 基于神经网络的机器翻译算法
        此类翻译算法思想与基于统计的机器翻译算法类似,不同之处在于:基于神经网络的机器翻译算法减少了人工对于隐结构的设计和定义,完全让机器自主学习翻译的规律,更有效避免了自然语言的高度复杂性。而循环神经网络则是目前神经网络算法中主流的网络结构。它将隐状态在相同的网络层次中循环传递,因此具有序列化结构的自然语言句子可以作为它的输入[4] 。这种方式在面对序列化特征的数据时,可以减少计算机的计算量,提高神经网络的效率。这种算法结合了基于统计的机器翻译算法思想,也相应继承了前者存在的缺点,但将计算任务交给神经网络,可以大大提升机器翻译学习的效率和准确度[3]。
        4 常用机器翻译软件对比
        尽管机器翻译算法经过长时间的演变和升级,但由于本身机器翻译问题中涉及多个学科知识之间的交叉以及语言系统的复杂性。如在我们日常的汉语使用中,也会难免存在由于断句错误以及专有名词产生的语意不明,因此机器翻译也难免出现此类问题。本章就着重分析Google翻译以及百度翻译中汉译英的断句问题。
        (1) 海贼王路飞
        百度翻译:Pirate Wang Lufei
        谷歌翻译:One Piece Luffy
        很明显,百度翻译中误断句成“海贼 王路飞”,将“王”作为姓氏进行翻译。而谷歌翻译则给出了准确的“海贼王路飞”这部漫画的官方翻译,证明将其看作了一个整体的专有名词。虽然在日常生活中“王路飞”听上去也可以理解,但谷歌翻译才得到了我们真正想要的结果。
        (2) 佟大为妻子产下一对儿女
        百度翻译:Tong Dawei's wife gives birth to a pair of children.
        谷歌翻译:Tong Da gave birth to a pair of children for his wife./Tong Dawei wife gave birth to a son and daughter.
        如果说“王路飞”还能被接受,那“佟大”为妻子产下一对儿女这句话就完全不符合逻辑了,百度翻译中显然收录了“佟大为”这一男明星的词条,因此翻译出了我们想要的结果。令人惊奇的是,谷歌翻译虽然首先提供了不正确的翻译,但是随后便补充了一种语义相对正确的候选翻译。可以推断Google翻译中的人工智能虽然没有收录“佟大为”这一专有名词,但却有意识分辨“为”字可作为动词也可作为名字,将其可能产生的异译全部翻译出来。
        (3) 研究所有池塘
        百度翻译:Study all ponds
        Google翻译:Study all ponds/All research pond
        “研究 所有池塘”和“研究所 有池塘”这两种断句在逻辑上都是行得通的,因此原则上来说翻译软件翻译成这两种形式都可以接受。百度翻译给出了正确翻译之一,而谷歌翻译却闹出了笑话,既给出了正确翻译,又错误的将“研究”视作名词导致翻译出一句语义不通的话,由此可见,谷歌翻译对于多义句的把握尚未成熟。
        以上三个实例看出,两款机器翻译软件若在收录了专有名词的基础上进行翻译,都不会出现翻译结果的偏差。一旦出现了没有收录过的专有名词,便会出现由断句错误或词性理解错误导致的翻译结果不同。由此看出,现阶段翻译软件仍需大量的收录专有名词,并不能充分发挥深度学习的优势,同时,距离机器翻译正确判断句子结构这一目标上,仍需长期的努力[4]。
        5 机器翻译发展趋势
        虽然神经网络的发展时间不长,但基本奠定了基于神经网络的机器翻译算法是未来的主流算法。而以下几点,则是基于神经网络的机器翻译算法所带来的可供选择的研究方向。
        5.1 多场景的自适应
        由于词汇的多义以及搭配的多样性,未来的机器翻译应该着重于通过深度学习,从而令机器翻译对不同使用环境和领域下,自适应出最佳的翻译结果。使得机器翻译更具有权威性和针对性,真正成为提高办公效率的工具。
        5.2 与语言学之间相互贯通
        尽管神经网络的应用大大提高了机器翻译的准确率,但它归根结底仍是一个概率事件,依旧会存在偏差,虽然我们不能用现阶段的语言学框架套在算法身上,但我们可以通过机器学习过程中自身形成的系统框架,给我们带来灵感和思考,不仅促进了语言学的发展,也推动了机器翻译与语法规则之间的一种新型的结合[5]。
        6 小结
        本文对机器翻译算法的历史进行了介绍、概述了常见的算法,对不同翻译软件之间进行了对比,提出了未来翻译算法可研究的方向。随着时代的发展,机器翻译的必要性日益增加。因此,尽管现阶段的机器翻译仍存在不足,尚未成为一个真正实用的效率工具,但随着人们对于神经网络的探索和研究,机器翻译,未来可期。
参考文献
[1]靳晓芳. 机器翻译的历史和现状[J]. 青年时代(17):86-86.
[2]袁小于. 基于规则的机器翻译技术综述%Rule-based machine translation technology review[J]. 重庆高教研究, 030(3):56-59.
[3]刘群. Recent developments in machine translation research%机器翻译研究新进展[J]. 当代语言学, 011(002):147-158.
[4]王晚秋, 车成. 机器翻译软件比较分析--有道翻译与百度翻译[J]. 校园英语, 2019(6):249-250.
[5]高明虎, 于志强. 神经机器翻译综述%A summary review of neural machine translation[J]. 云南民族大学学报(自然科学版), 028(001):72-76.

投稿 打印文章 转寄朋友 留言编辑 收藏文章
  期刊推荐
1/1
转寄给朋友
朋友的昵称:
朋友的邮件地址:
您的昵称:
您的邮件地址:
邮件主题:
推荐理由:

写信给编辑
标题:
内容:
您的昵称:
您的邮件地址: