张维 饶浪
武昌理工学院人工智能学院,湖北 武汉,430223
摘要: 在生物领域,基因信息定义混乱。同样的基因产物,可能被描述为“翻译类”,也可能被描述为“蛋白质合成类”,那么这无疑对于计算机来说是很难区分开这两个在字面上相差甚远却在功能上相一致的定义。本文采用基于LDA的方法来计算两个基因之间的相似度,达到基因本体术语预测的目的,而这个目的的初衷就是使得定义标准化,让他人能够更方便更快捷更准确的查询到相应的信息,目前这个方法能够在局部参数调优下达到很好的预测效果。
关键词: 基因本体术语;LDA;相似度;预测
1 引言
在生物领域,搜索信息非常困难,因为生物学上各自定义的概念比较凌乱。GO(Gene Ontology)项目就是为了能够使对各种数据库中基因产物功能描述相一致的努力结果。基于这样的一个背景,基因本体这个任务就由一个组织BioCreAtlvE(Critical Assessment of Information Extraction systems in Biology)提出来。这个组织提供一种评价体系,所有做生物文本挖掘工作的方法都能够在这里面统一被评测,最终可以看到各种方法的优劣。
基于此,本文希望寻找到一种方法能够使得在基因本体基因本体术语预测都符合规范,都在同一个定义范围内。2 研究现状
前人在这些问题上采用了一些方法,Julien Gobeill等[1]人提出了一种机器学习的分类器GOCat[2,3],这个分类器是基于KNN算法而构造的,它会把整个的输入文本作为一个整体,在语料库里面找出与输入文本在词法上最相近的K个实例。Ehsan Emadzadeh等[4]人采用的方法是计算语义相似度,而在表示向量方面他们采用了LSA[6~8],通过LSA对文本做最基础的向量处理,将文本转变成计算机可识别并且能处理的数据格式[9,10],然后计算某两个输入文本的语义相似度。Yanpeng Li等[5]人构建了基于多策略过滤框架的信息检索系统,采用了类似于PageRank的排序算法对检索结果进行打分。
本文采用语义相似度来计算两两之间的相似度,从而实现基因本体术语预测。
3 基于LDA的基因本体预测研究
基因本体的预测,在这里被定义为一个语义相似度的问题,本文采用LDA模型,它主要是根据词语的语义贡献度来决定词语主题的分布。
3.1 主题概率模型LDA
主题概率模型LDA[11]是一个典型的文档主题生成模型,经常被用来建立离散数据的概率分布,它的主要思想就是:通过随机分布的隐含主题(Topic)来描述某些文档或者文档集,而对文档集描述的topics则是一些词的特征化表示。这里先来简单介绍一下LDA。简单来说LDA的生成过程就是对每一篇文档,从主题分布中抽取出一个主题,接着从上述主题中抽取该主题分布下的一个单词,无限的循环下去直到每个单词都被抽取到。
3.2 相似度计算
本文相似度计算采用的是向量空间余弦相似度。下列表达式就是计算两个向量之间的余弦相似度的。

(3-1)
Sim(x,y)表示的就是个体x和个体y之间的相似度大小,x代表的是某个个体,它可以用m维向量来表示,x=(x1,x2……xn),y代表的是另一个不同的个体,它也可以用m维量来表示,y=(y1,y2……yn)。跟欧式距离相反的是,Sim(x,y)的值越大,就说明x和y之间相似度就越高;反之就越不相似。
4 实验与分析
在传统的评价体系中,包含准确率P、召回率R和F1值三个参数,这里增加了级联准确率hP、级联召回率hR和级联hF1值。
表1展示的本文的LDA、(LDA+扩展)和PLSA、GO Finder的效果对比。(LDA+扩展)指代的就是在原本的基因本体术语加入了基因本体术语的内容扩展,加入了它的定义和同义词。
表1 LDA和PLSA、GO Finder的效果对比

从上表可以看出在运用了主题模型LDA之后,在语义相似度方面,单纯的LDA跟其他的两个模型,在效果方面,表现不尽如人意,尽管在层级效果上要比其他的好,但是在准确率和召回率上,LDA足足比GO Finder少了三个百分点,但是在LDA基础上加入了语义补充后,同比LDA效果较为明显,在整个表现上也是最好的。
5 结束语
本文在分析了基因本体术语预测的任务的难度,以及目前取得的一些表现,目前主流的方法是语义方面,多数人都是采用的模型去计算两者之间的相似度,比如PLSA、LSA,虽然本文采用了时下流行的主题模型LDA对这个问题进行了分析和探讨,但随着人们不断的研究,未来可以出现更好的主题模型或者分类的方法,或者融合二者的方法,则基因本体术语预测的研究未来可期。
参考文献
[1] Gobeill J, Pasche E, Vishnyakova D, et al. Managing the data deluge:data-driven GO category assignment improves while complexity of functional annotation increases[J]. Database the Journal of Biological Databases & Curation, 2013, 2013(27):4734-4743.
[2] Gobeill,J.,Pasche,E.,Teodoro,D.etal.(2012)Answering Gene Ontology terms to proteomics Questions by supervised macro reading in Medline.In:Proceedings of NETTAB Conference,EMBnet.journal,North America 18,Nov.2012.
[3] Gobeill,J.,Pasche,E.,Vishnyakova,D.and Ruch,P.(2013)Managing the data deluge:data- driven GO Category assignment improves while complexity of functional annotation increases.Database (Oxford).2013 Jul9;2013:bat041.doi:10.1093/database/bat041.
[4] Emadzadeh E, Nikfarjam A, Ginn R E, et al. Unsupervised gene function extraction using semantic vectors[J]. Database, 2014, 2014(18):2691-2692.
[5] Y L, H Y. A robust data-driven approach for gene ontology annotation.[J]. Database the Journal of Biological Databases & Curation, 2014, 2014.
[6] Turney P D. Mining the Web for Synonyms: PMI-IR Versus LSA on TOEFL[J]. Lecture Notes in Computer Science, 2001:491-502.
[7] Kintsch E, Steinhart D, Stahl G, et al. Developing Summarization Skills through the Use of LSA-Based Feedback[J]. Interactive Learning Environments, 2010, volume 8(200008):87- 109.
[8] Nakov P, Popova A, Mateev P. Weight functions impact on LSA performance[J]. EuroConference RANLP'2001 (Recent Advances in NLP, 2001:187--193.
[9] Kanejiya D, Kumar A, Prasad S. Automatic Evaluation of Students' Answers using Syntactically Enhanced LSA[J]. Human Language Technology, 2004:53--60.
[10] McNamara D S, Memphis U, Levinstein I, et al. Evaluating Self-Explanations in iSTART: Comparing Word-Based and LSA Algorithms[J]. In, 2007.
[11] 冯时,景珊,杨卓等.基于LDA模型的中文微博话题意见领袖挖掘[J].东北大学学报:自然科学版, 2013, 34(4).