当前位置:首页  新闻公告  新闻资讯
计算分子生物学:计算分子生物学是一个十分活跃的研究领域,它致力于应用可计算的技术研究生物学的问题,包括存储、抽取和分析生物学数据
发布人:test  发布时间:2006-08-26   浏览次数:16

欢迎访问ITNLP 生物信息研究组!

计算分子生物学是一个十分活跃的研究领域,它致力于应用可计算的技术研究生物学问题,包括存储、抽取和分析生物学数据,如核酸(DNA/RNA)、蛋白质序列、结构、功能、调控网络等。

研究内容

1. 生物序列的N-grams统计分析

不同的组织具有不同的基因组,这与生物体生活的环境相关。同时,不同基因组之间基因的内容也各异。在此,我们将基于语言特性的整个基因组的蛋白质序列分析技术,应用于生物体的区分。针对大量的生物数据,应用n-gram统计分析发现不同生物体之间呈现出的差异。其详细的分析技术与词n-gram分析类似,可用于建立生物序列的预测、主题分类和信息抽取的模型。

2. 生物词典

生物学词典的建立对于最终蛋白质结构的预测有着至关重要的意义。生物学词典是与生物体种类相关的,其中不但包括与生物体种类密切相关的短语,而且包括氨基酸序列中存在的一些对蛋白质的折叠有重要影响的固定的短语与结构,其构成包括序列局部的和全局的信息,其类型不但包括氨基酸序列,而且还包括二级结构元素、三级结构特性(接触对、亲和性、等等),甚至也包括功能数据。

3. 蛋白质结构与功能间映射关系的学习

假设生物序列与语言之间有着更深层次的相似性,它允许我们应用统计语言模型从生物数据中抽取语义,应用计算语言学的方法,利用生物学词典,建立生物语言模型来预测蛋白质的结构,建立蛋白质序列与结构和功能间的映射关系。

4.蛋白质相互作用预测

在所有生命活动中,蛋白质之间的相互作用是必不可少的,它是细胞进行一切代谢活动的基础。揭示蛋白质之间的相互作用关系、建立相互作用关系的网络图,已成为蛋白质组学研究中的热点,具有重大的生物学意义

蛋白质相互作用位点的预测要研究的内容是确定在蛋白质-蛋白质的相互作用中,某一条链上哪些残基参与了作用。确定蛋白质相互作用的界面残基对构建蛋白质复合体的结构模型具有很强的指导意义。与此同时,蛋白质相互作用位点的研究对理解生物体活动机制、蛋白质功能研究、疾病诊断和药物研究有重要意义。

5.生物医药数据的知识发现

随着计算技术和生物技术的进步,当前生物医药相关的文献正在以前所未有的速度增长。这些文献中蕴含了大量的知识。研究人员可以利用不同文献中的研究成果,来寻找疾病和基因之间的关系、基因和不同生命功能以及不同基因之间的关系等非常有用的知识。因此,针对海量的生物医药文献的知识挖掘工具成为相关研究人员的迫切需要。

根据任务不同,目前的生物医药文献挖掘研究可以分为以下几类

*生物医药名实体识别

*同义词与缩略语识别

*生物医药文献分类

*关系抽取

*假设生成

6. 基因表达数据的聚类分析

基因表达水平的分析对于研究及了解生物体特性和基因功能起着至关重要的作用。基因聚类是为了发现具有协同调节和功能相关的组,在此基础上寻找相关基因,分析基因的功能;进一步的分析还包括探索基因的转录调节网络,发现基因在环境或药物作用下表达模式的变化,阐明一些基因对另一些基因的调节作用。利用聚类分析的结果可以研究基因的启动子,分析表达模式相同的一类基因的启动子组成特性,通过多重序列比对操作,在各个基因序列的上游区域寻找共同的启动子。虽然聚类方法是基因表达数据分析的基础,但是目前这类方法只能找出基因之间简单的、线性的关系,需要发展新的分析方法以发现基因之间复杂的、非线性的关系。

7. 基因区域预测

所谓基因区域预测,一般是指预测DNA序列中编码蛋白质的部分,即外显子部分。目前,基因区域域的预测已从单纯外显子预测发展到整个基因结构的预测。这些预测综合各种外显子预测的算法和人们对基因结构信号(TATA盒等)的认识,预测出可能的完整基因。

研究人员

林磊董启文李明辉,冯杨, 陈宏杰

发表文章

董启文,王晓龙,林磊,关毅,赵健,蛋白质二级结构预测基于词条的最大熵马尔科夫方法,中国科学 C生命科学,2005,35(1):87-96

2 Q.W.Dong, X.L.Wang ,Lei Lin Application of latent semantic analysis to protein remote homology detectionBioinformatics,volume. 22, no. 3, pp. 285-290

Dong Qiwen, Wang Xiaolong, Lin Lei and Xu zhimingDomain Boundary Prediction Based on Profile Domain Linker Propensity IndexComputational biology and chemistry, Vol. 30, No. 2, pp. 127-133, 2006

4 Dong Qiwen, Wang Xiaolong and Lin LeiNovel Knowledge-Based Mean Force Potential at the Profile LevelBMC Bioinformatics, Vol. 7, No. pp. 324, 2006

Minghui Li, Wang Xiaolong, Lin Lei. Protein Secondary Structure Pattern Discovery. IEEE Proceedings of 2004 International Conference on Machine Learning and Cybernetics, ShanghaiChina, 2004:1435-1440

6 Q.W.Dong, X.L.Wang ,Lei Lin, N-gram Statistics and Linguistic Features Analysis of Whole Genome Protein Sequences, HUPO 3rd Annual World Congress.

7董启文,林磊,王晓龙,李明辉,A PATTERN-BASED SVM FOR PROTEIN REMOTE HOMOLOGY DETECTION,第三届国际机器学习与控制论会议,广州,2005.8.

8张世伟,林磊,关毅,王晓龙,Microarray gene expression data analysis based on Self-gowth tree,第三届国际机器学习与控制论会议,广州,2005.8.

苑永生,林磊,董启文,王晓龙,李明辉,A Protein Classification method based on Latent Semantic Analysis27th Annual International Conference of the IEEE Engineering in Medicine and Biological Society (EMBS)Shanghai2005.

10董启文,林磊,王晓龙,李明辉,Contact-based Simulated Annealing Protein Sequence Alignment Method27th Annual International Conference of the IEEE Engineering in Medicine and Biological Society (EMBS)Shanghai2005.9.

11 李明辉,林磊,王晓龙,董启文,刘桃,Study on Relation ship between Protein Sequence Pattern and Pattern and Protein Secondary Structure27th Annual International Conference of the IEEE Engineering in Medicine and Biological Society (EMBS)Shanghai2005.9.

12王帅,林磊,董启文,基于同源建模的蛋白质结构预测系统的研究,第四届黑龙江省计算机学会会员大会暨2005年年会

13 Chengjie Sun, Xiaolong Wang, Yi Guan, Lei Lin,Biomedical Named Entities Using Conditional Random Fields Model,The 2nd International Conference on Natural Computation (ICNC'06), Xi'an, China

演示系统

蛋白质二级结构预测演示系统

蛋白质词演示系统