01-生物信息学简介

更新 2025年1月18日

一、什么是生物信息学? #

自从人类进入了基因研究的时代,人们可以轻易获得某些基因或全基因组的序列,用于具体研究某些生物学机制。核酸测序技术因此飞速发展,测序时间、成本不断下降。一个显著的变化就是,人类基因组计划所有任务测序完成所花费的时间以年为单位,而现如今已经快到以天为单位。核酸测序的快速与廉价,使核酸序列相关的研究技术得以普及,进而积累了海量的核酸序列数据。

生物基因组的核酸序列体量庞大,随着不同物种、不同组织的核酸测序数据的不断堆积,新的问题也随之而来——如何存放、管理与分析这浩如烟海的数据。毕竟,一次基因组测序原始数据就以GB为单位,如果用Windows的文本文档打开,不说可能需要相当一段时间,还有可能直接卡死。

类比于图书馆为了管理海量图书,而对图书进行编码、存档与检索;人们迫切需要一种能对海量的生物学数据进行编码、存档、检索、分析,从中挖掘出有用的信息,并以此解释生物学现象的技术手段。由此,生物信息学应运而生。可以看出,生物信息学是运用计算机科学、生物学等多学科,对生物序列数据进行管理和挖掘的交叉学科。

二、生物信息学的发展 #

20世纪末Sanger测序技术诞生以后,科学家已经有能力对单个生物的基因组进行测序,随后的二代和三代测序技术的快速发展更是使得测序能力大大提升。生命科学相关学科从研究某个生物的单个或部分基因,转向研究一个生物的所有基因,即基因组,由此形成了一门现代生命科学领域的前沿学科——基因组学

起初,人们认为,只要获取生物的DNA序列,就可以解释一切生物学行为。随着基因研究的深入,基因组学逐渐显露其局限性:

  1. 完成基因组全长序列测定只完成了结构基因组学的工作,接下来要进行功能基因组学研究,即研究基因有什么功能与作用。基因功能研究所采取的策略,如基因芯片、基因表达分析,主要是从mRNA表达为切入点进行研究,这就要求mRNA水平反应了蛋白质水平;
  2. 从基因到蛋白质之间存在转录水平调控、翻译水平调控、翻译后水平调控3个层次的调控,此外还存在一个基因对应多个蛋白、多个基因对应一个蛋白的情况,mRNA丰度与相应蛋白表达丰度的相关性并不好,用mRNA丰度代表蛋白质,实际上仅考虑了转录水平调控;
  3. DNA还存在甲基化修饰等表观遗传学机制,调控基因的表达。

上述种种,让科学家认识到,基因组水平上的研究难以解释所有生物学现象。中心法则的源头是DNA,最终去路是蛋白质。蛋白质是生理功能的执行者,生命在生理或病理条件下的变化机制,最终都从蛋白质水平上表现出来。为此,蛋白质组学便开始发展起来。

可惜的是,蛋白质组学的研究技术亦不够完善,目前的蛋白质分离鉴定技术难以像核酸测序技术一样,对一个物种的整个蛋白质组学进行全面高通量测序鉴定,当前技术下的蛋白质组学研究尚不能从整体上研究生物体。为了系统研究基因表达调控规律,亦可以由转录组水平为切入点,转录组学即是在转录水平层面研究基因表达及调控的学科。此外,生物信息学还衍生出代谢组学、宏基因组学、系统生物学、分子进化与系统发育等方向。

现如今生物信息学的应用十分普遍,宏基因组学就是一个很好的例子。在临床上,发热查因,考虑不明病原体感染,往往会取患者血液或痰液标本送检验公司进行宏基因组高通量测序,测出该份样本中所有物种的基因组序列,检验公司将测序的原始数据与数据库众多微生物的参考基因组比对,进而可以确定样本中可能包含的病原微生物。

三、生物信息学的基本研究思路 #

实验研究设计有三要素与三原则,三要素即研究对象、处理因素、观察效应;三原则即随机、对照、重复。传统的生物信息学是一个以核酸或蛋白质序列、表达量的变化为观察效应的实验工具。

举个例子,经典生物学实验研究某药物处理某细胞后,与未用药的对照组相比,某个蛋白或基因的表达量是否发生了改变,可以选择WB或ELISA作为工具来检测这个待测蛋白,用qPCR为工具来检测这个基因,这个蛋白或基因的表达量就是观察效应。此时,如果想研究实验组与对照组相比,有哪些基因的表达发生了改变,那么经典生物学研究手段就无能为力了。但通过将实验组与对照组的整个RNA文库进行高通量测序,并进行转录组学分析,就能轻而易举了解两组样本之间的转录本差异。

需要注意的是,生物信息学是一门以统计分析为基础的学科,其产生的结果仍需要经过经典生物学实验的验证。

参考文献 #

[1]陈铭. 生物信息学[M]. 第四版. 科学出版社, 2022.