1977年,Sanger F 创建了双脱氧法核酸测序技术,实现了 DNA 测序技术的第一次飞跃,基于双脱氧法的全自动测序技术被称为第一代测序技术。后来,为了满足 DNA 测序技术的微量、快速和低成本化,新的高通量测序技术应运而生,这些技术能同时平行对成千上万的 DNA 片段进行测序,被冠以新一代测序(Next Generation Sequencing,NGS)的称号,又称为二代测序。二代测序需要将待测样本打断成短序列、进行 PCR 扩增。更新一代的测序技术无需打断成短片段,也无需 PCR 扩展,可直接对长链 DNA 单分子进行测序,被称为三代测序技术。
一、双脱氧法核酸测序技术 #
双脱氧法测序技术,又称 Sanger 法,是非常经典的测序技术,受限于成本和效率等原因并非现在的主流技术,但其测序思想深刻影响了后续测序技术的发展,值得学习了解。
双脱氧法,顾名思义,实验设计的关键就在于双脱氧核苷酸(ddNTP)。众所周知,DNA 的基本结构是脱氧核苷酸(dNTP),与核糖核苷酸(NTP)的区别在于核酸戊糖 2 号碳上的羟基脱氧变成了氢。双脱氧核苷酸则是在脱氧核苷酸的基础上,脱去核酸戊糖 3 号碳上的羟基氧,三者的结构如下图所示。
脱氧核苷酸依靠核酸戊糖 3′ – C 上的羟基与另一分子脱氧核苷酸的磷酸形成磷酸二酯键,从而连接成 DNA。当一分子双脱氧核苷酸接入某段 DNA 末端时,由于没有了 3′ – OH,这段DNA便不能再继续向后扩增。双脱氧法核酸测序正是利用了这一特性。
在 PCR 中使用引物扩增某一段待测序的 DNA 片段时,如果向反应体系中加入一定浓度的荧光标记的双脱氧腺苷酸(ddATP),由于引物末端加上的核苷酸有一定概率是正常的 dATP,也有可能是 ddATP,因此引物的扩增会随机终止在某一个腺苷酸的位点,这些位点即 DNA 的待测链中出现 A 的位置(或者说模板链中出现T的位置)。终止后得到长度不一的 DNA 片段,这些片段的末尾都是 ddATP,如下图所示:
同理,在反应体系中加入其他双脱氧核苷酸(ddTTP、ddCTP、ddGTP)进行 PCR 扩增,得到的 DNA 片段会分别终止在相对应的碱基位置,经过可分辨 1 个核苷酸差别的变性聚丙烯酰胺凝胶电泳分离这些片段,可直接在电泳条带上读出 DNA 待测链片段的序列,如下图所示。
二、第二代测序技术 #
二代测序又称为下一代测序(Next Generation Sequencing,NGS)、高通量测序。“高通量” 一词的含义是,二代测序可以同时对上百万个短序列片段进行测序,可见其测序效率之高。二代测序因其出色的测序效率及低廉的价格得以大规模普及,成为现阶段的主流测序技术。
二代测序需要先将待测序列打断为几百碱基的短片段,并在片段两端接上人为设计的样本标签序列、引物结合序列、测序结合序列后,再进行测序。之所以要打碎成短片段,是因为二代测序无法对长序列测序或长序列的测序准确度较低。
二代测序所使用的有并行焦磷酸合成测序、桥式PCR、边合成边测序(SBS)等技术手段。下面以常见的 Illumina 平台提供的参考资料为例学习测序原理(以下图片均来自Illumina 官方资料),其余技术此处不做展开。
1. 桥式PCR扩增 #
样本中待测核酸片段的扩增与测序均在一块基板上进行。
基板的表面包被着两种寡核苷酸片段(oligo)。
这些 oligo 的序列与待测核酸片段两端接上的人为设计的测序结合序列互补,待测序列可以互补到oligo 上作为模板,使oligo扩增。
随后洗去原始的序列,这样通过 oligo 扩增出来的待测序列就结合到了基板上。
接下来,扩增出来的 DNA 片段弯曲,使另一端结合到基板上的第二种 oligo 上。
通过聚合酶进行扩增,便可实现待测片段在基板上的 PCR 扩增。因扩增的片段不断弯曲与基板上的 oligo 结合,这过程便称之为“桥式 PCR 扩增”。
当每段待测片段都扩增到一定循环时,为保证后续测序的准确性,需要先切除并洗掉其中一种 oligo 所连接的待测片段。
2. 边合成边测序 #
在测序阶段,向反应体系中同时加入四种脱氧核苷酸原料,这些脱氧核苷酸原料的 3′ – C 上的羟基被某种手段修饰,无法继续扩增。此外,四种不同的 dNTP 分别被四种不同的荧光标记。当正确配对的脱氧核苷酸与引物连接后,激发荧光,就能通过荧光信号探测到该待测DNA片段当前位置连接的是何种核苷酸,如下图所示。
检测完成之后,去掉 3′ – C 末端的上述修饰基团,模板连就可以继续连接下一分子的核苷酸,如此循环往复便可以完成该片段DNA的测序。此过程被称为 “边合成边测序” 。下图是在一次测序中同时进行测序的上百万个待测序片段的荧光信号。
3. 双端测序 #
上文提到,在桥式 PCR 扩增阶段结束后,为保证后续测序的准确性,需要先切除并洗掉其中一种 oligo 所连接的待测片段(反向链)。当第一轮测序完成之后,得到的序列是所有被测序片段的 5‘ → 3’ 方向(正向链)的序列。此时可以再进行一次桥式扩增,将反向链扩增出来,然后切除正向链并对反向链进行测序,即可实现对被测片段的 3’ → 5‘ 方向测序。如此对待测片段的两端都进行测序,称为 “双端测序”。
4. 测序结果 #
前文提到NGS测序出来的结果是成千上万的短片段序列,一个单端测序测得的短片段序列称为一个读取(read),双端测序得到的两个 reads 之间相互关联,称为一个读段(fragment)。原始的下机测序文件,一般需要经过厂商特定软件转换成*.fastq
等通用格式。
三、第三代测序技术 #
第三代测序又称为单分子测序技术,也叫从头测序技术,其技术特点是,待测序列无需进行 PCR 扩增,可直接对单条长序列 DNA 分子进行测序。三代测序技术原理包括单分子荧光测序、纳米孔测序等。
以纳米孔测序为例,借助电泳驱动单个 DNA 分子逐一通过纳米孔,而核酸分子中不同碱基的带电性质不一样,纳米孔可以通过电信号的差异检测出通过的碱基类别,实现测序。
三代测序的优势是可以对一条长 DNA 片段进行完整的测序,而无需打断成片段,这对以往一些二代测序难以准确测序的区域具有重要意义。例如,二代对于人类基因组的高度重复序列、端粒序列等区域会测序出大量非常相似的短片段,导致该区域较难通过短片段之间的重叠序列准确重建。使用三代测序则可以一次性准确测量这些区域。
参考文献 #
[1]陈铭. 生物信息学[M]. 第四版. 科学出版社, 2022.
[2]周春燕,药立波. 生物化学与分子生物学[M]. 第9版. 人民卫生出版社, 2018.
[3]Illumina technology. 测序技术 | 边合成边测序[EB/OL]. [2024-08-12]. Link.
[4]Illumina technology. DNA Sequencing Methods Collection[Z/OL]. Link.