表观基因组寒武纪生命大爆发----NGS技术是如何获取生物学信息并优化癌症诊断的?
想找到游离的癌症信号就像要在干草堆里找一根针一样难……
在人类基因组的2800万CpG位点中,60%~80%的胞嘧啶残基被甲基化修饰。半个多世纪的表观遗传学研究表明,遗传物质的修饰与人类疾病息息相关。“表观遗传学”一词来源于“后成论”和“遗传学”,通常用于描述基因与环境相互作用下,更完整全面地看待基因序列依赖的细胞内基因表达的调控过程。其中,DNA甲基化修饰以及作为DNA“脚手架”的组蛋白的氨基酸残基修饰已被广泛地应用。
一、表观基因组寒武纪爆发前
在《万物简史》一书中,科普作家比尔·布赖森将寒武纪生命大爆炸描述为“复杂生命以令人眼花缭乱的丰富程度爆发的时刻”。当今物种的大多数动物谱系发生在寒武纪初期,大约5.42亿年前,在相对非常短的时间内,出现了惊人数量的物种。
目前表观基因组学领域正经历着“前所未有的增长,没有减速迹象”。首先让我们从一个简短的历史开始。
在下一代测序(NGS)出现之前,亚硫酸氢盐处理后的DNA处理方法有:MS-PCR(甲基化特异性PCR)、COBRA(联合亚硫酸氢盐限制分析)、实时定量PCR、焦磷酸测序,甚至克隆和Sanger毛细管电泳法。后来,基因芯片方法的出现使得我们可以大规模并行检测数千到数十万个CpG位点。例如,2009年发表的一篇具有里程碑意义的论文显示,使用定制的Nimblegen HD2芯片(现在是罗氏公司的子公司)在结直肠癌样本中检测了四百六十万个CpG位点的甲基化状态。
几十年来,采用单一基位点方法(即检查单个CpG位点的甲基化状态)的研究已经产生了两种FDA批准的基于甲基化的诊断方法,即Exact Sciences公司的“Cologard”和Epigenomics的EPI Procolon®用于结直肠癌筛查。Cologard检测是利用其专有的定量等位基因特异性实时靶点和信号(QuartsTM)技术作为一种外送检测手段,分析粪便中KRAS DNA突变和三个基因ndrg4、bmp3和actb的甲基化标记。而Epi proColon则是使用Applied Biosystems®7500 Fast DX实时PCR仪器上的实时PCR分析,来检测SEPT9基因的“v2区域”。
二、单一CpG位点方法的缺点
单位点方法有其优势,尤其是实时PCR等基于PCR的方法,是对微量DNA具有高度敏感性和特异性的检测技术。然而,基于聚合酶链反应(PCR)的技术在寻找多个基因位点方面确实存在困难,因为多重检测具有严重的实际局限性。考虑到肿瘤DNA片段频率可能只有1/200(0.5%是癌症患者样本中报告的平均循环肿瘤DNA等位基因频率),基于PCR的方法克服了对高敏感和特定技术方法提取微量甲基化CpG信号的技术限制。
然而,这种无法同时观察多个位点的情况意味着必须将样品分配在几个较小的反应容器中,这些容器需要在仪器中(比如微流体室)或由操作员手动进行。多个反应所需的时间、人力和试剂成本,比在一个单一多重反应中所需的成本高出一倍。
三、下一代测序NGS与表观基因组学发现的大爆炸
随着下一代测序技术NGS的出现,表观基因组学领域正在经历寒武纪大爆发。从一个样本中同时观察数以百万计的CpG位点的能力为表观遗传学分析开辟了多种不同的途径,并发现了丰富的生物标志物,以供进一步实验鉴定。
我们在这里简单地讨论甲基化单倍型:它是一系列甲基化胞嘧啶在单分子分辨率水平的独特特征。与单个5’-甲基胞嘧啶残基作为阳性信号(通常在游离DNA片段为1:200的浓度下)不同,鹍远基因的MethylTitan分析技术将几个到几十个5’-甲基胞嘧啶作为一个连续的集合。
四、独特的鹍远基因MethylTitan专利技术
虽然血液中游离DNA的具体来源仍有待明确说明,但从非侵入性产前检测研究中了解到的游离DNA,是会被快速降解的分子,半衰期为16至30分钟。下图是一个DNA区段,其中圆圈代表单个CpG甲基化位点,不同颜色代表甲基化/去甲基化的单个胞嘧啶残基。
图1 具有标记CpG位点的相同健康和肿瘤样本DNA区段
图1显示了健康和肿瘤细胞的DNA,具有相同的基因组调控区,CpG残基的甲基化状态分别显示为蓝色和绿色。如图所示,在标有“血浆游离DNA”的中间部分,一串肿瘤细胞DNA在高频健康细胞DNA背景(通常大于99%)下突出地显示出来。
图2 检测单个CpG位点的挑战
图2说明了检测单个CpG位点的挑战。即便是在肿瘤细胞集中的同一区域中,肿瘤细胞DNA也没有一致的甲基化模式,经深入研究发现这是由于肿瘤异质性造成的。在一个单一的CpG位点,你只依赖于在无数个野生型非甲基化的背景中检测一个甲基化碱基。
除了检测单个CpG位点的局限性之外,检测来自亚硫酸氢盐处理的天然游离DNA的信号,还面临着额外的挑战,处理过程将损坏大量的天然DNA,不仅导致磷酸二酯骨架断裂和刻痕,还可能导致碱基位点失效(糖基被移除的位置)。
图3 鹍远基因的MethylTitan方法分析相邻的CpG甲基化胞嘧啶
图3说明了 鹍远基因的MethylTitan方法。通过分析相邻的CpG甲基化胞嘧啶(一个给定的目标可能有几个到几十个CpG,这取决于给定的区域),该特定区域的整个甲基化模式可以作为一个独特的标记,而不是对单个碱基的状态进行比较。
可以这样理解:鹍远基因的MethylTitan所做的是搜索并识别信息丰富的句子,而单个CpG位点只是识别信息贫乏的字母。
五、不同的化学,不同的方法,不同的结果
鹍远基因技术采用了一种独特的文库制备方法(文章目前正在审稿),该方法捕获亚硫酸氢盐处理过的游离DNA,并在简单的实验室工作流程中将其转化为测序文库。通过扩增分子的数量,我们可以检测到早期癌症的信号。这将成为一个开启新时代的方法。
除了拥有这些数据外,甲基化单倍型(相邻的CpG状态信息作为信息字符串,而不是离散的单个CpG位点)的分析结合在一起,形成了一个强大的组合。从1283个临床样本的分析结果来看,ColonES检测的临床数据为特异性>99%(非常低的假阳性率),I期结直肠癌的敏感性为97%,癌前晚期腺瘤的敏感性为91%(低的假阴性率)。
名词解释:
DNA甲基化:是指在甲基转移酶的催化下,DNA的CpG二核苷酸中的胞嘧啶被选择性的添加甲基,形成5-甲基胞嘧啶,常见于基因的5′—CpG—3′序列。哺乳动物细胞内的DNA甲基化主要发生在胞嘧啶和鸟苷酸(CpG)二核酸中的胞嘧啶(C)上,该反应过程是DNA甲基转移酶(DNA methyltransferase,DNMT)将S-腺苷甲硫氨酸上的甲基转移到DNA双链中胞嘧啶的第5位碳原子上,形成5-甲基胞嘧啶(5-mC)。基因组中的CpG约有60%~90%会发生甲基化。
DNA甲基化反应过程
CpG岛(CpG island):是指基因组某些区域CpG序列的密度比平均密度高10~20倍,GC含量大于50%,长度大于200bp的区域。CpG岛的功能是通过甲基化与去甲基化调控下游基因的表达。人类基因组CpG岛约为28890个,大部分染色体每1Mb就有5~15个CpG岛,平均值为每Mb含10.5个CpG岛,主要位于结构基因的启动子和第一外显子区域,约有60%以上基因的启动子含有CpG岛。如果CpG岛发生高甲基化,基因表达就会被完全抑制。
寒武纪生命大爆发(Cambrian Explosion):被称为古生物学和地质学上的一大悬案,自达尔文以来就一直困扰着进化论等学术界。大约5亿4200万年前到5亿3000万年前,在地质学上被认为是寒武纪的开始时间,寒武纪地层在2000多万年时间内突然出现门类众多的无脊椎动物化石,而在早期更为古老的地层中,长期以来没有找到其明显的祖先化石的现象,被古生物学家称作“寒武纪生命大爆发”,简称“寒武爆发”。
NGS技术(High-throughput sequencing,高通量测序技术):又称“下一代”测序技术("Next-generation" sequencing technology),以能一次并行对几十万到几百万条DNA分子进行序列测定,使得对一个物种的转录组和基因组进行细致全貌的分析成为可能,所以又被称为深度测序(deep sequencing)。
参考文献:
[1] Rivera C, Ren B. Mapping Human Epigenomes[J]. Cell, 2013, 155(1):39-55.
[2] Irizarry R A , Ladd-Acosta C , Wen B , et al. The human colon cancer methylome shows similar hypo- and hypermethylation at conserved tissue-specific CpG island shores[J]. Nature Genetics, 2009, 41(2):178-186.
[3] Bianchi D W , Maron J L , Johnson K L . Insights into fetal and neonatal development through analysis of cell-free RNA in body fluids[J]. Early Human Development, 2010, 86(11):747-752.
(文章翻译自鹍远基因英文网站)