首页

首页

市场与招商

关注最新资讯,查看前沿新闻

万字长文:单细胞表观基因组学的黄金时代(数位华人科学家悉数登场)

2020年11月,来自美国国立卫生研究院(NIH)的表观生物学家赵可吉教授,在Nature Reviews Genetics发表综述,全面解析了当前高通量表观测序技术如何用于细胞异质性的研究,以及罗列了相关的新型测序技术已有的突破和瓶颈,并对该领域未来发展寄予了深厚的希望。

赵可吉教授在瑞士日内瓦大学获得博士学位后,加入斯坦福大学的Gerald Crabtree实验室进行博士后训练,随后进入NIH心肺血液研究所(NHLBI)建立了自己的实验室。目前,赵可吉课题组在表观生物学领域发表了诸多高质量的研究成果,除了在Cell主刊上发表过多篇组蛋白乙酰化图谱研究外,还针对染色体开放程度或活化的核小体结构,在单细胞水平开发了MNase-seq,即scMNase-seq,并发表在Nature主刊上。

与ATAC-seq不同处在于,MNase-seq使用的是限制性外切酶,将不受保护的区域统统切除,只余下核小体上缠绕的DNA序列。此外,赵可吉课题组还针对ChIP-Seq、ChIP-SAGE、scDNase-Seq、Trac-looping等技术开发了一系列测序数据的分析软件和算法。

本文并非完全按照原文翻译,译者根据该综述涉及的研究来龙去脉适当延伸,使可读性更强。在这场单细胞测序的学术军备竞赛中,华人科学家逐渐崛起为一支不可忽视的力量,在各自细分领域有着特定的“江湖地位”。 部分做出重要贡献的华人科学家可能未在本文中罗列,还望谅解。


摘要

基于单细胞的转录组测序技术,能够解析不同细胞在形态上无法区分的异质性问题。而异质性对于组织生物学、发育生物学以及肿瘤等研究具有非常重要的意义。诸如染色质可及性/染色体开放程度、核小体定位、组蛋白修饰和增强子-启动子互作等,在单细胞水平的样本中绘制这些表观基因组信息,能够让研究人员清晰了解到相关的基因究竟处于表达还是抑制状态。

单细胞表观基因组测序在技术层面的不断进步,使得在单细胞水平绘制细胞染色质状态成为可能。

近几年大量研究表明,借助单细胞表观测序技术,研究人员发现由于组织层面染色质存在不同程度的差异,这些差异使得那些貌似高度相似的细胞,实际彼此间在基因表达存在较强的异质性。 


1.前言

多细胞生物尽管在DNA层面拥有相似的基因组序列,但是不同组织中的细胞在基因表达上却千差万别,并通过在mRNA水平的差异表达来维持相应组织或器官的功能。

然而研究人员也发现,即便是形态上相似乃至同一细胞克隆衍生出来的细胞群,在基因表达和应激响应方面也存在差异。这种细胞异质性,在许多研究中都被观察到,例如输尿管祖细胞异质性与发育、人类诱导多能干细胞(hiPS)异质性、拟南芥根系细胞发育图谱等。

在组织生物学和多种疾病研究中,单细胞测序技术发挥巨大作用。单细胞测序也经常用于表型相关基因的表达异质性研究。

此外,病原体细胞或癌细胞之间的表达异质性可能与人类疾病相关。即便是同一个肿瘤组织中获取的癌细胞,在形态和基因表达上,也可能会表现出较大的异质性。这种异质性也与疾病的治疗和进展相关,尤其是肿瘤干细胞对于肿瘤发生以及细胞耐药进化方面,展现出明显的分化和增殖特征()。

诸如这些案例表明,如何分析基因表达所展现的细胞间差异,并将这些差异与特定的细胞特性联系起来有望加强研究人员对细胞发育和疾病更深的理解。

基因表达会受到多个层面的调控。首先是将部分基因组DNA模板转录成mRNA。转录会突然“爆发”出来,呈现短暂的转录活跃状态,随后这种活跃的转录状态会被较长的沉默状态所终止或打断(punctuated)。这种看似随机性的转录状态爆发,可能会导致本来相似细胞之间,在基因表达上有较大的差异。当然这种随机性也是有规律的,后文会进行详细解释。

此外,基因表达的异质性,可能是由于基因的激活和基因的抑制在不同细胞间的差异引起的。在大多数细胞中,只有一小部分基因在任何特定时间状态下,才具有转录活性。这些基因包括管家(housekeeping)基因以及与细胞当前环境和发育状态相关的基因。 

然而,基因是否被转录是由一些基因功能调控元件的激活或沉默来决定,如转录因子、启动子、增强子、绝缘子等。早些年,二代测序技术尚未问世前,UCSD任兵教授课题组已经利用基因芯片对ChIP下来的DNA片段进行全基因组层面的扫描。随后,在二代测序技术问世后,利用ChIP-seq发现了大量顺式调控元件。作为ENCODE计划的核心研究人员之一,任兵教授等一些在表观领域十分高产的科学家们利用ChIP-seq重新定义了组蛋白修饰筛选增强子的这种新方法,在哺乳动物基因组上发现了几十万个顺式调控元件。 

上图描述了转录抑制和转录激活的染色质中的表观遗传整体机制。当呈现转录抑制状态时,酶促不可及顺式调控元件(enzymatically inaccessible cis-regulatory elements)的特征是,规则间隔的核小体array上富含DNA甲基化和特定的组蛋白修饰如H3K27me3;当呈现转录激活状态时,酶促不可及顺式调控元件定位在侧翼的核小体,并富含特定的组蛋白修饰如乙酰化。CTCF和粘着蛋白,能够促进染色质与激活的增强子及启动子接触。 

在真核生物中,这些调控元件的部分受周围染色质环境的控制,包括核小体定位、组蛋白修饰和3D基因组层面的结构互作。因为这种染色质状态的持久性和对基因转录调控的强大作用,它们被称为表观遗传标记(epigenetic marks)。

Bulk测序只能提供整体组织中基因表达或者表观标记信号的平均值。因此,Bulk测序不适合解决细胞间基因表达或表观遗传标记的差异。 

如上图所示,近几年包括染色体开放程度、染色质可及性、核小体定位、DNA甲基化、组蛋白翻译后修饰、增强子-启动子互作等均有Bulk测序方法和相应的单细胞测序技术问世。 


2.细胞异质性测量

2.1 Bulk-seq测量不同细胞群体的差异

同一个生物体中,不同器官或不同组织中的细胞群,在遗传及表观遗传层面均有异质性。遗传层面的差异包括倍性数目差异(variations in ploidy number),如单倍体配子(精子、卵子)和多倍体细胞等。表观遗传层面的差异,指的是在基因组水平上具有相同遗传信息的细胞之间产生了具有不同功能的特殊细胞类型。例如组蛋白修饰的差异有助于研究人员区分辅助T细胞和naïve CD4T细胞。

组织的特异性表观遗传标记,通过影响与那些性状相关的基因表达水平来影响细胞特征。了解组织和细胞类型之间的基因表达差异以及引起这些现象背后的原因,成为当前分子生物学研究一个非常重要的方向。

检测基因表达的手段包括基因表达谱芯片、转录组测序(RNA-seq)等,但是这些方法都是对整个组织和整个细胞群体进行检测,得到的只是基因表达的平均值。同样,诸如ChIP-seq、CUT&Tag等方法,也只能获得组织或细胞群体中组蛋白修饰的平均水平。 

如上图所示,前面提到的一些方法仍然无法解决细胞间异质性问题,无法达到单细胞水平的分辨率。而单细胞测序则可以区分不同细胞类群,并对每一类细胞的基因表达及表观修饰水平进行检测。

2.2 单细胞测序测量不同细胞群体

基因表达中细胞间的异质性常与细胞发育潜能或疾病特征的功能差异有关。

实际上hiPSC包含不同的细胞亚群,在特定的细胞亚群中,多能干细胞和细胞命运决定相关的基因表达显著上调。同样,多能胚胎干细胞ESC中Rex1和Oct4这2个基因的表达异质性,也能挖掘出小鼠胚胎干细胞中特定的细胞亚群,这些细胞继而被激活分化为不同的细胞。

1992年来自宾夕法尼亚大学医学院的一篇PNAS文章中宣称,已经成功在单个细胞中捕捉到了基因表达的信号,但是这些实验方法本身较为繁琐,非常依赖于手工操作,自动化程度低,重复性差,需要实验人员先手动分离细胞,然后通过显微注射的方式将引物和酶注射进单个细胞中。

后续随着基因表达谱芯片和Bulk RNA-seq技术的问世和不断迭代,单细胞测序的建库起始量及分辨率均得到了显著改进。特别是汤富酬教授课题组在2009年发表的第一篇单细胞转录组测序论文后,单个细胞中同时检测数千条mRNA表达成为了可能。此后的十年期间,大量的基于Bulk及单细胞水平的表观测序方法被发明了出来,并成功在单个细胞中绘制了各种表观遗传标记。这些方法包括了微量单细胞测序技术和高通量单细胞测序技术。前者通过sorting的方式获取少量细胞,在离心管或96孔板中进行扩增。后者又分成了微孔板捕获和基于Drop-seq原理的微流控技术。

单细胞测序技术可在传代培养的细胞系中,直接分析和观察到各种细胞周期状态下表观基因组的信息变化。

此外,一大群细胞群中,如何找到那些即将分化的干细胞呢?由于基因在启动表达前,转录因子或组蛋白修饰状态会先于基因表达发生变化。这个时候借助单细胞表观测序技术,就能敏锐地捕捉到哪些细胞中与干细胞分化的染色质开放程度或组蛋白修饰信息发生了微弱的变化,这个时候揪出那个“分化的干细胞”就显得易如反掌!

最后,在较大组织或培养的组织中,借助单细胞测序,无需抗体或荧光细胞标记,就能通过生物信息学迅速识别出罕见的细胞亚群/亚型。

这些优点也使得单细胞表观基因组测序技术,更适合于细胞间基因表达的异质性研究。

尽管这些测序技术可以揭示单个细胞的表观遗传异质性,部分研究人员不满足于此。借助Tn5转座酶等基于CUT&Tag技术延伸的方法,能够同时在单个细胞或细胞核中检测基因表达和表观遗传标记。 

具体单细胞多组学技术如上图所示,华人科学家发表了多种重要的单细胞测序方法。例如UCSD任兵教授课题组基于paired-seq改进的paired-tag,可以同时检测单个细胞核中的基因表达和组蛋白修饰信息。张鹍教授课题组的SNARE-seq可同时检测ATAC与gene expression。汤富酬教授课题组的scCOOL-seq可同时检测ATAC、DNA甲基化与CNV等。 

2.3 当前单细胞组学技术的限制与技术瓶颈

当前已发表的诸多单细胞测序方法中,大都基于对靶序列的信号放大(扩增),因此就会存在扩增偏好性、文库复杂性与大小差异、数据缺失以及低捕获率的噪音信号干扰等问题。 

单细胞转录组第一个技术瓶颈就是只能对细胞中高表达的基因进行准确定量,每个细胞中只能检测到几千个高表达转录本。而基于RNA荧光原位杂交技术(FISH)的方法,是单细胞转录组后期验证的一个很好的补充。所以单细胞转录组+FISH验证是目前许多单细胞高分论文中的“黄金搭档”。FISH探针对一些低表达的基因具有单细胞转录组测序不可比拟的高灵敏度,但是与单细胞转录组不同的是,单细胞表观组学当前还没有成熟的成像技术来验证染色体可及性、DNA甲基化和组蛋白修饰。这些表观基因组数据,大多数都是通过与相应的体细胞测序数据来比较确定的,与增强子或启动子的信号富集程度有关。

然而,值得注意的是,基于成像的基因组三维结构分析目前已经可以独立验证部分单个细胞中的三维染色质互作,如Hi-C技术。 


3.染色质可及性

3.1 细胞间染色质可及性的异质性

染色质本身是一种立体的结构,既包括高密度的紧缩区域也包括更加松散的开放结构区域。DNA在染色质上的可及性,特别是在顺式调控区域如增强子和启动子等,能够影响基因转录活性,在促进基因表达或抑制基因表达上起到重要作用。

染色质可及性可以通过DNase I超敏感位点测序(DNase-seq)在全基因组层面进行检测,DNase-seq可以根据DNase I的酶消化敏感性来确定那些DNA可及性位点或区域。DNase I酶超敏位点(DHS)通常代表核小体缺失(nucleosome-depleted)的顺式调控元件,或者说核小体缺失区域,理论上会允许转录因子和其他调节蛋白与这个区域的DNA相结合。 

染色质可及性也可以通过ATAC-seq来测定,该方法与DNase-seq比较相似,根据Tn5转座酶对那些染色质的松散区域具有酶切的敏感性来进行。Tn5随后对开放区域的DNA剪切后马上可以连接上测序接头,进行建库测序。现美国国家科学院新晋院士,斯坦福大学医学院张元豪教授(Howard Chang)以及华盛顿大学西雅图分校的Jay Shendure教授对scATAC相关技术的开发和推广贡献巨大。

DNase-seq和ATAC-seq这两种技术均可以达到单细胞水平,在此基础上升级为scDNase-seq和scATAC-seq。早期的scATAC-seq发表在2015年的Nature主刊上,斯坦福大学医学院张元豪教授为该文章的通讯作者。但是这种技术无法平衡细胞通量和每个细胞所产生的的reads数之间的关系。 

2019年,来自哈佛大学的前Broad Institute成员的Jason D. Buenrostro课题组将前几年的scATAC-seq升级为dscATAC-seq,其中d表示Droplet即基于微流控液滴技术Drop-seq所衍生出新型scATAC-测序方法。dscATAC-seq能够同时对上万个细胞进行分析,每个细胞能产生>10万个reads。这个改进的方法发表在了2019年的Nature Biotechnology上。 


值得注意的是,Jason D. Buenrostro正是前面2015年那篇发表在Nature的scATAC的第一作者。他本科期间获得了工程学与生物学双学位,并在斯坦福大学张元豪课题组攻读博士。而Broad Institute这种鼓励交叉学科的开放环境,汇集了诸如哈佛的David Weitz(微流控专家)、MIT的Aviv Regev(计算生物学家)、MIT的Tyler Jacks(肿瘤与遗传发育学家)等一众交叉学科大牛,使得研究环境变得十分“友好”。

另外,与scATAC-seq相比,赵可吉课题组发布的scDNase-seq,其reads覆盖率更高,每个细胞达到了35万个reads。后文中,将用可访问染色质区域accessible chromatin regions, ACR这个专用术语,来特指DNase-seq检测到的DHS和ATAC-seq检测到的可访问的染色质开放区域位点。

不同细胞在染色质可及性上存在明显的异质性。即便是两个相似的细胞之间,都大约有25%的染色质区域存在差异。

在常规的Bulk ATAC-seq或Bulk DNase-seq中,一旦可访问染色质区域ACR的reads较少,在scATAC-seq和scDNase-seq中同样也会存在reads数很低的情况。但是单个细胞中,多个涉及到转录激活相关的组蛋白标记的可访问染色质区域ACR,则有更高更强的accessible!换句话说,组蛋白有更强的染色质可及性的接触能力。单细胞水平的组蛋白修饰测序、染色质可及性和可访问染色质区域的测序结果,呈现出reads数更高的情况,信号也相比于scATAC-seq和scDNase-seq会更强,将有助于研究人员从单个细胞水平去更好地研究转录活性激活调控机制。

接下来的证据无需感到惊讶,细胞与细胞在可及性上有所差异的那些启动子,都显著富集在了管家基因上,如涉及转录调控和RNA加工的基因。

3.2 染色质可及性间的差异可能是关键的功能

由于测序技术本身存在一些瓶颈,导致因为技术限制所引入的差异而引起染色质可及性在细胞间的异质性,这种差异可以通过基因表达异质性和染色质可及性之间的相关性来研究。

由测序技术本身带入的噪音所引起的可及性变化,是不能用于预测是否与基因表达异质性存在相关性的。然而,基因调控元件上的染色质可及性在细胞间的变化,却与相关的基因表达变化之间存在很强的正相关,这个现象似乎支持了染色质可及性的异质性的功能性作用。例如,在Bulk测序数据中发现可访问染色质区域ACR的reads数最低阈值与mRNA表达相关,当ACR的reads持续升高并高于一个最低的阈值后,mRNA水平与此关联性不强。这个结果表明,低水平的染色质可及性能够促进基因转录和mRNA表达。 


在单细胞水平,高转录水平基因上的启动子和增强子几乎在信号上与染色质可及性区域高度重叠(如上图所示)。这表明转录水平与染色质可及性之间相关性不仅适用于Bulk类样本,同样也适用于单细胞水平。单细胞染色质可及性研究,已成功将人类白细胞分成B细胞、T细胞、NK等多种Cluster甚至是更精细的细胞亚群。

将同一份单细胞水平染色质可及性和基因表达分开单独测序后,再进行联合分析发现两者之间呈现正相关,这个结果同时得到了其他多组学联合分析的验证。 


最近,全球多个课题组均发表了可在同一个细胞中检测ATAC及mRNA表达的新技术,如UCSD张鹍教授课题组发表于Nature Biotechnology的SNARE-seq。当这种技术用于研究人类原代免疫细胞时,发现了每个细胞中mRNA表达和染色质可及性之间有直接关系。 

基因表达和染色质可及性联合分析也有助于研究顺式调控元件与被调控的那些基因之间的直接关系。

例如UCSD任兵课题组在2019年开发的名为Paired-seq的技术,从小鼠大脑皮层中获取了单细胞后,同时检测基因表达和染色质可及性,通过联合分析确定了超过30,000种新的调控关系。并在2021年将Paired-seq升级为Paired-tag。

利用单细胞表观组和单细胞转录组联合分析,可以确定基因调控关系究竟属于远端调控还是近端调控。相比于单独只有近端调控的数据,近端调控和远端调控的信息结合,才能更好地预测基因表达。

此外,通过使用单细胞数据对混合细胞群体进行计算聚类分析,可以独立评估scATAC-seq和scDNase-seq数据质量。例如在人类白细胞的scATAC-seq数据中,所标注的B细胞、T细胞等Cluster与scRNA-seq去比对,发现具有较高重叠度。 

3.3 细胞周期和转录因子是染色质可及性的基础

最近的研究表明,细胞染色质可及性的变化可能是由细胞周期阶段的不同步性,以及转录因子表达和/或结合的差异共同引起的。 

例如前面提到的张元豪课题组在2015年Nature上那篇研究(第一作者为现哈佛大学的Jason D. Buenrostro博士),曾对传代的K562人白血病细胞进行scATAC-seq测序后发现,细胞周期中不同复制阶段的基因组上,ATAC所呈现的信号强度有显著差异,ATAC信号变化与细胞周期相关。这些观察结果表明复制过程中DNA含量的变化有助于传代细胞培养物中产生变化的ATAC信号。但是同样还是这篇文章,张元豪课题组发现一部分特定转录因子表达和/或结合的变异性,与染色质可及性在相关结合位点的异质性高度相关,并且这种关系与细胞周期效应无关

例如,同一批scATAC-seq数据挖掘到了特异性转录因子GATA1和GATA2的异质性表达,这对脊椎动物多种类型血细胞的发育和自我更新非常重要。这些转录因子结合的motif在统计学上与染色质可及性的异质性相关,与细胞周期效应无关。

此外,人类免疫细胞在发育相关转录因子(包括记忆T细胞中的AP-1、FOS和JUN以及单核细胞中的CEBP和PU.1)结合位点的可及性方面表现出显著的异质性。 

尽管大部分特异性转录因子只能在可接近的染色质位点识别特定的motif,但一些GATA家族转录因子和PU.1是一类被称为先驱因子(pioneer factors)的转录因子的成员,这些转录因子往往能够与染色质上特定封闭区域的motif序列结合。先驱因子与其目标基序在封闭和异染色质区域的结合,可导致可接近的染色质位点的形成。因此,免疫细胞间染色质可及性的异质性可能部分来自先驱因子如GATA1、GATA2和PU的表达异质性。

相比之下,许多不具备激活和启动转录活性的常规转录因子,大概率需要取决于染色质可及性的变化。因此,先驱转录因子结合和/或表达的异质性,所导致染色质可及性和其他序列特异性转录因子结合的异质性,与上述提到的模型相一致。 

3.4 染色质可及性对发育和疾病的影响

染色质可及性的异质性的研究为研究人员了解疾病异常的发展提供了重要的工具手段。例如在许多癌症中,细胞间表观遗传信息的异质性非常明显,这些异质性极有可能会驱动癌症的进化和疾病的进展。 

张元豪课题组发表在2017年Genome Biology上的研究,针对白血病K562细胞系,使用scRNA-seq观察到细胞表面标记基因CD24在表达水平上表现出异质性,并且CD24的高表达与GATA2的高表达相关。FACS分选CD24+细胞并进行scATAC-seq后发现,持造血祖细胞状态相关的GATA2结合motif和染色质可及性增加。这个结果证实了这一小群K562细胞亚群更像是干细胞本身。分化程度较低的亚群的存在与癌症干细胞的耐药和疾病复发的研究有关。

在另一项研究中,scATAC-seq数据揭示了小鼠兴奋性神经元和肾小管细胞群体中染色质可及性的显著异质性,并且这种差异与其组织中细胞的位置相关。该观察结果表明,实体组织内的表观遗传异质性,一部分是由于对细胞组织微环境的反应所致。


4.核小体定位

4.1 核小体定位的异质性取决于基因组背景

核小体相对于DNA序列的定位在基因调控功能的组织中起着核心作用。核小体组织可以在全基因组范围内利用MNase-seq进行探测,该技术利用微球菌核酸酶(MNase)消化获得的DNA,并对剩余的蛋白质结合的DNA片段进行测序。 

MNase-seq最近已被用于单细胞分析(scMNase-seq),核小体组织的单细胞图谱增强了我们对核小体定位、染色质可及性和基因表达三者之间关系的理解。

在高通量测序技术问世之前,人们普遍使用DNA芯片来进行研究。高转录活性的基因在其转录起始位点上游包含了一个无核小体区域,并在其下游能够非常“有规律”定位到核小体上。

使用MNase-seq在T细胞中发现RNA聚合酶II(Pol II)与启动子结合会导致核小体定位在活性基因转录起始位点周围的位点。而启动子和增强子处的核小体重组与基因激活相关。这种现象已在多种组织类型和生物体中得到证实,并且scMNase-seq也证实了单个细胞之间高度一致性的这个现象与Bulk MNase-seq结果一致。 

此外,scMNase-seq还能解析位于转录沉默的基因组区域(transcriptionally silent genomic regions)的核小体定位模式。尽管Bulk MNase-seq无法解析异染色质和那些沉默基因启动子的核小体组织模式,但scMNase-seq能够揭示这些随机定位的核小体阵列(nucleosome array)实际上在区域内呈现有规则的间隔(regularly spaced)。这些具有一定规律排列的核小体可能源自染色质重塑(chromatin remodelling)和装配因子(assembly factors),这些因子会传播抑制性染色质结构,而与基础基因组DNA序列无关。

值得注意的是,与那些核小体上用于转录激活的增强子和启动子形成鲜明对比的是,这些随机定位的核小体阵列正是细胞间异质性的来源之一。 

scMNase-seq还提供了有关DNase I酶超敏位点DHS周围核小体定位的信息,主要有两种定位模式:一种是两侧核小体之间的平均距离约为190 bp,另一种是平均距离为300 bp。在一个细胞群体中,超过80%的DHS表现出两种间隔类型,显示出相当大的异质性。

此外,核小体定位中的这种细胞间变化与DHS和靶基因表达的变化呈正相关。因此,DHS既可以通过其可接近的程度来定义,也可以通过其核小体间隔方式来定义,这两者都有助于研究人员更好去理解细胞异质性。

4.2 异质核小体定位揭示谱系启动

细胞亚群的定义可以通过诸如scMNase-seq之类的测序数据来进行聚类计算。有趣的是,当基于核小体定位的单细胞测序数据进行单细胞聚类分析后发现,即便是mRNA水平即基因表达本身并无差异情况下,一些细胞亚群却在表观信号存在显著差异。例如基于表面蛋白CD4阳性而纯化得到的 naive T细胞,可以继续往下聚类成不同的细胞亚群。这些细胞亚群有不同的特异性增强子信号表达,并各自显示出TH1或TH2细胞的核小体缺失/耗竭模式。奇怪的是,尽管单细胞表观数据已经给出了强烈的证据,可是单细胞转录组结果却未表达TH1和TH2的特异性基因。这说明很多细胞中,基因表达本身与基因的转录激活存在时间差,单细胞转录组在定义细胞亚群上存在一些缺陷。 


Motif分析表明,TH1和TH2增强子的核小体缺失分别与转录因子RELA和GATA3的特异性motifs相关。这些细胞亚群不能只通过单细胞转录组数据的聚类分析来检测,因为TH1或TH2特异基因只是被激活,但尚未发生转录

与小鼠CD4naive T细胞中观察到的表观遗传启动现象一致的是,40%的培养的小鼠胚胎干细胞在类胚体特异性增强子(embryoid body-specific enhancers)上显示出核小体缺失现象,还显示出与内胚层或中胚层标记相关的基因对应的核小体定位的异质性,这表明胚胎干细胞在骨髓和神经管脂肪等不同的家族中具有差异性。

核小体定位的这种差异启动和异质性可能导致部分细胞间特异性转录因子的表达和结合会发生变化。然而,如何解决特定转录因子的差异表达,目前在技术上仍然是一个挑战。不过,多项已发表的单细胞表观组学技术能够同时检测单细胞水平的DNA甲基化和RNA表达水平,为单细胞水平的染色质动力学研究提供新见解。例如最新的一项DNA甲基化和染色质可及性单细胞多组学研究表明,Pol II的抑制导致植入前小鼠胚胎中近端核小体缺失区域的基因表达呈现减弱趋势,该区域富集了一些必要的转录因子如SP1和E2F4,从而维持这个核小体缺失区域的转录作用。

此外,对单个K562细胞和GM12878淋巴母细胞,进行核小体定位和DNA甲基化联合分析显示,核小体缺失区域同样也存在DNA去甲基化现象。在小鼠干细胞分化过程中发现这种负相关趋势越来越明显,表明染色质可及性、甲基化缺失和谱系启动(lineage priming)之间存在潜在关系。

总之本小节讨论的研究支持了一个模型,在这种模型中处于激活状态的启动子与增强子下核小体定位中的细胞与细胞间的异质性,将转录异质性与染色质异质性联系起来,并通过谱系启动来决定细胞的命运。 


5.
组蛋白修饰

5.1 不同的组蛋白修饰与不同的染色质状态有关

染色质状态通常用组蛋白修饰程度来描述。这些翻译后的共价修饰是通过专门的表观遗传机制来沉积的,并对染色质的结构和基因表达产生了巨大的影响。

UCSD的任兵教授课题组曾经在高通量测序技术大规模应用前,就使用ChIP技术在基因芯片上分析大量顺式调控元件。随着高通量技术的发展,ChIP-seq随之诞生。任兵、赵可吉等一众科学家重新定义了组蛋白修饰寻找增强子的方法,随后几十万个增强子不断被挖掘出来,数量是基因的十几倍。


上面的表格是一些常见研究中涉及到的组蛋白以及对应的功能和位置。例如H3K27me3就是一个非常经典的组蛋白,能够在启动子附近富集并抑制基因转录。那么为何组蛋白命名如何“奇怪”,有何规律?先不着急,在开始本章节之前,我们先再来回顾下组蛋白修饰一些基本知识点。

总体来讲,细胞中的基因组DNA序列并不是如我们所熟知的纯线性结构,而是具有复杂折叠压缩的空间3D结构,这些折叠的DNA所缠绕的就是组蛋白。前面提到的核小体定位技术中,核小体简单定义就是组蛋白加上147bp的DNA片段。 

组蛋白简单来说可以理解为一个八聚体,一共由2个H2B、2个H2A、2个H3和2个H4组成,其中H3上携带组蛋白修饰较多。每个组蛋白都会有一小段尾巴(tail)延伸出来,组蛋白修饰就是在这些tail序列上进行的!所以组蛋白命名就有了一些规律可循,通常称呼一种组蛋白修饰规则为组蛋白结构+氨基酸名称+氨基酸位置+修饰类型。如H3K27me3,代表H3组蛋白第27位赖氨酸发生了三甲基化修饰。

组蛋白修饰一般以一种共价键方式对翻译后的蛋白进行修饰(PTM),这些修饰致使其与DNA的相互作用受到影响。一些修饰破坏了组蛋白-DNA相作,导致核小体解旋。在这种开放的染色质构象(称为常染色质)中,DNA可以与转录复合物结合,随后基因激活。相反,加强组蛋白-DNA 相互作用的修饰会产生一种紧密排列的染色质结构,称为异染色质。在这种紧凑的形式中,转录复合物无法接近DNA,导致基因沉默。因此,染色质重塑复合物对组蛋白的修饰改变了染色质结构和基因激活。

已发现的不同类型的组蛋白修饰至少有9种。乙酰化、甲基化、磷酸化和泛素化是大家最了解的,而N-乙酰葡萄糖胺糖基化、瓜氨酸化、巴豆酰化和异构化最近才发现,还有待深入研究。每种修饰都是通过一组特定的酶将修饰基团添加到组蛋白氨基酸残基上或从组蛋白氨基酸残基上去除。

在表观遗传标记中富集的染色质区域,表现出单个定位下的核小体所不能揭示的功能特征。组蛋白修饰早期主要使用芯片进行分析,不同的组蛋白修饰会呈现转录激活和转录抑制状态,并在特定的染色质区域富集。例如,H3K4me在一些转录激活基因的区域富集,而H3K27me则在一些基因沉默的区域富集(抑制转录激活)。与H3K4me和H3K27me相关的基因被称为“二价修饰”,可根据细胞表面信号事件为基因未来的激活或抑制做好准备。组蛋白末端也可以被乙酰化修饰以促进基因转录的激活,而去乙酰化则与基因沉默或激活抑制相关。 


然而,2009年赵可吉课题组在Cell上发表的全基因组乙酰化修饰图谱结果显示,组蛋白乙酰转移酶(Writers)和组蛋白去乙酰化酶(Erasers)在许多沉默基因的启动子处都有适度富集。进一步的研究表明H3K4甲基化为沉默启动子,然后通过乙酰化机制的瞬时结合进行乙酰化和去乙酰化的动态循环。组蛋白甲基化、乙酰化和去乙酰化的协同作用,将阻止Pol II与这些基因结合,为将来的激活做好准备。 

5.2 组蛋白修饰单细胞测序可鉴定细胞亚群


2015年,哈佛的微流控大牛David Weitz与Broad Institute的Bradley E Bernstein课题组,联合在Nature Biotechnology发表了基于微流控技术Drop-seq/inDrop-seq平台延伸的单细胞ChIP-seq。这是世界上第一篇单细胞ChIP-seq论文!

随后组蛋白修饰的单细胞论文陆续问世,如赵可吉课题组在2019年的Nature Methods发布的scChIC-seq,Sarah J. Hainer课题组在Cell上发布的uliCUT&RUN,UCSD任兵课题组的Paired-seq/Paired-tag,以及北京大学何爱彬课题组在Molecular Cell发布的CoBATCH技术等。但是,目前还没有特别好的平行验证方法,来证实上面提到的这些单细胞技术,是否真正能够捕捉到基因上的组蛋白修饰变化信息。目前这些单细胞数据通常与Bulk ChIP-seq一些金标准数据进行对比来进行验证,并检验是否能够通过降维算法(tSNE或UMAP)将细胞聚类成不同的细胞类型/细胞亚型。假设样本中存在已知的细胞亚群,这种聚类降维分析可以作为独立的验证手段,以证明该方面确实是提供了有用的生物学信息。例如使用scChIC–seq对白细胞上单个细胞的H3K4me3修饰水平检测后进行降维聚类分析,成功鉴定了特定细胞类群,包括B细胞、T细胞、NK细胞等。 

北京大学分子医学研究所的何爱彬教授课题组,利用CoBATCH对小鼠内皮细胞中H3K27ac上的乙酰化修饰水平进行单细胞分析,同样能够基于其原始组织正确地对细胞进行聚类。 

这些研究表明,组蛋白修饰的单细胞测序技术可以正确鉴定出细胞亚群,其能力水平与基于scRNA-seq数据的成熟聚类方法相似。此外,组蛋白单细胞测序技术还可以绘制大量单细胞组蛋白修饰图谱,这些Resource类研究可以继续在已有的单细胞研究进行表观层面的拓展。 

5.3 单细胞组蛋白修饰揭示细胞异质性

转录调控关系中,细胞间不同的组蛋白修饰所存在的差异有助于研究人员更好理解下游基因表达的异质性问题。多项单细胞研究已经利用组蛋白修饰鉴定出了诸多细胞异质性现象,并在这些异质性与基因表达之间建立起了相关性。 


H3K4me2上基因启动子和增强子相关的组蛋白修饰检测结果表明,小鼠胚胎干细胞内部存在巨大差异。该现象在一些多能性相关基因增强子和转录抑制基因上均观察到了这种变异性,单细胞表观组测序能够解析出胚胎干细胞的三个不同的亚群。 

在T细胞亚群中,这种异质性似乎与转录因子BCL11B和PRDM1的差异表达有关,转录因子BCL11B对naïve T细胞具有特异性,而PRDM1对TH1细胞具有特异性。

综上所述,这些研究表明,组蛋白修饰的异质性通常可能与细胞群体中对特定谱系命运的不同亲和力程度相关。有趣的是,发现免疫细胞中的组蛋白修饰随着年龄的增长显示出越来越高的异质性,提示老年人控制表观遗传异质性和/或免疫细胞分化的机制可能发生改变或恶化。


组蛋白修饰还与核小体组织中的异质性有关。在赵可吉2018年发表在Nature上关于小鼠胚胎干细胞的研究中,将scMNase-seq与Bulk ChIP-seq数据取交集后发现,一些与染色质激活相关的组蛋白高度富集。与抑制转录激活的H3K27me3相比,H3K4me1、H3K4me3、H3K27ac、H3K9ac和H2AZ,无论是在单细胞水平还是Bulk水平,peak的位置高度重叠。

具有激活或抑制作用的组蛋白修饰,其二价富集的启动子与染色质不均一性(heterogeneous chromatin)可及性相关。这些相关性结果表明,组蛋白修饰能够影响核小体的组成,亦或是这两个过程都受到相同的基本潜在机制的共同影响,而这最终会影响基因表达中的细胞异质性。

理想状态下,上述提到的组蛋白修饰和其他类型的表观基因组学数据间,可以直接使用多组学的方式来直接测试相关性。然而目前仍然没有特别理想的研究方法,将组蛋白修饰与基因表达、核小体定位或染色质可及性放在一起进行多组学分析。


6.
DNA甲基化

6.1 Bulk测序揭示DNA甲基化动态及异质性

由于碱基上的修饰有一百多种,而DNA甲基化修饰也包括了诸如6mA、5mC等修饰,本文DNA甲基化特指5mC,即胞嘧啶上C第五位发生-CH3甲基化修饰。 


5mC是第一个被鉴定的表观遗传因子。早在1925年的Journal of the American Chemical Society以及1948年的Journal of Biological Chemistry,研究人员就已经发表了关于5mC的研究。所以严格意义上来讲,5mC的发现早于我们对DNA作为遗传物质的理解。 

全基因组甲基化测序,是一种基于重亚硫酸盐转化非5mC修饰的胞嘧啶向胸腺嘧啶T转化的测序方法,也叫Whole Genome Bisulfite Sequencing,简称WGBS。 

在一些开花植物中,5mC修饰在全基因组层面都有分布,这种现象本身较为常见。但是在哺乳动物中,5mC修饰主要集中在5’→3’方向,并伴随着鸟嘌呤G而一起富集。一旦CG循环高频出现,这种带有5mC修饰的CG重复现象被称之为CpG islands(CpG岛)。 


目前已知许多哺乳动物的启动子区域超过三分之二都含有5mC修饰的CpG岛。作为一种常见的表观遗传开关,当高甲基化时基因的转录通常会受到抑制,一些能够激活转录的转录因子也就无法与之结合,继而抑制基因表达。由启动子CpG岛的甲基化介导的基因转录抑制/沉默,在生物发育过程乃至肿瘤发生过程中都发挥非常稳定的作用。与组蛋白修饰这种可塑性较强的转录抑制相比,通过对启动子DNA进行甲基化修饰,可以让基因沉默更加持久和稳定。 

Wellcome Trust Sanger Institute的Wolf Reik教授在2007年的Nature提到,也许正是这种稳定性的结果,使得DNA甲基化成为研究人员用于抑制体细胞内源转座子、印迹基因和多能性相关基因的一种相对主流的表观遗传沉默机制。

尽管大多数DNA甲基化相对稳定,但Bulk WGBS显示许多增强子和转录因子结合位点的甲基化修饰呈现一种动态的修饰和去修饰状态。不同的细胞不同的组织中,这种修饰的富集程度均有所不同。DNMT家族蛋白(甲基转移酶)涉及将C催化成5mC,TET家族蛋白(也叫去甲基化酶)将5mC去修饰为C,从而呈现动态可变的修饰和去修饰过程。 

6.2 单细胞测序及多组学技术揭示DNA甲基化异质性

单细胞DNA甲基化测序技术的问世,使得研究人员发现即便是经常使用的模式物种小鼠,其DNA甲基化修饰也与人类存在巨大差异。来自英国、澳大利亚/德国以及加拿大的三个课题组分别发表了基于Cell Sorting原理的单细胞微量DNA甲基化测序,其中最为有名的当属英国Wellcome Trust Sanger Institute的Wolf Reik教授课题组,于2014年在Nature Methods发表了scWGBS-seq。

来自MIT的Rudolf Jaenisch于2015年的Cell上发表了一篇名为“Tracing dynamic changes of DNA methylation at single-cell resolution”的文章,并首次报道了一种名为a reporter of genomic methylation (RGM)的技术。当在启动子相关CpG岛附近插入RGM后,能够显示DNA甲基化修饰和去修饰的动态过程。在RGM技术帮助下,发现了诸如Sox2和miR-290等多个基因相关的特异性超级增强子。值得注意的是,在活细胞中RGM分辨率几乎达到了单细胞水平,使得人们可以在单细胞分辨率下研究发育和疾病过程中DNA甲基化的动态变化过程。2019年,该课题组继续在RGM基础上改进了allele reporter技术,发现超增强子等位基因DNA甲基化动态变化是基因座特异性异质性的基础,在功能上影响小鼠胚胎干细胞的转录和细胞状态。 


相对于其他表观基因组数据类型,已经有大量单细胞多组学技术用于同时研究DNA甲基化异质性、基因表达以及偶尔在单个细胞水平下的其他表观遗传标记之间的功能互作。因此,许多这样的功能性互作已有不少研究进行详细描述。 

还是那位Wolf Reik教授,开发了一种名为scM&T-seq的技术,能够同时在单细胞水平检测DNA甲基化和转录组。这项发表在2016年Nature Methods的研究发现,启动子甲基化与转录沉默相关,但远端调控元件的甲基化与相关基因的表达呈现正相关和负相关的平衡。这表明DNA甲基化可能在基因启动子和增强子中扮演不同的角色。通过scM&T-seq,远端调控元件的甲基化不均一性与基因表达的不均一性具有相关性,揭示了DNA甲基化与基因表达不稳定性(variability)之间的功能联系。

Wolf Reik另一项发表在Nature Communications的研究,也利用了scM&T-seq对小鼠肌肉干细胞中的DNA甲基化和基因表达进行了联合分析,结果表明,基因启动子区的DNA甲基化不均一性/异质性与相关基因中更高水平表达的不均一性/异质性有关。

总之这些研究强有力地支持了多种细胞类型中基因表达异质性和DNA甲基化异质性之间的功能互作关系。 


将DNA甲基化与其他表观遗传标记在同一个细胞中检测,这些技术近些年已相继问世。例如,Salk研究所开发了一种被称为单核甲基染色质构象捕获测序(也叫sn-m3C-seq)的技术,能够用于共同描绘单个人脑前额叶皮层细胞中的5mC和染色质构象。该方法利用5mC图谱,根据细胞类型对细胞进行精确聚类,并随后识别出染色质组织特定于细胞类型的特征。利用该方法,可以识别细胞类型特异性染色质环,以及细胞类型特异性接触与DNA甲基化富集之间的相关性。 

另外,UCSD的任兵教授课题组,也在2019年的Nature Methods发表了一种可以同时捕获细胞染色体构象和DNA甲基化修饰的单细胞测序方法—Methyl-HiC。这项研究揭示了在小鼠胚胎干细胞的细胞核中,在空间上非常接近的远端基因组区域之间DNA甲基化状态的协调作用,并描述了混合群体中染色质结构和DNA甲基化的异质性。


DNA甲基化还可以与核小体定位,在单个细胞水平进行同时检测。汤富酬教授课题组开发了一项名为scCOOL-seq的技术,可以在单细胞水平同时检测DNA甲基化、染色质开放程度、核小体定位、CNV以及染色体倍性。该文章发现了一些令人惊讶的结果,那就是个体之间表观遗传水平的差异比想象中的还要大。例如,不同胚胎间5mC分布和核小体定位的异质性远远大于同一胚胎细胞间的异质性。这表明,从多种动物或人类患者收集单细胞表观基因组数据集去进行研究时必须非常小心谨慎得出相应结论。

总之,这些单细胞多组学测序技术,将DNA甲基化与基因表达以及其他表观遗传学特征在同一个细胞中一起进行联合分析,从而为染色质生物学和涉及DNA甲基化异质性的功能关系提供了独特的见解。 


7.
增强子与启动子互作

7.1 基于3C的方法绘制染色质接触和增强子与启动子互作图谱

在哺乳动物基因组中,顺式调控元件(cis-regulatory elements)直接调控基因的转录。顺式调控元件常常位于相距基因数千个碱基的位置,增强子就是顺式调控元件大家族中的一员,它可以促进多个不相关的靶基因表达,而这些基因往往与增强子之间从线性上来看间隔距离较远,最夸张的距离可以达几十万个碱基。例如,2016年任兵教授课题组利用联川生物定制的CIRSPR gRNA探针,筛选出了能够调控胚胎干细胞中调控POU5F1的顺式调控元件。

哺乳动物能够编码蛋白的基因只有2万多个,而增强子的数量可以达到几十万个。这说明了顺式调控元件这类调控系统在基因表达中的重要作用。 

在发育过程中经常使用复杂的增强子网络来实现精确的时空基因表达。增强子能够通过染色质环和折叠与基因启动子形成物理相互作用,从而调节基因转录。这种增强子-启动子的相互作用是染色质空间排列导致的长距离接触的例子。可以使用染色质构象捕获(3C)技术在Bulk样品中对单个成对接触现象进行定量。

在3C技术上进行衍生方法学开发,使得基因座检测数量大大增加,最终达到了Hi-C级别的构象捕获。Hi-C技术可以在全基因组层面对大范围的染色质互作现象进行检测。 


通过对Bulk级别的Hi-C数据进行分析,促进了增强子-启动子互作定位的研究,有助于阐明控制基因表达的调节关系。例如,许多增强子与启动子的互作与基因表达同时发生,当基因转录被抑制时增强子与启动子互作现象也随之消失。这些接触的功能性质,与激活状态下的组蛋白修饰以及转录因子结合的富集密切相关—即CTCF介导的染色质接触如何影响基因表达且存在异质性。

用于绘制染色质可及性图谱的Bulk测序,仅仅揭示的是平均信号,不能解决细胞间的异质性。为了在单细胞水平研究染色质的空间结构,许多课题组相继开发了基于Hi-C技术所衍生的各种单细胞Hi-C多组学测序技术,统称为scHi-C。利用scHi-C发现单个小鼠胚胎干细胞在不同细胞周期阶段,其基因组层面存在巨大差异,这揭示了基因组本身的复杂性。


单细胞技术还使研究人员更加深入了解干细胞和卵母细胞受精过程中的染色质可及性。例如,任兵课题组利用Methyl-HiC对小鼠胚胎干细胞进行Hi-C和DNA甲基化多组学降维聚类分析,挖掘到了一个独特的胚胎干细胞亚群,该亚群表现出与胚胎肢体发育相关的一些独有的甲基化修饰信息,从而增加了这些细胞在表观遗传上为特定的分化程序做好准备的可能性。

此外,一支来自澳大利亚、美国、英国及俄罗斯的跨国团队,在2017年的Nature主刊上发表了一项名为单核相互作用组(single-nucleus interactome)的新技术,也叫Single-nucleus Hi-C。该研究揭示了小鼠卵母细胞到合子转化过程中染色质的空间重组现象,并将这些组织状态与体细胞的组织状态进行了对比。

由于单细胞测序技术本身灵敏度较高,才能捕捉到这种发生在单细胞阶段的发育转变的微弱信号。这些研究都利用染色质可及性的单细胞定位所提供的灵敏度和分辨率,为更好理解生物学故事提供了强有力工具。重要的是,能够验证使用基于测序的方法识别的染色质相互作用的成像技术已经被开发了出来。 

2017年的Molecular Cell上发表了一项名为Hi-M的技术,这是一种高通量、高分辨率、高覆盖率的显微成像技术,可以同时观察完整果蝇胚胎单个细胞中的转录活性和染色体状况。

同样,其他的一些多个超高分辨率显微镜研究正在提供关于染色质折叠和单基因座(数千个碱基分辨率)互作信息。尽管这些技术还相对较新,但基于高灵敏度成像的方法用于研究染色质可及性,还是值得令人兴奋和鼓舞的。这些前沿技术将来可能有助于将多种不同类型的表观基因组数据同时进行可视化展示。 

7.2 CTCF促进增强子与启动子互作并限制表达异质性

增强子与启动子互作,顺式调控由DNA调节元件参与,反式调控由染色质结合因子参与。其中研究最多的反式因子是粘蛋白复合物(cohesin complex)和CTCF(CCCTC-binding factor)。 

其中CTCF是一种在不同基因组环境下发挥多种功能的多锌指蛋白。CTCF首次被分离并克隆是因为它能够结合Myc基因启动子区高度分散50-60bp序列。随后的研究表明,CTCF既可以作为转录抑制因子,也可以作为激活因子。

染色质上碱基距离较远的序列想要互作结合以及较大拓扑结合域结构,都离不开CTCF的作用。借助ChIP-seq及Hi-C等技术发现,CTCF通常在拓扑结合域TADs之间,或压缩和开放的染色质区域之间的边界富集。 

UCSF的Benoit Bruneau课题组,近几年一直致力于研究心血管疾病中调控基因“开”+“关”深层的分子机制。该课题组在2017年的Cell上发表了一项研究证实对CTCF结合位点进行突变后,DNA互作的结合域会遭到破坏。 

Benoit Bruneau课题组认为哺乳动物染色体折叠的分子机制目前仍不清楚。CTCF是染色体结构的候选调控因子之一。CTCF在CTCF靶点之间的循环和拓扑结合域(TADs)的绝缘(insulation)是一种类似于剂量依赖(dose-dependently)的调控机制。恢复CTCF可以恢复染色体的正常结构,揭示CTCF在染色质折叠中的强大作用。 

另外,英国剑桥大学发表在2017年Nature主刊上的一项单细胞scHi-C研究显示,CTCF/cohesin介导的染色质环在单个细胞之间也呈现出显著的异质性。

除了在染色质结构域的结构组织中起作用外,赵可吉课题组利用3eHi-C技术,发现CTCF也有助于增强动态的增强子-启动子互作,该研究发表在2017年的Molecular Cell上。利用3eHi-C对染色质互作进行分析后发现,CTCF结合/调节区域的互作和增强子活性之间存在正相关。此外,CTCF结合位点与增强子元件相互作用,激活基因表达的启动子与CTCF结合位点的相互作用程度高于非激活状态的启动子。

CTCF如何促进增强子-启动子之间的互作,以及控制基因表达?

考虑到CTCF和cohesin在物理层面和功能上互作,并且CTCF结合位点和增强子在基因组中相互散布/穿插(interspersed),一种可能的机制是CTCF结合到增强子和启动子附近的区域,并通过与cohesin互作靠近增强子和启动子。 


因此,这将增加增强子和启动子的局部区域“密度”,更有利于增强子-启动子互作并激活靶基因的表达。在这个模型中,CTCF结合和增强子-启动子相互作用的减少将降低转录激活事件的有效性和一致性,并增加靶基因表达的变异。

其实早在2006年(Pubmed ID为16713960和17048983),研究人员就已经发现一些与发育相关的基因在表达上,通常在不规则的时间间隔内,在激活与沉默/关闭这两种状态之间来回切换。基因零星的激活表达方式,将会导致细胞之间基因表达呈现异质性。这些基因在DNA层面被激活后呈现转录爆发的状态,并非是由随机因素控制的,而是具有显著的特异性模式来将这些本身沉默的基因进行转录激活。 

NIH的Daniel R Larson课题组在2019年Cell上发表的一项乳腺癌细胞单分子Hi-C成像研究中,在经过雌二醇处理后即使存在饱和量的激素,TFF1在不同的细胞中表达水平也存在显著差异。有趣的是,这种异质性被发现与转录沉默/关闭状态持续时间的显著变化相对应。与亲本细胞系相比,由于转录激活次数减少了两倍,TFF1近端上游增强子发生了突变导致基因表达降低。该研究表明,增强子-启动子接触是控制发育调控基因中转录激活状态发生频率的重要组成部分,因此对于限制细胞群体之间基因表达异质性至关重要。然而,当TFF1呈现转录失活/抑制状态时,为何对雌二醇的刺激无任何反应,而在转录激活状态下面对雌二醇的刺激转录激活频率会增加?这个原因目前尚不清楚。 

一种推测认为,这种反应可能需要一种特殊的组蛋白修饰。这一观点得到了一支来自MD Anderson团队研究的支持。该团队于2010年在Nature上发表的一项研究中,进行了雌激素特异性染色质结合蛋白TRIM24的抑制剂实验。当该蛋白抑制了溴多糖与乙酰化组蛋白的结合时,会导致TFF1诱导减少了三倍。 


8.结论与未来展望

越来越多的数据表明,基因表达中的细胞异质性不仅仅只反映了转录过程中的瞬时噪音(transient noise),这背后实际上还有表观遗传方面的因素,并涉及到各种生物学过程。不同的细胞间在染色质可及性、核小体定位、组蛋白修饰、增强子和启动子处的DNA甲基化修饰等方面均呈现异质性,并与细胞系以及主要组织中的基因表达成正相关。

另外,较长的碱基距离间染色质互作在不同的单细胞之间表现出很大的差异,这些互作需要CTCF的增强子-启动子接触,这可能在限制基因表达的异质性中发挥重要作用。

虽然表观遗传变异的调控机制在许多情况下仍有待确定,但很明显,DNA结合转录因子绝对是a key player!例如,先驱转录因子GATA2可能与核小体占据的DNA结合,打开染色质并促进转录激活。因此,这些因子表达和/或结合的细胞异质性可能导致染色质可及性、核小体定位和组蛋白修饰也存在异质性,并且可能是与谱系启动和细胞命运确定相关的表观遗传变异的原因。相比之下,细胞表面信号激活因子(如AP-1)可以简单地识别出可变的染色质区域,并负责最终分化细胞中对信号的不同响应。

综上所述,每个细胞中各种转录因子和染色质组织不同方面的相互作用可以共同定义单个基因的转录,因此可以定义基因表达中观察到的细胞异质性。

目前的单细胞表观基因组技术存在数据失真/丢失(data loss)的问题。即使单细胞表观基因组数据集是强大的资源,可用于聚类分析和基于大量目标位点的收集揭示细胞异质性,但它们在提供有关单个目标位点的信息方面的能力非常有限。因此,未来的研究将需要在各种单细胞表观基因组测定中提高染色质靶位点的覆盖率,并有助于在整个细胞水平和单个特定位点上了解细胞异质性。

在特定基因组位点检测表观遗传信息异质性的能力,将会不断加强研究人员对于单细胞测序这项技术如何拓展应用场景的理解。例如在干细胞群体之间决定细胞命运的差异细胞,人类对病原体的免疫反应以及疾病治疗期间的药物反应等。

单细胞多组学技术,可实现在单个细胞上同时检测基因表达、染色质状态、碱基修饰、组蛋白修饰等两个或多个信息。在同一个细胞检测多个信息有助于进行多组学关联分析或相关系分析。为了研究顺式调控元件和反式调控因子如何调控单个细胞表观遗传信息,并在细胞间呈现表观信息异质性,研究人员需要更多的单细胞多组学技术。此外,结合CRISPR-cas9等基因编辑技术来控制各种顺式调控元件及反式调控因子,单细胞表观基因组测序技术,可用于检测各种系统中染色质修饰和细胞异质性的因果关系。

目前,绘制单细胞染色质图谱的一些新的实验技术,无论在通量还是分辨率上都取得了巨大的进步。展望未来,这些技术有望提供细胞状态更为详细的全貌轮廓,并将有助于更深入地了解控制基因表达异质性的潜在机制。 


译者简介

蒋建国,联川生物高级产品经理,曾在公司多个部门从事过RNA测序建库、生物信息分析及产品开发等工作,被同事戏称为公司内部“连环创业者”。现担任转录调控二区组长,分管统筹公司所有表观遗传学测序产品线的生产及分析工作。在从事DNA甲基化测序、ChIP-seq、scRNA-seq、ATAC-seq/scATAC-seq数据分析及售后相关工作期间,协助客户在Science Translational Medicine、Science Advances、Nucleic Acids Research、Nature Communications、PNAS、Cancer Research等杂志发表论文数十篇。 

沈励泽,联川生物高级产品经理,市场部负责人,在NGS领域有多年数据分析和产品开发经验。目前负责公司高通量测序产品开发与售前技术支持工作,主持开发m6A甲基化测序并撰写书籍《RNA甲基化修饰m6A研究一本通》。同时参与协助单细胞测序、ChIP-seq、RIP-seq等产品的相关开发工作,并协助客户在Nature Communications、Molecular Cancer、Nucleic Acids Research等杂志发表论文二十余篇。


参考文献:
1.The epigenetic basis of cellular heterogeneityhttp://www.nature.com/articles/s41576-020-00300-0

杭州联川生物技术股份有限公司. All Rights Reserved.
浙ICP备15020535号