晶诚所至 生命所能

Engage to Life Energy

 
上课笔记|通过SHARE-seq做单细胞的RNA表达与染色质可及性扫描
发布日期:2021-01-15浏览:

《通过SHARE-seq做单细胞的RNA表达与染色质可及性扫描》上周在晶能学院开播,没来得及观看直播的小伙伴可以扫描下方二维码观看回放!

 

 

小编把陈巍老师的直播课程以图文形式整理出来啦,跟小编一起来看看吧!

 

文章概要

 

文章的题目,是《Chromatin Potential Identified by Shared Single-Cell Profiling of RNA and Chromatin》。这篇文章发表在Cell杂志2020年的11月刊上。

 

文章的题目,翻译成中文,意思是《通过共享的单细胞RNA和染色质鉴定染色质潜力》

 

文章的通讯作者,是Jason D. Buenrostro,他是哈佛大学干细胞与再生生物学系的助理教授

 

建库方法介绍

 

作者采用了一种不同于10X Genomics公司的单细胞建库测序方法,这种方法可以同时测到ATAC信息和RNA-seq信息,也就是单细胞的全基因组染色质可及性,和全转录组的信息。

 

作者把这种方法命名为simultaneous high-throughput ATAC and RNA expression with sequencing , 缩写叫“SHARE-seq

我们说一下这个建库过程,它产生ATACRNA-seq片段的过程,和传统的ATAC建库、RNA-seq建库的原理是一样的。

 

先把细胞做透化,ATAC建库是依靠转座酶,

 

RNA-seq建库是依靠poly(T)引物来做针对poly(A)尾巴的逆转录。这个poly(T)的引物上还带着生物素,这是为了方便后面对cDNA链的富集

这是SHARE-seq建库的核心步骤,给DNA片段加上barcode标签步骤,这个步骤是与10x genomics公司的方法有差别的。

 

这个办法是,先把细胞分散到96孔板中,96孔板的每个孔都放上了不同barcode序列的接头,这些接头被连到DNA片段上。

 

然后,把这些细胞混合到一起。

 

接着,把这些细胞再次分散到96孔板中,再加上第二段barcode序列。这样DNA片段和cDNA片段上就连上了第二段barcode序列。

 

把这个过程重复三遍,结果就是原来的DNA片段和cDNA片段被连上了3barcode序列。而且,来自一个细胞的DNA片段与cDNA片段共享同样的三段barcode序列

 

每段barcode序列是有96种变化,那重复三次之后,变化的种类就是96的三次方,也就是有了将884千种变化。

 

那有了88万种变化,就可以较好地区分每个DNA片段或cDNA片段最初是来源于哪个细胞了。

接下来,再把得到DNA片段和cDNA片段的混合物,利用原来poly(T)上连的生物素,用微珠把cDNADNA分离开来。

 

接着,把DNA建成ATAC的测序文库,

 

cDNA建成RNA的文库,再进行深度测序。

 

 

实验结果分析

 

实验内容的第一部分,验证SHARE-Seq方法的可靠性

单细胞测序的第一个关注点,是双细胞的数量越少越好。所谓双细胞现象,就是两个细胞被标了同一个barcode,无法区分彼此的这种现象,这种现象会降低数据真实性、有效性,是单细胞测序中要尽量避免的。

 

为了验证SHARE-seq的双细胞情况,作者是用人类和小鼠的两个细胞株的细胞,混合在一起做SHARE-seq的实验,来看SHARE-seq的双细胞情况。因为人类细胞和小鼠细胞在基因序列上有差异,测序后可以从序列上区分出是否有人类细胞和小鼠细胞共用一个barcode序列,这样来倒推有多少双细胞的情况发生。

 

作者的这个实验,希望是看到2000个细胞,实验的实际结果是得到了903个人类细胞,和1341个小鼠细胞,在这总共2000多个细胞中,看到了1个人鼠混合的双细胞,人鼠混双细胞在全部细胞中的比率是0.04%,这与预期的0.052%的双细胞比率是一致的。

 

我们来看这三张图,B图是ATAC中的双细胞,C图是RNA-seq中的双细胞,D图是reads比对到人类基因组上的结果。图中红圈标出的那个点,就是那个混杂了人和鼠两种序列双细胞的那个点。

 

2000个细胞中检出一个双细胞,这个较低的双细胞比率,说明SHARE-seqBarcode能够较好地避免双细胞现象。

这是人源的GM12878细胞,测序后得到的reads在基因组上的分布。

 

最上面的蓝色的这些线是RNA-seqreads分布情况,

 

中间红色的这些线是ATAC-seqreads的分布情况

 

下面的则是300个细胞中得到的ATAC-seqreads分布的点

这是作者把SHARE-seq,与之前别人做的同时测单细胞的ATACRNA的方法相比的小提琴图。

 

这里,This study就是SHARE-seq方法的结果,另外的三种方法是别的学者用的方法。

 

因为被测序的样本是细胞系,也就是说样本中的细胞有比较高的一致性,那么测序得到的结果,从小提琴图来说,SHARE-seq的小提琴样子是比较紧凑的,别的三种方法的小提琴样子是相对松散的,

 

所以,作者认为SHARE-seq的结果是好于其它三种方法的。

这是两个重复样本的ATAC-seq结果对比,和RNA-seq的结果对比,

 

ATAC的相关系数是0.98RNA-seq的相关系数是0.99

 

也就是说SHARE-seq的实验结果重复性是很好的。

 

实验内容的第二部分,SHARE-Seq生成高质量的跨多种细胞系和组织的染色质可及性谱和表达谱

作者挑了小鼠的毛囊、大脑、肺做分析。

 

其中,作者挑选毛囊作为研究样本,是因为作者的这项研究目标就是要研究细胞在不同状态下,染色质可及性的变化,和基因表达的变化。而毛囊是哺乳类动物中生长最快的器管,毛囊中的细胞反复经历高速的增殖、再休眠的循环过程。所以作者挑选毛囊作为研究对象之一。

这是SHARE-seq得到的数据集,与其它方法单细胞测序得到的数据集的小提琴对比图。结果是相近的。

作者以NFKB1基因为代表,来看该基因上ATAC-seqreads数,与该基因的RNA-seq表达情况。

 

最上面一行是展开的NFKB1基因,和落在这个基因上的RNA reads数。

 

第二行是落在这个基因上的ATAC reads数,

 

第三个,这个大方块里,是把ATACreads还原到单个的细胞的情况。

 

最右的这两个图,是把单细胞按它在NFKB1这个基因上的ATAC reads从多往少的序列,从上往下排。我们可以看到ATAC的数量多的细胞,表达的这个基因的RNA也多。

 

Spearman相关性分析,得到 ρ= 0.31P小于10的负6次方,也就是说ATAC-seqreads数,与RNA-seqreads数,显著正相关

 

实验内容的第三部分,从SHARE-Seq染色质和RNA定义的细胞类型之间的广泛一致性

这是作者用SHARE-seq对小鼠皮肤进行分析,得到的34744个细胞的RNA表达谱的UMAP图。

 

经过聚类分析,得到22个细胞类型

 

这其中,几个重要的细胞种类被识别出来,如:

 

转运扩增细胞,也就是transit-amplifying cells,缩写是TAC

 

内根鞘,inner root sheath,缩写是IRS

 

外根鞘,outer root sheath,缩写是ORS

 

毛干细胞,hair shaft cells

这是同一个实验中,得到的ATACUMAP图,

 

前面RNA-seq分出来细胞簇,

 

如转运扩增细胞TAC

 

内根鞘细胞IRS

 

外根鞘细胞ORS

 

毛杆细胞hair shaft,这里也同样能分出来。

RNA得到的细胞分类,与ATAC得到的细胞分类,相互之间有很好的对应性

 

这里,横轴上排列的是ATAC得到的细胞分类,纵轴上排列的RNA得到的细胞分类,格子的颜色越深,则一致性越好。

 

我们在这里看到了几乎是斜穿对角线的深色格子。这明显地说明了分别用RNAATAC得到的细胞分类,相互之间有很好的对应性。

这里,左图是各个细胞簇的标志性基因RNA表达的关联图,

 

右图是各个细胞簇与ATAC的代表性转录因子motif的关联图

这是各个细胞簇,与标志性的可及性peak的关联图

这是各个细胞簇之间,RNA表达的相似性,和ATAC的相似性

 

其中,第1个到第4个簇显示出是毛囊的永久部分,第5个到第9个簇显示是毛囊的再生部分。

这是皮肤中,转录因子分数与motif基因表达的关系.

 

横座标是转录因子与基因的相关性,纵座标是motif的变化

 

点的颜色表示显著程度,蓝色是显著性弱,棕色是显著性强。

 

两个全局性的激活因子,Dlx3Sox9,有显著的变化,两个抑制因子,Zeb1Sox5也有显著变化

 

这样,SHARE-seq就提供了多维度地观察细胞的特征,包括被细胞种类决定的转录因子所调控的染色质可及性。

细胞通过RNA的数据进行聚类得到的结果,与ATAC聚类得到的结果,并不完全一致。

 

比如这个被RNA的数据进聚类,得到的这群细胞,是很活跃地增殖的基底细胞,但是这一群细胞在ATAC的分析结果中,是分散开来的,并没有被识别成一个相互粘在一起的细胞簇。

 

实验内容的第四部分,配对测量结果将染色质峰和顺式目标基因相关联

这张图,是配对地测量染色质可及的peak和顺式目标基因相关性的框架。

 

通过SHARE-seq,得到了许多单细胞的染色质可及性的峰,同时也得到了许多个单细胞的每个基因的表达量。

 

然后,把特定基因的表达量,与染色质可及峰对应起来,通过cutoff对偏差进行修正后,进行分析

这是用GM12878细胞系为材料,分析了了23千个细胞

 

以基因中Dlx3超级增强子为例子,来举例说明基因表达与顺式因子的关系。

 

图的横轴中间是Dlx3基因的转录起始位置,两侧是上下游各500kb

 

蓝色抛物线的高低,指示了周围顺式因子与Dlx3表达的关系,抛物线越高,是关系越紧密。

 

灰色竖线,是一个一个的ATAC的峰,蓝色竖线是与Dlx3有紧密关系的ATAC峰。

 

右上角的这个图,是把这一段的ATAC峰分解到各个细胞簇,

 

紫色的这条轴,H3K4me1,是H3这个组蛋白在第4个赖氨酸上被甲基化,这个甲基化一般被认为是基因活化的一个标志

 

黄颜色的这条轴,H3K27ac,是H3这个组蛋白在第27个赖氨酸上被乙酰化,这个乙酰化一般被认为是基因活化的一个标志。

这是每个关联关系,也就是association,连接到的基因数量的图。横轴是一个关联关系,它连接到的基因数量,纵轴是处于这种情况的关联数。

 

可以看到,大多数的关联关系,只与一个基因相相连,只有少量的关联关系是与多个基因相连的。

 

4个或4个以上的基因相连的关联关系,只占所有关联关系中的0.14%

 

实验内容的第五部分,DORC识别从头确定关键基因的基因

作者定义了DORCsDORCsdomain of regulatory chromatin的首字母缩写,

 

中文意思是:染色质调节域,

 

作者给DORCs下的定义是:有大于10个明显的peak与基因关联的区域。

 

看这个图,图中红色框中框出来的这个区域,就是被标定出来的许多个DORCs

 

文章中一共是确定了857DORCs区域。

这是各个细胞簇中DORCs的分布。

有趣的是,DORC区域中的基因,并不一定会高表达。

 

比如,左图中,棕色部分是Dlx3这个区域可及性高的细胞,右图中,棕色部分是高表达Dlx3基因的细胞。

 

我们可以看到,箭头所指的位置,可及性高,但表达却不高。

 

因此,DORC提供了一种无监督的,易于使用的方法,可以在单细胞分辨率下同时鉴定关键谱系决定基因及其调控区,而无需事先知道细胞类型识别结果。

 

实验内容的第六部分,增强子的谱系启动优先于DORC中的基因表达

转运扩增细胞,也就是TAC细胞,是成年哺乳动物中增殖最快的细胞。

 

TAC细胞迅速分裂,产生出多种下游分化细胞类型,

 

这张图是从TAC细胞到IRS、毛杆表皮、和髓质的UMAP图。

DORC区域通常在相关基因表达之前,就已经开放可及,并且先于细胞分化的谱系方向确定之前就已经开放可及。

 

Wnt3这个基因为例,DORC先变得可接触,然后在分化到毛杆后期,RNA才被检测到,这两者之间存在一定的时间差。

 

后面,还会再提到这一段DORCRNA的时间差

作者计算发现,92%的情况下,DORC减掉RNA的时间差是正值,也就是92%的情况下,DORC是先于RNA

这是针对Wnt3这个基因做的伪时间图。

 

图中列出了早期增强子、二级增强子、启动子、内含子、外显子的依次先后达到峰值的顺序,

 

也就对应着增强子激活启动子,然后有了新生成的RNARNA经过剪接形成成熟的mRNA的过程。

这是Wnt3Tubb6Cuticle/cortex module的伪时间图,都是DORC先升高,接下来intron内含子升高,最后外显子升高

作者进一步研究,假设引起染色质可及性的转录因子,与激活增强子的转录因子是不同的转录因子,看有什么发现。

 

图中横轴是DORCRNA的相关性,纵轴是转录因子主题富集程度。

 

结果,图中Lef1Hoxc13这两个基因突显出来。

再从伪时间图上看,发现Lef1Hoxc13都是先RNA转录增多,后motify启动。这与Wnt3是先DORC启动,再RNA转录启动,是相反的。

把所有的配对的DORC-RNA相关性与TF主题富集做分析,图中的虚线是显著性界线。

 

可以看到Lef1Hoxc13在右上角很突出

从这张每个DORC的驱动TF网络图中,可以看到Lef1Hoxc13居于核心地位

这是Lef1Hoxc13Wnt3在毛杆细胞系中的分步激活图

 

实验内容的第七部分,染色质可及性启动与多谱系命运偏向和组蛋白修饰同时发生

进一步寻找在分化过程中,可以早期识别细胞谱系的标志。

 

这是对细胞谱系决定之前表皮和髓质细胞中Notch+Notch-细胞表达差异的展示

Notch1DORC的可访问性,将线型启动区域划分为3个子区域

Notch1+Notch1-之间, 观察到明显的染色质差异

 

这进一步证明,染色质可及性的全基因组变化反映了谱系引发的细胞状态,并突出了Notch1Tchh特异性染色质的变化引发了基因表达的激活

作者发现Lef1Hoxc13基因位点位于凸出和发芽的端粒HFSC中,然后在HFSC分化为TAC时变得活跃

 

实验内容的第八部分,染色质潜力描述了分化过程中染色质至基因的表达动力学

染色质潜力,定义为与细胞当前的染色质状态最兼容的未来RNA状态细胞的差距

 

染色质潜力具体的计算:一个细胞,也就是细胞X

 

计算细胞XDORC调节的基因,在RNA空间中,找到10细胞,这10个细胞的RNA表达最接近的X细胞的DORC调节的基因,这10个细胞就是细胞Y

 

再在染色体的低维空间中,计算从XY的方向和距离,就是染色质潜力,也就是图中的这个箭头

 

这个箭头长度用来衡量染色质状态与未来” RNA状态有多不同

这是在UMAP图上展示出来的整体的染色质潜力图。

 

截取其中的一小段,

 

可以看到这些箭头,大体上是指向右边的

这是一个毛囊的垂直的剖面图

 

我们可以看到,TAC细胞的分化轨迹,从最接近毛囊中央,到毛囊的外侧,是分化成不同的细胞的。

 

最接近中央的TAC细胞分化成毛杆细胞,主导的基因是Lef1Lhx2,再进一步的分化又受到Notch1的控制

 

中间层分化成内根鞘,主导的基因是ld3Gata3

 

外层分化成外根鞘

 

总结

 




 

上一条:在线直播|单细胞测序技术网络研讨会诚邀您的参与
下一条:盘点晶能学院2020年备受关注的精彩内容~
返回
网站地图 | 法律声明 | 联系我们

地址:上海市松江区中心路1158号5幢5楼

电话:400-9200-612  传真:+86 21 6090 1207/1208-8154

晶能生物技术(上海)有限公司 Copyright 2012 Genergy Inc. 沪ICP备10017363号

友情链接: