晶诚所至 生命所能

Engage to Life Energy

 
上课笔记|几种单细胞测序方法的系统比较
发布日期:2021-12-30浏览:

 

 

文章概要

 

文章的题目,是《Systematic comparison of single-cell and single-nucleus RNA-sequencing methods》,

 

文章发表在Nature Biotechnology 杂志的 2020 年 4 月刊上

 

通讯作者是 Joshua Levin,他是美国,麻省理工学院和哈佛大学布罗德研究所,高级组长和研究科学家。

 

研究背景

实验结果分析

 

 

实验内容的第一部分,参与比较的 scRNA-seq 方法和选定的样本

作者一共分析了7种方法。

 

这7种方法,分别是Smart-seq2, CEL-Seq2, sci-RNA-seq, 10x Chromium, Drop-seq, Seq-Well, 和 inDrops

 

在这7种方法中,Smart-seq2和CEL-seq2是基于微孔板的方法,并且是低通量的分析方法。

 

Sci-RNA-seq是基于微孔板的组合的方法,来隔离细胞,并且标识细胞的,它是高通量的分析方法

 

10x Chromium、Drop-seq、和inDrops,是基于微流控产生的油包水的方法,来隔离细胞。并且,是用带barcode序列的引物微珠来标识细胞的,是高通量的方法

 

而Seq- Well,是通过带微孔的芯片,来隔离细胞。再用微珠来标识细胞,是高通量的方法

作者取了三种样本,来供分析。

 

第一种,是人和小鼠的两种细胞系的培养细胞,进行混合,得到混合的细胞,拿来做单细胞测序。之所以要用两个物种的细胞,核心是想看最后实验中双细胞的数量占比。因为得到的reads有了物种序列的差异,就很容易分辨,到底这个序列是序列,还是小鼠的序列。在被读到的一个细胞barcode中,人的细胞与鼠的细胞,有没有混在一起。

 

第二种,是人的外周血单核细胞,也就是PBMC,用这个样本,好处是这些细胞天然就是分离的,细胞与细胞之间没有粘连,这可以排除用组织来做实验时,会引入的细胞消化过程所引入的问题。

 

第三种,是小鼠的脑皮层细胞核。之所以选用小鼠的脑皮层细胞的细胞核,是因为小鼠的脑皮层的单细胞分析,常用细胞核作为样本进行分析的。我这里补充一下,脑皮层的细胞,有相当大的一部分是细长的条型的,或者是星型的多角的状态的,所以用圆球型的细胞核,来代替形状各异的细胞做单细胞实验,是一种较为方便的方法。

 

用这三种类型的样本,在一个中心的六个独立实验室中生成了36个文库。

 

实验内容的第二部分,scumi 计算管道允许跨任何 scRNA-seq 方法进行统一分析

为了统一地分析几种实验方法得到的实验数据,作者开发了一种新的“通用”计算管道,以消除现有管道引入的处理差异。

 

作者这把个计算管道命名为“scumi”,是single-cell RNA-sequencing with UMI的首字母缩写。

 

这个计算管道,从 FASTQ 文件作为输入开始,并生成用于下游分析的基因-细胞表达计数矩阵。

接下来是要过滤掉低质量的细胞。

 

这点在比较几种方法时,尤其重要。目的是要确保对所有方法都公平,而且不那么主观。

用更多的测序深度,有可能提供更好的结果。但是为了搞清哪种方法的reads的信息含量更高,作者先对每种方法的每个细胞取相同的reads数。

 

这带来了相对具有更高比例的有信息含量的reads的方法,

作者通过几个关键指标评估这些方法

 

1、核基因组,和线粒全基因组的,结构,和比对

 

2、捕捉RNA分子的敏感性

 

3、在混合细胞的实验中,分析了多细胞的范围

 

4、它们在估计表达方面的技术精度,和重现性

 

5、在细胞类型中找出有意义的生物学差异的能力

 

实验内容的第三部分,Read 结构和比对揭示了方法之间的效率差异

这是各各个方法得到的 Reads 比对到的位置.

 

三张图,分别是对

 

细胞混合物、

 

PBMC、

 

和鼠脑皮层细胞,这三种样本的检测结果。

 

图中,每一根立柱,是一个实验的结果,

 

相互靠近的两个柱子,是对一个样本的2个重复实验。

 

图中,柱子中灰色的的部分,是对应于外显子的reads

 

土黄色的部分,是对于内含子的部分,

 

其它还有基因间的部分,和比对结果模糊的部分,和无法比对的部分。

 

其实,一般来说,最有用的部分,首先是比对到外显子的reads,而且大多数的研究,往往只用比对到外显子reads。

 

其次是比对到内含子的reads,在细胞核的研究中用得较多。

 

那么在混合细胞样本的实验中,Smart-Seq2的两个重复实验,和inDrops的一个实验,得到了比例最高的外显子reads,这三个的外显子reads数达到50%以上.

 

而sci-RNA-seq表现最差,外显子的比例是28.7%和29.4%。

 

与混合细胞样本相比,PBMC的外显子比例较低,只有inDrops的一个实验达到了46%。

 

脑皮层的细胞核的样本,得到的reads中,内含子相对于外显子的比例,要更高。

 

这和作者的预期是一致的。因为细胞核中包含了更多的没有经过剪切的转录本。

 

实验内容的第四部分,不同实验中方法灵敏度的相似相对排名

由于 scRNA-seq 方法从少量有限的 RNA 输入开始,一个关键的质量指标是灵敏度或捕获 RNA 分子的能力。

 

作者通过测量数据集中每个细胞检测到的 UMI 或基因的数量来评估每种方法的敏感性。

 

这张图,是6种方法检测到的每个细胞中的UMI数量。

 

说明一下,因为Smart-seq2方法本身没有UMI,所以这张图里面没有Smart-seq2的结果。

 

我们看这张图,CEL-Seq2方法,因为输入的细胞数少,所以每个细胞得到的UMI数量明显多于其它几种方法。

 

在剩下的5种高通量方法中,10x Chromium的方法,得到的每个细胞的UMI数量是最多的。

这是混合细胞,各方法检测到的每个细胞中的基因数量。

 

很明显,Smar-seq2和CEL-seq2这两个低通量的方法,检测到的每个细胞中的基因数最多。

 

剩下的5种方法中,10x Chromium方法得到的基因数量最多。

 

Indrops和Drop-seq方法得到的基因数量最少。

再看这组图,这组是PBMC样本得到的结果,

 

上面两个图是测到的单个细胞的UMI数量的分布情况

 

下面两个图是测到的单个细胞的基因的数量的分布情况。

 

大体上,是和前面混合细胞的情况是差不多的。

 

低通量的办法,也就是Smart-seq2和CEL-seq2,每个细胞可以测到更多的UMI数量,和更多的基因数量。

 

在高通量的办法中,10x Chromium的方法可以测到更多的UMI数量,和更多的基因数量。

这两张图,是小鼠脑皮质细胞核样本做的结果,

 

和预期一样,低通量的Smart-seq2方法,每个细胞检测到了最多的基因数量。

 

而几个高通量的方法中,10x chromium方法得到了最多的UMI数量,和最多的基因数量。

接下来,作者分析了各个方法,在每个细胞取相同的测序深度下,在每个细胞中,能够检测到的基因数量。

 

这里,每张图的横轴是测的reads数,纵轴是测到的基因数

 

可以看到左边的两张图是两个低通量方法的结果,两个低通量方法的结果差别不太大,

 

右边的两张图是高通量方法的结果。在高通量方法中,10x Chromium的方法,在相同的测序深度条件下,可以测到更多的基因。

这是在每个细胞取相同的测序深度下,在每个细胞中能检测到的UMI数量。

 

在高通量的条件下,10x Chromium的方法是在每个细胞中能检测的UMI数量最高的。

作者进一步分析了各个方法中,每个细胞中测到的UMI数量,与测到的基因数量的关系。

 

图中,横轴是一个细胞测到的UMI数量,纵轴是一个细胞测到的基因数量。

 

分析结果显示,每个细胞中测到的UMI数量,与测到的基因数量有线性关系。

 

实验内容的第五部分,混合实验能够检测多细胞和来自其他细胞的读数

接下来是看一个细胞barcode对应到多细胞的情况。

 

这是用小鼠的细胞,和人的细胞,混合后,进行检测。通过检测一个细胞barcode中,是否包含两个物种的序列,来判断多细胞的情况。

 

图中,横轴是细胞数量,纵轴是多细胞的比例

 

结果,所有的检测结果,多细胞的比例都低于3.5%,除了一个inDrops的实验结果是8.0%。

 

并且,两个低通量的方法,检测到的多细胞的比率最低。因为这两个方法,都是通过流式细你发仪将单个细胞放到平板的每个孔中的。

接下来,作者分析了这7种方法,各自的结果中,每种细胞混杂的来自其他细胞的污染。

 

这里的7张图,就是7种方法,每张图的横轴,是一个细胞中来自人类的基因数,纵轴是来自小鼠的基因数。

 

如果一个细胞中的序列很纯粹,那么代表这个细胞的点,就会要么出现在横轴上,要么出现在纵轴上,

 

反之,如果这个细胞中混有另一个物种的序列,那么这个点的位置,就会靠近图中央。

 

也就是说,一个方法中的两个物种的细胞,它们各自的拟合线越平,或者越直,越靠近X轴或Y轴,则这个方法中被污染的reads数越少。

 

在低通理的两个方法中,Smart-seq2的拟合线的坡更平,因此Smart-seq2的表现比CEL-seq2的表现更好。

 

高通量的方法中,inDrops方法的拟合线是最平直的。inDrops方法在这一项上的表现最好。

 

实验内容的第六部分,基因表达定量的技术精度、重现性和准确性

为了评估混合细胞实验的技术精度,该实验由在受控条件下培养的两个同质细胞系组成,作者还比较了 scRNA-seq 数据的变化,预计在这种情况下主要由技术变化驱动。

 

这些变化通常符合泊松分布。

 

而CEL-Seq2、inDrops 和 Drop-seq 始终具有相对较低的超出泊松分布之外的变异系数。

 

也就是说,这三种方法的实验结果可重复性较高。

 

而Smart-seq2有很高的超过泊松分布之外的变化。也就是说,这种方法的实验结果可重复性较低

 

实验内容的第七部分,基因表达定量的技术精度、重现性和准确性

在 scRNA-seq 研究的众多生物学特征中,最突出的实用例子之一,就是通过聚类 scRNA-seq 来识别不同的细胞类型。

 

这张图是4种检测方法分别得的PBMC样的本的t-SNE图。

各种方法,分辨出各种细胞簇的能力有所不同。

 

在PBMC样本中,10x Chromium 和 inDrops 的表现良好。

 

通常,大多数方法成功地找出了 PBMC 中丰富的细胞类型。

 

但是,对于稀有的细胞类型,如浆细胞样树突细胞、和血小板,这些细胞在不同的方法中,以不同的比例被捕获。

这是用点阵图,来展示各种方法检出的各细胞簇的多少。

 

对于低通量的方法,没有足够的细胞数量,来找出稀有的细胞类型。

 

在高通量的检测方法中,10x Chromium在检出各种细胞类型上的表现最佳。

小鼠皮层,也具有明确定义的多种细胞类型。

 

这是用各种方法检测得到的 t-SNE 图。

在用于分析的4种方法中,3种方法找到了要找的各种细胞类型。

 

而sci-RNA-seq这个方法,没有找到全部的细胞类型。

这是脑皮层样本的点阵图,图中点的颜色代表了找到特定类型细胞的确信度。

 

可以看到,在这其中,sci-RNA-seq的样本找不到少突胶质祖细胞,也找不到小胶质细胞

 

实验内容的第八部分,跨方法的汇总数据分析增强了生物信号和一致性

考虑到各个检测方法,没有检测到部分细胞类型,可能的原因是,

 

1、由于实验的问题,文库不包含来某些细胞类型的cDNA

 

2、考虑到测序深度和细胞数量,来自这些细胞的数据质量不足以识别这些细胞

 

作者接下来把所有的、各个检测得到的细胞数据进行合并分析。

 

左图是这个合并分析得到的t-SNE图。

 

右图是分析得到的经果,可以看到,在合并之后,各个方法都分析出了那些稀有的细胞类型。

这是几种方法单独分析,和合并分析,两者的结果对比。

 

纵轴是合并分析的结果。

 

横轴,是8个实验的单独的结果。

 

格子中的红色,是一致性。

 

我们可以看到

 

10x Chromium V2的结果,单独与合并有最好的一致性。其次是10x Chromium V3的结果。

对皮层细胞核做同样的分析,分析结果是,10x Chromium有最好的一致性。

 

总结

 

这是几种参与比较的方法的评比结论。

 

首先,基于微孔板两种低通量检测方法的灵敏度是最好的,明显高于其它的几种高通量的检测方法。

 

在识别细胞类型这一点上,10x Chromium的结果是最好的。

 

并且,因为10x Chromium的方法做了很好的商业化的整合包装,所以它的易用性也是最好的。

 

其它的特点,大家可以慢慢细看这个表。

 

上一条:无
下一条:上课笔记|体内 CRISPR 筛选确定 E3 连接酶 Cop1 作为巨噬细胞浸润和癌症免疫治疗靶标的调节剂
返回
网站地图 | 法律声明 | 联系我们

地址:上海市松江区中心路1158号5幢5楼

电话:400-9200-612  传真:+86 21 6090 1207/1208-8154

晶能生物技术(上海)有限公司 Copyright 2012 Genergy Inc. 沪ICP备10017363号

友情链接: