晶诚所至 生命所能

Engage to Life Energy

 
上课笔记|单细胞转录组数据的分析与解读
发布日期:2021-07-05浏览:

本周二晶能学院为大家带来了直播《单细胞转录组数据的分析与解读》,小编把PPT内容整理了一下,分享给大家。

 





 

 

 

本实验采用10X单细胞应用和Illumina测序平台的双端测序模式对样本进行高通量测序,利用FastQC软件对预处理数据进行质量控制分析。10X

Chromium单细胞转录组测序可分为3polyA附近区域捕获和5’ 转录起始位置附近捕获建库测序。3’ 转录本测序适用于各种类型的细胞,对于10X

单细胞3’ 的V2试剂盒处理的样本,Read 116 bp10X细胞Barcode10 bpUMI序列组成;而V3试剂盒处理的样本,Read 116 bp10X细胞

Barcode12 bpUMI序列组成。其中,10X ChromiumBarcode用于标记单个细胞,存在于逆转录引物上的随机核苷酸序列上。Read 2151 bp

cDNA序列, 一般只将前98 bp用于Cell Ranger的下游分析。而5’ 端转录本测序,通常与T细胞和B细胞受体基因TCR/BCR序列一起进行测序分析。

 

 

 

为了识别有效细胞,10X 单细胞标记应至少满足以下一条:(1) Barcode序列存在于10X单细胞标记数据库中的已知标记列表中;(2) 测序得到的Barcode与已知Barcode列表中的序列汉明距离为1,根据碱基质量和候选Barcode计数分布的先验概率, 计算Barcode由测序误差产生的后验概率,当后验概率≥0.975,测序得到的Barcode序列即得到校正。

 

为了去除测序中的PCR重复,对Read 1UMI序列进行校正,UMI校正标准如下:(1) UMI不包含N(2) UMI的碱基质量大于等于10(3) 同一个细胞有1个汉明距离的UMIs校正到reads支持多的UMI为准。

 

基于细胞的UMI数分布来确定高质量细胞数,评估方法为根据每个BarcodeUMI数量降序排列,大于等于预先设定细胞数中UMI数分布99%分位数的10%作为阈值,来筛选RNA高丰度的细胞,通过背景模型识别RNA低丰度的细胞,从而得到高质量的细胞。

 

分析采用10X单细胞建库和Illumina测序平台的双端测序模式对样本进行高通量测序, 采用10X内部软件Cell Ranger对原始数据进行数据质量统计,以及比对到Ensembl数据库的参考基因组。该软件通过识别序列中的用于区分细胞的Barcode序列和每个细胞内不同mRNA分子的UMI标记,对高通量单细胞转录组结果进行定量。

Read1 BarcodeUMI序列,长度为28/26bp

Barcode 标记细胞的Barcode序列,长度为16bp

UMI Unique Molecular Index,标记每个mRNA分子的UMI序列,长度为12/10bp

Read2 靠近转录本3’端的序列,长度为151bp(3’端单细胞转录组测序)

或者靠近转录本5端的序列,长度为151bp(5’端单细胞转录组测序)

Sample Index 标记样本的Index序列,长度为8bp

Number of reads 所有比对到的序列数

Valid Barcodes 带有正确Barcode标记的百分比,每个标记对应到每个细胞

Sequencing Saturation 序列饱和度估计

Q30 Bases in Barcode Barcode序列中质量分数大于等于30的碱基百分比

Q30 Bases in RNA Read RNA序列中质量分数大于等于30的碱基百分比

Q30 Bases in Sample Index Sample index中质量分数大于等于30的碱基百分比

Q30 Bases in UMI UMI标记中质量分数大于等于30的碱基百分比

Reads Mapped to Genome 比对到数据库已知参考基因组的序列数百分比

Reads Mapped Confidently to Genome 确切比对到数据库已知参考基因组的序列数百分比

Reads Mapped Confidently

to Intergenic Regions 确切比对到数据库的基因间隔区域的序列数百分比

Reads Mapped Confidently

to Intronic Regions 确切比对到数据库的内含子区域的序列数百分比

Reads Mapped Confidently

to Exonic Regions 确切比对到数据库的外显子区域的序列数百分比

Reads Mapped Confidently

to Transcriptome 确切比对到数据库的参考转录组的序列数百分比

Reads Mapped Antisense

to Gene 比对到反义链的序列数百分比

Estimated Number of Cells 估计检测到的高质量细胞数

Fraction Reads in Cells 落于高质量细胞的序列数百分比

Mean reads per Cell 每个细胞的平均序列数

Median genes per Cell 每个细胞中基因数的中位数,比对到序列大于0被定义为检测到的基因

Total Genes Detected 所有细胞检测到的基因总数

Median UMI Counts per Cell 每个高质量细胞的UMI数中位数

Sample ID 样品名称

Sample Description 样品描述信息,一般不设置

Chemistry 试剂型号

Reference Path 参考基因组路径

Transcriptome 参考基因组版本

Pipeline Version cellranger版本号

 

 

Loupe Cell Browser

软件主要 用于打开 10X 单细胞结果文件中的 cloupe 文件 ,导入数据后,可

捕获更多数据信息

1.Finding Significant Genes: 寻找差异表达基因

2.Identifying Cell Types: 鉴定细胞类型

3.Exploring Substructure: 创建子群

4.Sharing Results: 导出结果

5.Integrated V(D)J and Gene Expression Analysis (5'):

整合分析

5' 单细胞转录组数据和 5’ 单细胞 V(D)J 数据

 

 

 

细胞过滤:根据细胞过滤指标,默认选取基因数≥200,线粒体基因UMI序列数≤10%,红细胞标记基因的UMI序列比例≤10%,去除双细胞,过滤得到高量单细胞。

Barcode 细胞标记

nFeature_RNA 表达基因数

nCount_RNA UMI

percent.mt 线粒体基因的UMI序列比例

percent.ribo 编码核糖体蛋白基因的UMI序列比例

percent.redcell 红细胞标记基因的UMI序列比例

Sample 细胞来源

doublet_score Scrublet的双细胞概率得分,值越高双细胞概率越高

predicted_doublet Scrublet预测是否为双细胞,域值根据不同数据集而定

 

 

横坐标log10(平均表达值+1),纵坐标为log10(标准偏差+1),一个点代表一个基因,红色表示高变基因

 

 

鼓励用户使用不同数量的PC重复下游分析(2030,甚至50!)。正如您将观察到的,结果通常没有显著差异。但是如果仅使用510PC进行下游分析,会对结果产生重大不利影响。

 

 

针对样本内的高质量单细胞和基因的UMI序列数,计算每个细胞的UMI总数和与10000Scaling Factor比值。为了纠正细胞测序深度进行标准化归一化处理,基于扩散系数衡量的高变异程度基因,采用PCA降维度的方式来看细胞之间的相似性,样本距离越近表示细胞基因的表达趋势约接近。针对PCA结果中解释方差最大的前30个主成分, 采用TSNE(t-Distributed Stochastic Neighbor Embedding)UMAP(Uniform Manifold Approximation and Projection)两种降维方法分别对单细胞群聚类进行可视化。TSNE展示方法的原理是将高维空间下样本之间的欧式距离通过基于student T分布随机近邻嵌合的条件概率 来重新计算样本距离, 使得在低维度空间内样本呈现明显分隔的集群。相对于 TSNEUMAP展示方法尽可能多保留数据的全局结构,该方法使用K最近近邻方法,并使用随机梯度下降来优化结果,计算高维空间中的点之间的距离,将它们投影到低维空间。

 

采用Seurat分别对高质量群体细胞进行聚类分析,PCA空间基于欧式距离构建最近邻KNN图,然后再利用Louvain Modularity优化算法对细胞群进行聚类。可将projection_TSNE_SC.csvt-SNE坐标信息,或者projection_UMAP_SC.csvUMAP坐标信息,和clusters_SC.csv的聚类类别信息导入到cloupe.cloupe采用Loupe Cell Browser进行可视化(参考Loupe Cell Browser说明部分)

 

 

对于同样实验处理的样本,如果分的很开,认为不同样本之间具有批次效应;

对于不同实验处理的样本,如果分的很开,到底是不同样本之间有批次效应还是本身的生物学差异?

是否会出现校正过头,导致不该分在一起的细胞具有了相似的基因表达谱

 

 

针对人和小鼠样本,默认采用singleR进行细胞类型预测。原理如下:针对每个细胞,首先在多个已知细胞类型的参考数据集筛选高变化基因集,根据这些高变化基因集采用斯皮尔曼等级相关系数(Spearman Correlation Coefficiency),针对每个细胞和每个已知细胞类型多个样本内,取80%分位数来确定此细胞的细胞类型注释,根据此分位数进行排序进而剔除最不可能的已知细胞类型,剩余已知细胞类型再次筛选高变化基因集,按照以上方法迭代分析,直到剩余最后两个已知细胞类型,从而确定每个细胞的细胞类型注释。我们采用的已知细胞类型的参考表达谱数据来自物种人和小鼠。此方法的优势是可以对每个细胞或者细胞集以自动地方式进行细胞类型的预测,较少人为主观判断;而局限性在于需要已知细胞类型的多个样本表达谱数据,如果这些数据包含不可靠的细胞类型标签,则会降低预测准确性。

 

 

上图是基于t-SNE UMAP 降维数据来展示SingleR预测结果,SingleR预测结果进

行热点图展示,其中main是细胞大类结果,fine是细胞亚类结果

 

 

 

symbol 基因简称

pct.1 在对应cluster细胞中检测到该基因表达的细胞比例

pct.2 在其它cluster细胞中检测到该基因表达的细胞比例

Cluster_1_Mean_UMI_Counts 给定细胞群的平均表达量, 采用原始序列数总和除标准化系数和

Cluster_1_Other_Mean_UMI_Counts 非给定细胞群的平均表达量

Cluster_1_Log2_Fold_Change 给定细胞群/非给定细胞群的表达量比值取log2,正值表示给定细胞群相对非给定细胞群上调表达,负值表示下调表达

Cluster_1_Pvalue 检验统计量的未校正p-value(The uncorrected p-value of the test statistic)

Cluster_1_AdjustPvalue 检验统计量的经FDR校正的p-valueq-valueFDR采用Benjamini-Hochberg correction多重检验方法计算校正p-value

CellMarker 包含这个标记基因来自CellMarker数据库的细胞类型

PanglaoDB 包含这个标记基因来自PanglaoDB数据库的细胞类型

TF 包含这个标记基因的转录因子类型注释

biological_process GOBP条目, 包括GO编号和GO术语, 最多显示50个,针对mRNA部分

cellular_component GOCC条目, 包括GO编号和GO术语, 最多显示50个,针对mRNA部分

molecular_function GOMF条目, 包括GO编号和GO术语, 最多显示50个,针对mRNA部分

KEGG_pathway KEGG Pathway注释,包括KEGG编号和名称,最多显示50

 

 

1)过滤掉编码核糖体蛋白的基因;(2)筛选同时满足如下条件的基因:avg_logFC>0.25pct.1 > 0.25, pct.1 > pct.2, p_val < 0.05;3)根据倍数比排序,每个细胞群分别选择最高的10个基因进行热图,featureplotvlnplotdotplot展示。若根据倍数比选出来的基因超过10个,则倍数比相同的基因再根据p_val排序,最终只选择10个基因。针对热图,特别提供了四个文件,每个cluster分别筛选前10个和30个基因进行热图展示,其中DoHeatmap_top_30/10_nofilter.pdf基因筛选标准不进行上述第二条过滤,DoHeatmap_top_30/10_filter.pdf则是按照上述过滤标准进行过滤

 

 

 

针对Seurat的细胞聚类结果,首先对细胞类群之间进行总体相关性和PCA降维。

 

 

每个cluster top 10标记基因的TSNE/UMAP

 

 

每个cluster top 10标记基因的小提琴图

 

 

每个cluster top10标记基因点图

 

 

基于Seurat检测到的每个clustyer的标记基因,采用DDRTree方法进行降维和构建最小生成树, 然后对单细胞进行在高维和低维空间搜索最优排序而拟合最佳细胞发育或者分化拟时轨迹曲线,如果细胞数量达到2万以上,则随机抽取代表性2万个细胞作以下分析。Monocle拟时轨迹分析是基于关键基因的表达模式,在拟时间对单个细胞进行排序的策略,通过单个细胞非同步的生物学过程,将细胞放置在合适的与生物学过程(如细胞分化)相对应的轨迹位置上,模拟出时间发育过程的动态变化。通过拟时分析可以推测疾病发⽣过程中细胞亚型的演变轨迹或细胞凋亡路径,或者推断干细胞在发育过程的分化轨迹或某类细胞的分化来源。

 

 

Read1 BarcodeUMI序列,长度为28/26bp

Barcode 标记细胞的Barcode序列,长度为16bp

UMI Unique Molecular Index,标记每个mRNA分子的UMI序列,长度为12/10bp

Read2 靠近转录本3’端的序列,长度为151bp(3’端单细胞转录组测序)

或者靠近转录本5端的序列,长度为151bp(5’端单细胞转录组测序)

Sample Index 标记样本的Index序列,长度为8bp

Number of reads 所有比对到的序列数

Valid Barcodes 带有正确Barcode标记的百分比,每个标记对应到每个细胞

Sequencing Saturation 序列饱和度估计

Q30 Bases in Barcode Barcode序列中质量分数大于等于30的碱基百分比

Q30 Bases in RNA Read RNA序列中质量分数大于等于30的碱基百分比

Q30 Bases in Sample Index Sample index中质量分数大于等于30的碱基百分比

Q30 Bases in UMI UMI标记中质量分数大于等于30的碱基百分比

Reads Mapped to Genome 比对到数据库已知参考基因组的序列数百分比

Reads Mapped Confidently to Genome 确切比对到数据库已知参考基因组的序列数百分比

Reads Mapped Confidently

to Intergenic Regions 确切比对到数据库的基因间隔区域的序列数百分比

Reads Mapped Confidently

to Intronic Regions 确切比对到数据库的内含子区域的序列数百分比

Reads Mapped Confidently

to Exonic Regions 确切比对到数据库的外显子区域的序列数百分比

Reads Mapped Confidently

to Transcriptome 确切比对到数据库的参考转录组的序列数百分比

Reads Mapped Antisense

to Gene 比对到反义链的序列数百分比

Estimated Number of Cells 估计检测到的高质量细胞数

Fraction Reads in Cells 落于高质量细胞的序列数百分比

Mean reads per Cell 每个细胞的平均序列数

Median genes per Cell 每个细胞中基因数的中位数,比对到序列大于0被定义为检测到的基因

Total Genes Detected 所有细胞检测到的基因总数

Median UMI Counts per Cell 每个高质量细胞的UMI数中位数

Sample ID 样品名称

Sample Description 样品描述信息,一般不设置

Chemistry 试剂型号

Reference Path 参考基因组路径

Transcriptome 参考基因组版本

Pipeline Version cellranger版本号

 

 

GO_ID GO标示

GO_term GO名称

GO_category GO分类名

Annotated 注释在这个GO顶层分类且在背景基因列表中的基因总数

Significant 注释在这个GO且在候选基因列表中的基因总数

Expected 候选基因列表注释在这个GO的期望值(候选基因总数与在背景基因中属于这个GO注释基因的比例相乘)

P_value Fisher精确检验计算的P

FDR 原始P值经Benjamini & Hochberg多重检验纠正后的P

Rich_factor 注释在这个GO且在候选基因列表中的基因总数与注释在这个GO顶层分类且在背景基因列表中的基因总数的比值

显著富集GO柱状图,根据pvalue小于等于0.05筛选显著富集GO,每个GO分类下至多显示10GO,横坐标代表-log10(Pvalue),纵坐标代表显著富集的GO名称。

 

 

左图:显著富集KEGG pathway柱状图,横坐标代表显著富集的KEGG pathway名称,纵坐标代表-Log10(Pvalue)。纵坐标越显著表示该Pathway越富集显著,红色柱表示显著的Pathway通路(Pvalue <= 0.05),蓝色柱表示不显著的pathway通路,右图:显著富集KEGG pathway散点图,横坐标代表Rich factor(候选基因集属于这个KEGG pathway的基因总数与所有基因属于这个KEGG pathway的基因总数的比值)Rich factor越大,表示富集的程度越大,纵坐标代表-Log10(Pvalue)。根据Rich factor的排序信息,显示最前面20KEGG pathway

 

 

左图:显著富集疾病注释柱状图,横坐标代表显著富集的疾病注释名称,纵坐标代表-Log10(Pvalue)。纵坐标越显著表示该疾病注释越富集显著,红色柱表示显著的疾病注释(Pvalue <= 0.05), 蓝色柱表示不显著的疾病注释。右图:显著富集疾病注释散点图, 横坐标代表Rich factor(候选基因集属于这个疾病注释的基因总数与所有基因属于这个疾病注释的基因总数的比值)Rich factor越大,表示富集的程度越大,纵坐标代表-Log10(Pvalue)。根据Rich factor的排序信息,显示最前面20条疾病注释。

 

 

STRING蛋白质相互作用网络数据库中查询和下载该物种的蛋白质相互作用网络, 从而构建差异 表达基因蛋白质相互作用网络,如果测序物种在STRING 数 据库中不存在, 那么下载近源物种的蛋白质相互作用网络,采用Blastx 或者Blastp将该物种的基因与 近源物种的蛋白质序列库进行同源比对,通过将该物种基因序列编号映射于近源物种的蛋白质相互作用网络, 映射的方法是 如果该物种基因A 的近源物种同源基因列表中的1个或者多个与 该物种基因B的近源物种同源基因列表中的1个或者多个存在蛋白质相互作用关系, 那么认为基因A 与基因B 存在可能的蛋白质相互作用, 从而构建差异基因蛋白质相互作用网络。由于目的基因数目较多,选取度排序前50个基因来绘制蛋白质相互作用网络图。客户可用cytoscape 软件将差异基因对整个网络文件导入根据 需要进行网络可视化。



 

上一条:无
下一条:愿伟大的祖国繁荣昌盛!
返回
网站地图 | 法律声明 | 联系我们

地址:上海市松江区中心路1158号5幢5楼

电话:400-9200-612  传真:+86 21 6090 1207/1208-8154

晶能生物技术(上海)有限公司 Copyright 2012 Genergy Inc. 沪ICP备10017363号

友情链接: