1 工作描述
1.1 目标
本次研讨会将:
- 在 NCI 的基因组数据共享(GDC)中可用的 TCGA(癌症基因组图谱)数据。
- 演示使用 R/Bioconductor 包 tcgabiollinks 访问和导入 TCGA 数据。
- 提供使用 R/Bioconductor 软件包 maftools 可视化拷贝数改变和突变数据的指导。
1.2 可用的链接
- the NCI's Genomic Data Commons (GDC): https://gdc.cancer.gov/.
- TCGAbiolinks package: http://bioconductor.org/packages/TCGAbiolinks/
- maftools package: http://bioconductor.org/packages/maftools/
1.3 参考文献
-
TCGAbiolinks:
- Colaprico, Antonio, et al. “TCGAbiolinks: an R/Bioconductor package for integrative analysis of TCGA data.” Nucleic acids research 44.8 (2015): e71-e71. Silva, Tiago C., et al. “TCGA Workflow: Analyze cancer genomics and epigenomics data using Bioconductor packages.” F1000Research 5 (2016). (https://f1000research.com/articles/5-1542/v2)
- Mounir, Mohamed, et al. “New functionalities in the TCGAbiolinks package for the study and integration of cancer data from GDC and GTEx.” PLoS computational biology 15.3 (2019): e1006701. (https://doi.org/10.1371/journal.pcbi.1006701)
- Silva TC, Colaprico A, Olsen C et al.TCGA Workflow: Analyze cancer genomics and epigenomics data using Bioconductor packages [version 2; peer review: 1 approved, 2 approved with reservations]. F1000Research 2016, 5:1542 (https://doi.org/10.12688/f1000research.8923.2).
-
The NCI’s Genomic Data Commons (GDC):
- Gao, Galen F., et al. “Before and After: Comparison of Legacy and Harmonized TCGA Genomic Data Commons’ Data.” Cell systems 9.1 (2019): 24-34. (https://doi.org/10.1016/j.cels.2019.06.006)
-
Maftools:
- Mayakonda A, Lin D, Assenov Y, Plass C, Koeffler PH (2018). “Maftools: efficient and comprehensive analysis of somatic variants in cancer.” Genome Research. doi: 10.1101/gr.239244.118.
-
Complexheatmap:
- Gu Z, Eils R, Schlesner M (2016). “Complex heatmaps reveal patterns and correlations in multidimensional genomic data.” Bioinformatics.
1.4 使用 R/Bioconductor 包
1.5 前提条件
- Basic knowledge of R syntax
- Understand the pipe operator (“%>%”) (help material https://r4ds.had.co.nz/pipes.html)
- Understand the SummarizedExperiment data structure (help material http://bioconductor.org/packages/SummarizedExperiment/)
2 引言
2.1 了解 GDC(基因组学数据公共数据库)
在本次研讨会中,我们将访问 NCI 基因组数据共享(GDC)中可用的(癌症基因组图谱)数据(portal.gdc.cancer.gov/)。在我们开始之前,重要的是要知道数据存储在两个不同的数据库中:
- **==The legacy archive==**(https://portal.gdc.cancer.gov/legacy-archive/search/f),其中包含来自早于 GDC(例如 chub)的存储库的未协调遗留数据。此外,遗留数据没有被 GDC 积极维护、处理或协调(来源:https://docs.gdc.cancer.gov/Data_Portal/Users_Guide/Legacy_Archive/)
- ==Harmonized database==(https://portal.gdc.cancer.gov/),其中包含使用标准化管道和参考基因组 GRCh38 (hg38)处理的许多癌症项目的数据。这提供了分析多种癌症类型或跨多个项目分析同一癌症类型的优势。您可以在 https://gdc.cancer.gov/about-data/gdc-data-harmonization 和 https://docs.gdc.cancer.gov/Encyclopedia/pages/Harmonized_Data/找到有关支持数据协调的管道的更多信息。
3.2 理解 TCGA 数据
3.2.1 数据访问
GDC 提供了两种访问级别的数据:
- Open: 包括不能单独识别的高层次基因组数据,以及大多数临床和所有生物标本数据元素。
- Controlled: 包括个体可识别的数据,如低水平基因组测序数据、种系变异、SNP6 基因型数据和某些临床数据元素
- 详细教程链接:gdc.cancer.gov/access-da...
3.2.2 TCGA 条码描述
每个 TCGA 样品都有一个唯一的标识符,称为 TCGA 条形码,它包含了每个样品的重要信息。条形码的描述如下所示。(详细内容: https://docs.gdc.cancer.gov/Encyclopedia/pages/TCGA_Barcode/) TCGA 样本命名规则详解 | 快速获取样本类型、组织来源等分组信息1
Label | 描述 | 值 | 值的描述 | 可能的值 |
---|---|---|---|---|
Analyte | 用于分析的分析物的分子类型 | D | DNA 样本 | TCGA 样本命名规则详解 |
Plate | 96 孔板序列中板的顺序 | 182 | 第 182 孔 | 4 位的字母数字值 |
Portion | 按 100 - 120 毫克样品分量顺序排列 | 1 | 样品的第一部分 | 01-99 |
Vial | 样本序列中样本的数量 | C | 第三瓶 | A 到 Z |
Project | 项目名称 | TCGA | TCGA 项目 | TCGA |
Sample | 样品类型 | 1 | 实体瘤 | 肿瘤类型从 01 - 09,正常类型从 10 - 19,对照样本从 20 - 29。有关示例代码的完整列表,请参阅 TCGA 样本命名规则详解 |
Center | 测序或鉴定中心,该中心将接收样品进行分析 | 1 | The Broad Institute GCC | |
Participant | 研究参与者:指参加科学研究的人员,他们可能接受调查、接受治疗或接受其他形式的干预 | 1 | MD 安德森 GBM 研究的第一位参与者 | 任何字母数字的值 |
TSS | 组织源部位 | 2 | 脑肿瘤 |
样品类型编号
3.2.3 数据结构
为了筛选 GDC 中可用的数据,可以使用项目(TCGA, TARGET 等),数据类别(转录组分析 ,DNA 甲基化 ,临床等),数据类型(基因表达量化[Gene Expression Quantification],==Isoform 表达量化==[Isoform Expression Quantification],**甲基化 β 值**[Methylation Beta Value],实验策略(miRNA-Seq, RNA-Seq 等),工作流类型,平台,访问类型等。
就数据粒度而言,一个项目有几个类别的数据,每个类别包含几个数据类型,这些数据类型可能是由不同的工作流、实验策略和平台产生的。这样,如果您选择数据类型“基因表达量化[Gene Expression Quantification]”,数据类别将是转录组分析。
3.3 SummarizedExperiment 数据结构
在我们开始之前,重要的是要知道 R/Bioconductor 环境提供了一个名为 SummarizedExperiment 的数据结构,该数据结构用于处理同一对象中的样本元数据(年龄,性别等),基因组学数据(即 DNA 甲基化 β 值)和基因组学元数据信息(chr,开始,结束,基因符号)。您可以使用 colData 函数访问样本元数据,使用 assays 访问基因组数据,使用 rowRanges 访问基因组元数据。
3.4 加载需要的 R 包
library(TCGAbiolinks)
library(MultiAssayExperiment)
library(maftools)
library(dplyr)
library(ComplexHeatmap)
如果这些软件包不可用,您可以使用 BiocManager 安装这些软件包。
if (!requireNamespace("BiocManager", quietly = TRUE))
install.packages("BiocManager")
if (!requireNamespace("ComplexHeatmap", quietly = TRUE))
BiocManager::install("ComplexHeatmap") # from bioconductor
if (!requireNamespace("TCGAbiolinks", quietly = TRUE))
BiocManager::install("BioinformaticsFMRP/TCGAbiolinks") # from github
4 处理 TCGA 数据
在本次研讨会期间,我们将使用来自统一 GDC 数据库(hg38 版本)的开放获取数据,该数据库可在 https://portal.gdc.cancer.gov/上访问。
通过接下来的部分,我们将:
4.1 临床数据
在 GDC 数据库中,临床数据可以从不同的来源检索:
- 索引临床:使用 XML 文件创建的精细临床数据。
- XML 文件:数据的原始来源
- BCR Biotab:从 XML 文件解析的 tsv 文件
索引临床文件和 XML 文件之间有两个主要区别:
- XML 有更多的信息:辐射、药物信息、随访、生物标本等。因此,索引文件只是 XML 文件的一个子集
- 索引的数据包含带有后续信息的更新数据。例如:如果患者在收集临床数据时还活着,然后在下一次随访中他已经死亡,则索引数据将显示死亡。XML 将有两个字段,第一个字段表示他还活着(在临床部分),第二个字段表示他已经死亡。
其他有用的临床资料包括:
- 组织切片图像
- 病理报告-幻灯片图像
您可以在 tcgabiollinks 的插图中查看示例 https://bioconductor.org/packages/release/bioc/vignettes/TCGAbiolinks/inst/doc/clinical.html.
# Access indexed clinical data
clinical <- GDCquery_clinic("TCGA-COAD")
head(clinical)
临床索引数据与您在 GDC 数据门户中看到的相同。观察:GDC API 提供以天为单位的 age_at_diagnosis。
# Same case as figure above
clinical %>%
dplyr::filter(submitter_id == "TCGA-AA-3562") %>%
t %>%
as.data.frame
您还可以访问从 XML 文件创建的 TSV 文件的 Biotab 文件(仅适用于 tcgabiollinks 2.13.5 以上版本)。
query <- GDCquery(project = "TCGA-ACC",
data.category = "Clinical",
data.type = "Clinical Supplement",
data.format = "BCR Biotab")
GDCdownload(query)
clinical.BCRtab.all <- GDCprepare(query)
names(clinical.BCRtab.all)
# [1] "clinical_omf_v4.0_acc" "clinical_follow_up_v4.0_nte_acc"
## [3] "clinical_radiation_acc" "clinical_patient_acc"
## [5] "clinical_nte_acc" "clinical_follow_up_v4.0_acc"
## [7] "clinical_drug_acc"
clinical.BCRtab.all$clinical_drug_acc %>%
head %>%
as.data.frame
4.2 RNA 测序数据
RNA-Seq 流水线产生原始计数,FPKM 和 FPKM- uq 定量,并进行了描述 3. 来自 GDC 官网 mRNA 分析流程2
https://docs.gdc.cancer.gov/Data/Bioinformatics_Pipelines/Expression_mRNA_Pipeline/.
以下选项用于使用 tcgabiollinks 搜索 mRNA 结果:
- data.category: “Transcriptome Profiling”
- data.type: “Gene Expression Quantification”
- workflow.type: “HTSeq - Counts”, “HTSeq - FPKM”, “HTSeq - FPKM-UQ”
Here is the example to download the raw counts, which can be used with DESeq2 (http://bioconductor.org/packages/DESeq2/) for differential expression analysis.
query.exp.hg38 <- GDCquery(project = "TCGA-GBM",
data.category = "Transcriptome Profiling",
data.type = "Gene Expression Quantification",
workflow.type = "HTSeq - Counts",
barcode = c("TCGA-14-0736-02A-01R-2005-01", "TCGA-06-0211-02A-02R-2005-01"))
GDCdownload(query.exp.hg38)
raw.counts <- GDCprepare(query = query.exp.hg38, summarizedExperiment = FALSE)
head(raw.count)
下面是下载 FPKM-UQ 计数的示例。
query.exp.hg38 <- GDCquery(project = "TCGA-GBM",
data.category = "Transcriptome Profiling",
data.type = "Gene Expression Quantification",
workflow.type = "HTSeq - FPKM-UQ",
barcode = c("TCGA-14-0736-02A-01R-2005-01", "TCGA-06-0211-02A-02R-2005-01"))
GDCdownload(query.exp.hg38)
fpkm.uq.counts <- GDCprepare(query = query.exp.hg38, summarizedExperiment = FALSE)
head(fpkm.uq.counts)
4.3 突变分析
tcgabiollinks 提供了一些从 GDC 下载突变数据的功能。下载数据有两种方式:
-
使用 GDCquery_Maf 将下载与 hg38 对齐的 MAF。
-
您可以使用 tcgabiollinks 的 GDCquery_Maf 函数下载数据。
# GDCquery_Maf download the data from GDC
maf <- GDCquery_Maf("COAD", pipelines = "muse")
maf %>% head %>% as.data.frame
# using maftools for data summary
maftools.input <- maf %>% read.maf
# Check summary
plotmafSummary(maf = maftools.input,
rmOutlier = TRUE,
addStat = 'median',
dashboard = TRUE)
oncoplot(maf = maftools.input,
top = 10,
removeNonMutated = TRUE)
# classifies Single Nucleotide Variants into Transitions and Transversions
titv = titv(maf = maftools.input,
plot = FALSE,
useSyn = TRUE)
plotTiTv(res = titv)
getSampleSummary(maftools.input)
4.4 拷贝数变异数据
拷贝数变异分析管道在 https://docs.gdc.cancer.gov/Data/Bioinformatics_Pipelines/CNV_Pipeline/上描述了数字焦点级拷贝数变异(CNV)值,该值是在项目级别上使用 GISTIC2 从肿瘤同质组中使用“屏蔽拷贝数片段”文件生成的。仅保留蛋白质编码基因,其数字 CNV 值通过 0.3 的噪声截断进一步阈值化:
- Genes with focal CNV values smaller than -0.3 are categorized as a “loss” (-1)
- Genes with focal CNV values larger than 0.3 are categorized as a “gain” (+1)
- Genes with focal CNV values between and including -0.3 and 0.3 are categorized as “neutral” (0).
query <- GDCquery(project = "TCGA-GBM",
data.category = "Copy Number Variation",
data.type = "Gene Level Copy Number Scores",
access = "open")
GDCdownload(query)
scores <- GDCprepare(query)
scores[1:5,1:5]
scores.matrix <- scores %>%
dplyr::select(-c(1:3)) %>% # Removes metadata from the first 3 columns
as.matrix
rownames(scores.matrix) <- paste0(scores$`Gene Symbol`,"_",scores$Cytoband)
# gain in more than 100 samples
gain.more.than.hundred.samples <- which(rowSums(scores.matrix == 1) > 100)
# loss in more than 100 samples
loss.more.than.hundred.samples <- which(rowSums(scores.matrix == -1) > 100)
lines.selected <- c(gain.more.than.hundred.samples,loss.more.than.hundred.samples)
Heatmap(scores.matrix[lines.selected,],
show_column_names = FALSE,
show_row_names = TRUE,
row_names_gp = gpar(fontsize = 8),
col = circlize::colorRamp2(c(-1,0,1), colors = c("red","white","blue")))
4.5 DNA 甲基化数据
处理后的 DNA 甲基化数据测量已知 CpG 位点的甲基化水平为 β 值,从阵列强度(2 级数据)计算为 β = M/(M+U)。
(Zhou, Laird, and Shen 2017),范围从 0 到 1 完全甲基化。https://docs.gdc.cancer.gov/Data/Bioinformatics_Pipelines/Methylation_LO_Pipeline/.
我们将下载两个胶质母细胞瘤(GBM)作为总结实验对象。
query_met.hg38 <- GDCquery(project = "TCGA-GBM",
data.category = "DNA Methylation",
platform = "Illumina Human Methylation 27",
barcode = c("TCGA-02-0116-01A","TCGA-14-3477-01A-01D"))
GDCdownload(query_met.hg38)
data.hg38 <- GDCprepare(query_met.hg38,summarizedExperiment = TRUE)
data.hg38
## class: RangedSummarizedExperiment
## dim: 27578 2
## metadata(1): data_release
## assays(1): ''
## rownames(27578): cg00000292 cg00002426 ... cg27662877 cg27665659
## rowData names(7): Composite.Element.REF Gene_Symbol ...
## CGI_Coordinate Feature_Type
## colnames(2): TCGA-02-0116-01A-01D-0199-05
## TCGA-14-3477-01A-01D-0915-05
## colData names(113): sample patient ...
## subtype_Telomere.length.estimate.in.blood.normal..Kb.
## subtype_Telomere.length.estimate.in.tumor..Kb.
使用 rowrange 访问探针信息
data.hg38 %>% rowRanges %>% as.data.frame
使用 colData 访问示例元数据。
data.hg38 %>% colData %>% as.data.frame
通过 assay 获得 DNA 甲基化水平。
data.hg38 %>% assay %>% head %>% as.data.frame
# plot 10 most variable probes
data.hg38 %>%
assay %>%
rowVars %>%
order(decreasing = TRUE) %>%
head(10) -> idx
pal_methylation <- colorRampPalette(c("#000436",
"#021EA9",
"#1632FB",
"#6E34FC",
"#C732D5",
"#FD619D",
"#FF9965",
"#FFD32B",
"#FFFC5A"))(100)
Heatmap(assay(data.hg38)[idx,],
show_column_names = TRUE,
show_row_names = TRUE,
name = "Methylation Beta-value",
row_names_gp = gpar(fontsize = 8),
column_names_gp = gpar(fontsize = 8),
col = circlize::colorRamp2(seq(0, 1, by = 1/99), pal_methylation))
4.6 ATAC 数据
TCGA 样本命名规则详解 | 快速获取样本类型、组织来源等分组信息
概述
TCGA Barcode,是 TCGA 项目中生物样本数据的主要标识符。从历史上看,BCR 从 TSS(Tissue Source Site)接收参与者的样本以及相关的元数据。随后,BCR 分配了可读的人类 ID,称为 TCGA Barcode(也就是 TCGA 条码),用来代表参与者和其样本的元数据。TCGA 条码被用来将跨越 TCGA 网络的数据联系在一起,因为这些 ID 能够唯一地标识由特定数据生成中心(即 GCC、GSC 或 GDAC)产生的特定样本的一系列结果。条码的各个组成部分为样本提供了元数据值。
目前,BCR 为样本分配了 TCGA 条码和 UUID。UUID 是主要标识符。关于 ID 转换的更多信息,请参考 UUIDs。
TCGA Barcode 的创建
所有的 TCGA 条码都由 BCR 创建。下面这张图说明了样本是如何经过处理,并在每个步骤中被分配了一个 TCGA 条码。
从 TSS 和参与者(将组织样本捐赠给 TSS 的人)开始,分别被分配了条码 TCGA-02 和 TCGA-02-0001。样本本身也被分配了一个条码:TCGA-02-0001-01。样本被分割成小瓶(例如 TCGA-02-0001-01B),这些小瓶又被分成部分(例如 TCGA-02-0001-01B-02)。从每个部分中提取出分析物(例如 TCGA-02-0001-01B-02D),并分布在一个或多个板上(例如 TCGA-02-0001-01B-02D-0182),其中每个孔被标识为一份样本(例如 TCGA-02-0001-01B-02D-0182-06)。这些板被送到 GCC 或 GSC 进行特性鉴定和测序。
认识 TCGA Barcode
一个 TCGA 条码由一系列标识符组成,每个标识符都明确定义了一个 TCGA 数据元素。
我们可以参考下图,帮助我们了解元数据标识符如何构成一个条码。其中,示例中显示的 TCGA 样本分段条码包含了最多数量的标识符,也就是它的全称,实际上我们使用的时候,经常只会用到前 12 位或前 16 位(“-”也算一位)。
样本 TCGA-02-0001-01C-01D-0182-01
上图中我们可以看到,这串代码似乎包括项目名称(Project),研究机构(TSS),参与者(Participant),样本组织类型(Sample),样本顺序编号(Vial),样本顺序子编号(Portion),分析物类型(Analyte),样本在 96 孔板中的顺序编号(Plate),检测的数据分析机构(Center)。
-
TCGA: 这是 TCGA 项目的标识,表示数据来自于 TCGA 项目。所有 TCGA 样本名均以这个开头。
-
02: 这是一个项目的编号或标识,指示特定的研究项目或类型。02 表示来自 MD Anderson 的 GBM(脑肿瘤)样本。更多代码意义详见:gdc.cancer.gov/resources...
-
0001: 这代表了参与者的标识,即研究中的某个个体。0001 表示来自 MD Anderson 的第一个参与者。
-
01: 表示样本类型,其中 01 表示这是一个固体肿瘤样本。这两个数字可以说是最重要的! 在代码表中,样本类型从 01 到 09 表示不同类型的肿瘤样本,从 10 到 19 表示不同类型的正常样本,从 20 到 29 表示对照样本。这个位置最常见的就是 01(实体瘤)和 11(实体瘤旁),当然也是我们最常用的! 更多代码意义详见:gdc.cancer.gov/resources...
Code Definition Short Letter Code 01 Primary Solid Tumor TP 02 Recurrent Solid Tumor TR 03 Primary Blood Derived Cancer - Peripheral Blood TB 04 Recurrent Blood Derived Cancer - Bone Marrow TRBM 05 Additional - New Primary TAP 06 Metastatic TM 07 Additional Metastatic TAM 08 Human Tumor Original Cells THOC 09 Primary Blood Derived Cancer - Bone Marrow TBM 10 Blood Derived Normal NB 11 Solid Tissue Normal NT 12 Buccal Cell Normal NBC 13 EBV Immortalized Normal NEBV 14 Bone Marrow Normal NBM 15 sample type 15 15SH 16 sample type 16 16SH 20 Control Analyte CELLC 40 Recurrent Blood Derived Cancer - Peripheral Blood TRB 50 Cell Lines CELL 60 Primary Xenograft Tissue XP 61 Cell Line Derived Xenograft Tissue XCL 99 sample type 99 99SH -
C: 这是小瓶的标识,指示样本序列中的样本顺序。C 表示第三个小瓶。A 到 Z,在一系列患者组织中的顺序,绝大多数样本该位置编码都是 A(表示冰冻组织),很少数的是 B(表示福尔马林固定石蜡包埋组织),B 已被证明用于测序分析的效果不佳,所以更建议使用 01A 的样本数据。
-
01: 表示部分的标识,指示样本部分的顺序。01 表示样本中的第一个部分。同属于一个患者组织的不同部分的顺序编号,同一组织会分割为 100-120mg 的部分,分别使用。
-
D: 表示分析物的分子类型。D 表示分析物为 DNA 样本。更多代码意义详见:gdc.cancer.gov/resources...
Code Definition D DNA G Whole Genome Amplification (WGA) produced using GenomePlex (Rubicon) DNA H mirVana RNA (Allprep DNA) produced by hybrid protocol R RNA T Total RNA W Whole Genome Amplification (WGA) produced using Repli-G (Qiagen) DNA X Whole Genome Amplification (WGA) produced using Repli-G X (Qiagen) DNA (2nd Reaction) -
0182: 这是板的标识,指示 96 孔板序列中的顺序。0182 表示第 182 块板。值大表示制板越晚。
-
01: 测序或鉴定中心编码。01 表示 The Broad Institute GCC。更多代码意义详见:gdc.cancer.gov/resources...
TCGA-BR-6457-01A-21R-1802-13
↩
-
3. 来自 GDC 官网 mRNA 分析流程
介绍
GDC mRNA 定量分析流程可测量基因水平表达 STAR 作为原始读取计数。随后,计数通过多种转换进行增强,包括每百万映射读取的每千碱基转录本片段数 (FPKM)、上四分位归一化 FPKM (FPKM-UQ) 和每百万转录本数 (TPM)。这些值还用基因符号和基因生物类型进行注释。这些数据是通过此管道生成的,首先将读取对齐到 GRCh38 参考基因组,然后量化映射的读数。为了促进样本之间的协调,所有 RNA-Seq 读数在分析过程中都被视为非链。
数据处理步骤
RNA-Seq 比对工作流程
mRNA 分析管道从比对工作流程开始,该工作流程使用两遍方法执行 STAR。 STAR 分别比对每个读取组(read group),然后将所得比对合并为一个。遵循国际癌症基因组联盟使用的方法 ICGC(github),两遍方法包括剪接点检测步骤,用于生成最终的比对。此工作流程输出基因组 BAM 文件,其中包含对齐和未对齐的读取。质量评估是在与 FASTQC 和后对齐 Picard Tools。
除了上面详述的基因组比对之外,数据发布 14 之后处理的文件还具有关联的转录组和嵌合比对。这仅适用于至少具有一组双端读数的等分试样。嵌合 BAM 文件包含映射到不同染色体或链(融合比对)的读数。基因组比对文件包含嵌合和未比对读数,以方便检索所有原始读数。转录组比对报告比对的读数与转录本坐标而不是基因组坐标。转录组比对也进行了不同的排序,以方便下游分析。此排序方法不支持 BAM 索引文件配对,因此不允许对这些比对进行 BAM 切片。这些比对的拼接连接文件也可用。
在数据发布 25 之后处理的文件将具有关联的 gene fusion files.
从数据版本 32 开始,参考注释将更新为 GENCODE v36,并且将不再使用 HT-Seq。
I/O Entity Format Input Submitted Unaligned Reads or Submitted Aligned Reads FASTQ or BAM Output Aligned Reads BAM RNA-Seq 比对命令行参数
请注意,由于持续的流程开发和改进,从 GDC 数据门户下载的文件的版本号可能会有所不同。
# STAR Genome Index STAR --runMode genomeGenerate --genomeDir <star_index_path> --genomeFastaFiles <reference> --sjdbOverhang 100 --sjdbGTFfile <gencode.v36.annotation.gtf> --runThreadN 8 # STAR Alignment # STAR v2 STAR --readFilesIn <fastq_files> \ --outSAMattrRGline <read_group_strings> \ --genomeDir <genome_dir> \ --readFilesCommand <cat, zcat, etc> \ --runThreadN <threads> \ --twopassMode Basic \ --outFilterMultimapNmax 20 \ --alignSJoverhangMin 8 \ --alignSJDBoverhangMin 1 \ --outFilterMismatchNmax 999 \ --outFilterMismatchNoverLmax 0.1 \ --alignIntronMin 20 \ --alignIntronMax 1000000 \ --alignMatesGapMax 1000000 \ --outFilterType BySJout \ --outFilterScoreMinOverLread 0.33 \ --outFilterMatchNminOverLread 0.33 \ --limitSjdbInsertNsj 1200000 \ --outFileNamePrefix <output prefix> \ --outSAMstrandField intronMotif \ --outFilterIntronMotifs None \ --alignSoftClipAtReferenceEnds Yes \ --quantMode TranscriptomeSAM GeneCounts \ --outSAMtype BAM Unsorted \ --outSAMunmapped Within \ --genomeLoad NoSharedMemory \ --chimSegmentMin 15 \ --chimJunctionOverhangMin 15 \ --chimOutType Junctions SeparateSAMold WithinBAM SoftClip \ --chimOutJunctionFormat 1 \ --chimMainSegmentMultNmax 1 \ --outSAMattributes NH HI AS nM NM ch
mRNA 表达工作流程
主要计数数据由 STAR 生成,包括基因 ID、非链和链计数数据。比对后,STAR 生成的原始计数文件将通过常用计数转换(FPKM、FPKM-UQ 和 TPM)以及作为 RNA 表达工作流程一部分的基本注释进行增强。这些数据以制表符分隔的格式提供。 GENCODE v36 用于基因注释。
请注意,STAR 计数结果不会计算映射到多个不同基因的读数。下面是两个文件,列出了完全被其他基因包围的基因,并且可能会显示零值。
I/O Entity Format Input Aligned Reads BAM Output Gene Expression TXT mRNA 定量命令行参数
HTSeq
#Current Counts are produced by STAR concurrent with alignment. #Original htseq-count \ -m intersection-nonempty \ -i gene_id \ -r pos \ -s no \ - gencode.v22.annotation.gtf #Dr15-31 htseq-count \ -f bam \ -r name \ -s no \ -a 10 \ -t exon \ -i gene_id \ -m intersection-nonempty \ <input_bam> \ <gtf_file> > <counts_file>
mRNA 表达转化
使用三种常用方法对工作流程产生的 RNA-Seq 表达水平读数计数进行标准化:FPKM、FPKM-UQ 和 TPM。归一化值只能在整个基因集的背景下使用。如果研究了基因子集,则鼓励用户标准化原始读取计数值。
FPKM
每百万映射读数中每千碱基转录本的片段 (FPKM) 计算旨在控制转录本长度和整体测序数量。
上四分位 FPKM
上四分位数 FPKM (FPKM-UQ) 是一种改进的 FPKM 计算,其中第 75 个百分位数位置的蛋白质编码基因替换为测序量。这被认为比包含极端噪声的基因提供更稳定的值。
TPM
每百万份转录本的计算与 FPKM 类似,但不同之处在于所有转录本首先针对长度进行归一化。然后,不使用总读取计数作为大小的标准化,而是使用长度标准化转录本值的总和作为大小的指标。
计算
注意: 在标准化期间,读取计数乘以标量 (10 ^9^ ),以考虑千碱基和“百万映射读取”单位。
例子
样本 1:基因 A
- 基因长度:3,000 bp
- 1,000 个读取映射到基因 A
- 1,000,000 个读数映射到所有蛋白质编码区域
- 样本 1 中第 75 个百分位基因的读取计数:2,000
- 常染色体上蛋白质编码基因的数量:19,029
- 长度归一化转录本计数总和:9,000,000
基因 A 的 FPKM = 1,000 * 10^9 / (3,000 * 50,000,000) = 6.67
基因 A 的 FPKM-UQ = 1,000) * 10^9 / (3,000 * 2,000 * 19,029) = 8.76
基因 A 的 TPM = (1,000 * 1,000 / 3,000) * 1,000,000 / (9,000,000) = 37.04
聚变管道
GDC 使用两条管道来检测基因融合。
STAR-Fusion 管道
GDC 基因融合管道使用 STAR-Fusion v1.6 算法生成基因融合数据。 STAR-Fusion 管道处理 STAR 对齐器生成的输出,以将连接读取和跨越读取映射到连接注释集。它利用运行 STAR 对准器产生的嵌合连接文件并生成选项卡限制的基因融合预测文件。预测文件提供融合基因名称、连接读取计数和断点信息。
Arriba 融合管道
这 Arriba 基因融合管道使用 Arriba v1.1.0 从肿瘤样本的 RNA-Seq 数据中检测基因融合。
scRNA-Seq 管道(单核)
GDC 使用以下方法处理单细胞 RNA-Seq (scRNA-Seq) 数据 Cell Ranger 管道计算基因表达,然后 Seurat 用于二级表达分析。
scRNA 基因表达管道
使用 Cell Ranger 的基因表达管道生成三个文件:
- Aligned reads file (BAM)
- Raw counts matrix - contains all barcodes in Market Exchange Format (MEX)
- Filtered counts matrix - contains only detected cellular barcodes (MEX)
scRNA 分析流程
使用 Seurat 软件的分析管道根据过滤计数矩阵的输入生成三个文件:
- 分析 - PCA、UMAP、tSNE 值以及基于图形的聚类结果以及相关元数据 (TSV)。
- 差异基因表达 - 将一个簇中的细胞与其余细胞 (TSV) 进行比较的 DEG 信息。
- 完整的 Seurat 分析日志作为 loom 对象 HDF5 格式。
当从细胞核而不是细胞质中提取输入 RNA 时,会实施稍微修改的定量方法以包括内含子。目前,这些单核 RNA-Seq (snRNA-Seq) 分析在数据门户中共享相同的实验策略 (scRNA-Seq),并且可以通过查询 aliquot.analyte_type = "Nuclei RNA" 进行过滤。
文件访问和可用性 ↩
欢迎来到这里!
我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。
注册 关于