Workshop-TCGA data analysis

rpubs.com/tiagochst/TCGA...

1 工作描述

1.1 目标

本次研讨会将:

  1. 在 NCI 的基因组数据共享(GDC)中可用的 TCGA(癌症基因组图谱)数据。
  2. 演示使用 R/Bioconductor 包 tcgabiollinks 访问和导入 TCGA 数据。
  3. 提供使用 R/Bioconductor 软件包 maftools 可视化拷贝数改变和突变数据的指导。

1.2 可用的链接

1.3 参考文献

  • TCGAbiolinks:

    • Colaprico, Antonio, et al. “TCGAbiolinks: an R/Bioconductor package for integrative analysis of TCGA data.” Nucleic acids research 44.8 (2015): e71-e71. Silva, Tiago C., et al. “TCGA Workflow: Analyze cancer genomics and epigenomics data using Bioconductor packages.” F1000Research 5 (2016). (https://f1000research.com/articles/5-1542/v2)
    • Mounir, Mohamed, et al. “New functionalities in the TCGAbiolinks package for the study and integration of cancer data from GDC and GTEx.” PLoS computational biology 15.3 (2019): e1006701. (https://doi.org/10.1371/journal.pcbi.1006701)
    • Silva TC, Colaprico A, Olsen C et al.TCGA Workflow: Analyze cancer genomics and epigenomics data using Bioconductor packages [version 2; peer review: 1 approved, 2 approved with reservations]. F1000Research 2016, 5:1542 (https://doi.org/10.12688/f1000research.8923.2).
  • The NCI’s Genomic Data Commons (GDC):

  • Maftools:

    • Mayakonda A, Lin D, Assenov Y, Plass C, Koeffler PH (2018). “Maftools: efficient and comprehensive analysis of somatic variants in cancer.” Genome Research. doi: 10.1101/gr.239244.118.
  • Complexheatmap:

    • Gu Z, Eils R, Schlesner M (2016). “Complex heatmaps reveal patterns and correlations in multidimensional genomic data.” Bioinformatics.

1.4 使用 R/Bioconductor 包

1.5 前提条件

2 引言

2.1 了解 GDC(基因组学数据公共数据库)

在本次研讨会中,我们将访问 NCI 基因组数据共享(GDC)中可用的(癌症基因组图谱)数据(portal.gdc.cancer.gov/)。在我们开始之前,重要的是要知道数据存储在两个不同的数据库中:

1715225866578

3.2 理解 TCGA 数据

3.2.1 数据访问

GDC 提供了两种访问级别的数据:

1715226239798

  • Open: 包括不能单独识别的高层次基因组数据,以及大多数临床和所有生物标本数据元素。
  • Controlled: 包括个体可识别的数据,如低水平基因组测序数据、种系变异、SNP6 基因型数据和某些临床数据元素
  • 详细教程链接:gdc.cancer.gov/access-da...

3.2.2 TCGA 条码描述

每个 TCGA 样品都有一个唯一的标识符,称为 TCGA 条形码,它包含了每个样品的重要信息。条形码的描述如下所示。(详细内容: https://docs.gdc.cancer.gov/Encyclopedia/pages/TCGA_Barcode/) TCGA 样本命名规则详解 | 快速获取样本类型、组织来源等分组信息1

image

Label 描述 值的描述 可能的值
Analyte 用于分析的分析物的分子类型 D DNA 样本 TCGA 样本命名规则详解
Plate 96 孔板序列中板的顺序 182 第 182 孔 4 位的字母数字值
Portion 按 100 - 120 毫克样品分量顺序排列 1 样品的第一部分 01-99
Vial 样本序列中样本的数量 C 第三瓶 A 到 Z
Project 项目名称 TCGA TCGA 项目 TCGA
Sample 样品类型 1 实体瘤 肿瘤类型从 01 - 09,正常类型从 10 - 19,对照样本从 20 - 29。有关示例代码的完整列表,请参阅 TCGA 样本命名规则详解
Center 测序或鉴定中心,该中心将接收样品进行分析 1 The Broad Institute GCC
Participant 研究参与者:指参加科学研究的人员,他们可能接受调查、接受治疗或接受其他形式的干预 1 MD 安德森 GBM 研究的第一位参与者 任何字母数字的值
TSS 组织源部位 2 脑肿瘤

image

样品类型编号

image

3.2.3 数据结构

为了筛选 GDC 中可用的数据,可以使用项目(TCGA, TARGET 等),数据类别(转录组分析 DNA 甲基化 临床等),数据类型(基因表达量化[Gene Expression Quantification],==Isoform 表达量化==[Isoform Expression Quantification],**甲基化 β 值**[Methylation Beta Value],实验策略(miRNA-Seq, RNA-Seq 等),工作流类型,平台,访问类型等。

imageimage

就数据粒度而言,一个项目有几个类别的数据,每个类别包含几个数据类型,这些数据类型可能是由不同的工作流、实验策略和平台产生的。这样,如果您选择数据类型“基因表达量化[Gene Expression Quantification]”,数据类别将是转录组分析。

image

3.3 SummarizedExperiment 数据结构

在我们开始之前,重要的是要知道 R/Bioconductor 环境提供了一个名为 SummarizedExperiment 的数据结构,该数据结构用于处理同一对象中的样本元数据(年龄,性别等),基因组学数据(即 DNA 甲基化 β 值)和基因组学元数据信息(chr,开始,结束,基因符号)。您可以使用 colData 函数访问样本元数据,使用 assays 访问基因组数据,使用 rowRanges 访问基因组元数据。

1715228580085

3.4 加载需要的 R 包

library(TCGAbiolinks)
library(MultiAssayExperiment)
library(maftools)
library(dplyr)
library(ComplexHeatmap)

如果这些软件包不可用,您可以使用 BiocManager 安装这些软件包。

if (!requireNamespace("BiocManager", quietly = TRUE))
    install.packages("BiocManager")

if (!requireNamespace("ComplexHeatmap", quietly = TRUE))
  BiocManager::install("ComplexHeatmap") # from bioconductor

if (!requireNamespace("TCGAbiolinks", quietly = TRUE))
  BiocManager::install("BioinformaticsFMRP/TCGAbiolinks") # from github

4 处理 TCGA 数据

在本次研讨会期间,我们将使用来自统一 GDC 数据库(hg38 版本)的开放获取数据,该数据库可在 https://portal.gdc.cancer.gov/上访问。

通过接下来的部分,我们将:

4.1 临床数据

在 GDC 数据库中,临床数据可以从不同的来源检索:

  • 索引临床:使用 XML 文件创建的精细临床数据。
  • XML 文件:数据的原始来源
  • BCR Biotab:从 XML 文件解析的 tsv 文件

索引临床文件和 XML 文件之间有两个主要区别:

  • XML 有更多的信息:辐射、药物信息、随访、生物标本等。因此,索引文件只是 XML 文件的一个子集
  • 索引的数据包含带有后续信息的更新数据。例如:如果患者在收集临床数据时还活着,然后在下一次随访中他已经死亡,则索引数据将显示死亡。XML 将有两个字段,第一个字段表示他还活着(在临床部分),第二个字段表示他已经死亡。

其他有用的临床资料包括:

  • 组织切片图像
  • 病理报告-幻灯片图像

您可以在 tcgabiollinks 的插图中查看示例 https://bioconductor.org/packages/release/bioc/vignettes/TCGAbiolinks/inst/doc/clinical.html.

image

# Access indexed clinical data
clinical <- GDCquery_clinic("TCGA-COAD")
head(clinical)

1715238715284

临床索引数据与您在 GDC 数据门户中看到的相同。观察:GDC API 提供以天为单位的 age_at_diagnosis。

# Same case as figure above
clinical %>% 
  dplyr::filter(submitter_id == "TCGA-AA-3562") %>% 
  t %>% 
  as.data.frame

1715238786906

您还可以访问从 XML 文件创建的 TSV 文件的 Biotab 文件(仅适用于 tcgabiollinks 2.13.5 以上版本)。

query <- GDCquery(project = "TCGA-ACC", 
                  data.category = "Clinical",
                  data.type = "Clinical Supplement", 
                  data.format = "BCR Biotab")
GDCdownload(query)
clinical.BCRtab.all <- GDCprepare(query)
names(clinical.BCRtab.all)
# [1] "clinical_omf_v4.0_acc"           "clinical_follow_up_v4.0_nte_acc"
## [3] "clinical_radiation_acc"          "clinical_patient_acc"         
## [5] "clinical_nte_acc"                "clinical_follow_up_v4.0_acc"  
## [7] "clinical_drug_acc"
clinical.BCRtab.all$clinical_drug_acc  %>% 
  head  %>% 
  as.data.frame

1715238878619

4.2 RNA 测序数据

RNA-Seq 流水线产生原始计数,FPKM 和 FPKM- uq 定量,并进行了描述 3. 来自 GDC 官网 mRNA 分析流程2

https://docs.gdc.cancer.gov/Data/Bioinformatics_Pipelines/Expression_mRNA_Pipeline/.

image

image

以下选项用于使用 tcgabiollinks 搜索 mRNA 结果:

  • data.category: “Transcriptome Profiling”
  • data.type: “Gene Expression Quantification”
  • workflow.type: “HTSeq - Counts”, “HTSeq - FPKM”, “HTSeq - FPKM-UQ”

Here is the example to download the raw counts, which can be used with DESeq2 (http://bioconductor.org/packages/DESeq2/) for differential expression analysis.

query.exp.hg38 <- GDCquery(project = "TCGA-GBM", 
                  data.category = "Transcriptome Profiling", 
                  data.type = "Gene Expression Quantification", 
                  workflow.type = "HTSeq - Counts",
                  barcode =  c("TCGA-14-0736-02A-01R-2005-01", "TCGA-06-0211-02A-02R-2005-01"))
GDCdownload(query.exp.hg38)
raw.counts <- GDCprepare(query = query.exp.hg38, summarizedExperiment = FALSE)
head(raw.count)

1715249830573

下面是下载 FPKM-UQ 计数的示例。

query.exp.hg38 <- GDCquery(project = "TCGA-GBM", 
                  data.category = "Transcriptome Profiling", 
                  data.type = "Gene Expression Quantification", 
                  workflow.type = "HTSeq - FPKM-UQ",
                  barcode =  c("TCGA-14-0736-02A-01R-2005-01", "TCGA-06-0211-02A-02R-2005-01"))
GDCdownload(query.exp.hg38)
fpkm.uq.counts <- GDCprepare(query = query.exp.hg38, summarizedExperiment = FALSE)
head(fpkm.uq.counts)

1715250115115

4.3 突变分析

tcgabiollinks 提供了一些从 GDC 下载突变数据的功能。下载数据有两种方式:

  1. 使用 GDCquery_Maf 将下载与 hg38 对齐的 MAF。

  2. 您可以使用 tcgabiollinks 的 GDCquery_Maf 函数下载数据。

# GDCquery_Maf download the data from GDC
maf <- GDCquery_Maf("COAD", pipelines = "muse")
maf %>% head %>% as.data.frame

image

# using maftools for data summary 
maftools.input <- maf %>% read.maf

# Check summary
plotmafSummary(maf = maftools.input, 
               rmOutlier = TRUE, 
               addStat = 'median', 
               dashboard = TRUE)

image

oncoplot(maf = maftools.input, 
         top = 10, 
         removeNonMutated = TRUE)

image

# classifies Single Nucleotide Variants into Transitions and Transversions
titv = titv(maf = maftools.input, 
            plot = FALSE, 
            useSyn = TRUE)
plotTiTv(res = titv)

image

getSampleSummary(maftools.input)

1715250610875

4.4 拷贝数变异数据

拷贝数变异分析管道在 https://docs.gdc.cancer.gov/Data/Bioinformatics_Pipelines/CNV_Pipeline/上描述了数字焦点级拷贝数变异(CNV)值,该值是在项目级别上使用 GISTIC2 从肿瘤同质组中使用“屏蔽拷贝数片段”文件生成的。仅保留蛋白质编码基因,其数字 CNV 值通过 0.3 的噪声截断进一步阈值化:

  • Genes with focal CNV values smaller than -0.3 are categorized as a “loss” (-1)
  • Genes with focal CNV values larger than 0.3 are categorized as a “gain” (+1)
  • Genes with focal CNV values between and including -0.3 and 0.3 are categorized as “neutral” (0).
query <- GDCquery(project = "TCGA-GBM",
             data.category = "Copy Number Variation",
             data.type = "Gene Level Copy Number Scores",            
             access = "open")
GDCdownload(query)
scores <- GDCprepare(query)
scores[1:5,1:5]

1715250783292

scores.matrix <- scores %>% 
  dplyr::select(-c(1:3)) %>%  # Removes metadata from the first 3 columns
  as.matrix

rownames(scores.matrix) <- paste0(scores$`Gene Symbol`,"_",scores$Cytoband)

# gain in more than 100 samples
gain.more.than.hundred.samples <- which(rowSums(scores.matrix == 1) > 100)

# loss in more than 100 samples
loss.more.than.hundred.samples <- which(rowSums(scores.matrix == -1) > 100)

lines.selected <- c(gain.more.than.hundred.samples,loss.more.than.hundred.samples)

Heatmap(scores.matrix[lines.selected,],
        show_column_names = FALSE, 
        show_row_names = TRUE,
         row_names_gp = gpar(fontsize = 8),
        col = circlize::colorRamp2(c(-1,0,1), colors = c("red","white","blue")))

image

4.5 DNA 甲基化数据

处理后的 DNA 甲基化数据测量已知 CpG 位点的甲基化水平为 β 值,从阵列强度(2 级数据)计算为 β = M/(M+U)。

(Zhou, Laird, and Shen 2017),范围从 0 到 1 完全甲基化。https://docs.gdc.cancer.gov/Data/Bioinformatics_Pipelines/Methylation_LO_Pipeline/.

我们将下载两个胶质母细胞瘤(GBM)作为总结实验对象。

query_met.hg38 <- GDCquery(project = "TCGA-GBM", 
                           data.category = "DNA Methylation", 
                           platform = "Illumina Human Methylation 27", 
                           barcode = c("TCGA-02-0116-01A","TCGA-14-3477-01A-01D"))
GDCdownload(query_met.hg38)
data.hg38 <- GDCprepare(query_met.hg38,summarizedExperiment = TRUE)
data.hg38
## class: RangedSummarizedExperiment 
## dim: 27578 2 
## metadata(1): data_release
## assays(1): ''
## rownames(27578): cg00000292 cg00002426 ... cg27662877 cg27665659
## rowData names(7): Composite.Element.REF Gene_Symbol ...
##   CGI_Coordinate Feature_Type
## colnames(2): TCGA-02-0116-01A-01D-0199-05
##   TCGA-14-3477-01A-01D-0915-05
## colData names(113): sample patient ...
##   subtype_Telomere.length.estimate.in.blood.normal..Kb.
##   subtype_Telomere.length.estimate.in.tumor..Kb.

使用 rowrange 访问探针信息

data.hg38 %>% rowRanges %>% as.data.frame

1715250994002

使用 colData 访问示例元数据。

data.hg38 %>% colData %>% as.data.frame

1715251088905

通过 assay 获得 DNA 甲基化水平。

data.hg38 %>% assay %>% head %>% as.data.frame

1715251178317

# plot 10 most variable probes
data.hg38 %>% 
  assay %>% 
  rowVars %>% 
  order(decreasing = TRUE) %>% 
  head(10) -> idx

pal_methylation <- colorRampPalette(c("#000436",
                                      "#021EA9",
                                      "#1632FB",
                                      "#6E34FC",
                                      "#C732D5",
                                      "#FD619D",
                                      "#FF9965",
                                      "#FFD32B",
                                      "#FFFC5A"))(100)

Heatmap(assay(data.hg38)[idx,],
        show_column_names = TRUE, 
        show_row_names = TRUE,
         name = "Methylation Beta-value", 
         row_names_gp = gpar(fontsize = 8),
         column_names_gp = gpar(fontsize = 8),
        col = circlize::colorRamp2(seq(0, 1, by = 1/99), pal_methylation))

image

4.6 ATAC 数据

rpubs.com/tiagochst/atac...


  1. TCGA 样本命名规则详解 | 快速获取样本类型、组织来源等分组信息

    概述

    TCGA Barcode,是 TCGA 项目中生物样本数据的主要标识符。从历史上看,BCR 从 TSS(Tissue Source Site)接收参与者的样本以及相关的元数据。随后,BCR 分配了可读的人类 ID,称为 TCGA Barcode(也就是 TCGA 条码),用来代表参与者和其样本的元数据。TCGA 条码被用来将跨越 TCGA 网络的数据联系在一起,因为这些 ID 能够唯一地标识由特定数据生成中心(即 GCC、GSC 或 GDAC)产生的特定样本的一系列结果。条码的各个组成部分为样本提供了元数据值

    目前,BCR 为样本分配了 TCGA 条码和 UUID。UUID 是主要标识符。关于 ID 转换的更多信息,请参考 UUIDs。

    TCGA Barcode 的创建

    所有的 TCGA 条码都由 BCR 创建。下面这张图说明了样本是如何经过处理,并在每个步骤中被分配了一个 TCGA 条码。

    从 TSS 和参与者(将组织样本捐赠给 TSS 的人)开始,分别被分配了条码 TCGA-02 和 TCGA-02-0001。样本本身也被分配了一个条码:TCGA-02-0001-01。样本被分割成小瓶(例如 TCGA-02-0001-01B),这些小瓶又被分成部分(例如 TCGA-02-0001-01B-02)。从每个部分中提取出分析物(例如 TCGA-02-0001-01B-02D),并分布在一个或多个板上(例如 TCGA-02-0001-01B-02D-0182),其中每个孔被标识为一份样本(例如 TCGA-02-0001-01B-02D-0182-06)。这些板被送到 GCC 或 GSC 进行特性鉴定和测序。

    image

    认识 TCGA Barcode

    一个 TCGA 条码由一系列标识符组成,每个标识符都明确定义了一个 TCGA 数据元素。

    我们可以参考下图,帮助我们了解元数据标识符如何构成一个条码。其中,示例中显示的 TCGA 样本分段条码包含了最多数量的标识符,也就是它的全称,实际上我们使用的时候,经常只会用到前 12 位或前 16 位(“-”也算一位)。

    image

    样本 TCGA-02-0001-01C-01D-0182-01

    上图中我们可以看到,这串代码似乎包括项目名称(Project),研究机构(TSS),参与者(Participant),样本组织类型(Sample),样本顺序编号(Vial),样本顺序子编号(Portion),分析物类型(Analyte),样本在 96 孔板中的顺序编号(Plate),检测的数据分析机构(Center)。

    • TCGA: 这是 TCGA 项目的标识,表示数据来自于 TCGA 项目。所有 TCGA 样本名均以这个开头。

    • 02: 这是一个项目的编号或标识,指示特定的研究项目或类型。02 表示来自 MD Anderson 的 GBM(脑肿瘤)样本。更多代码意义详见:gdc.cancer.gov/resources...

    • 0001: 这代表了参与者的标识,即研究中的某个个体。0001 表示来自 MD Anderson 的第一个参与者。

    • 01: 表示样本类型,其中 01 表示这是一个固体肿瘤样本。这两个数字可以说是最重要的! 在代码表中,样本类型从 01 到 09 表示不同类型的肿瘤样本,从 10 到 19 表示不同类型的正常样本,从 20 到 29 表示对照样本。这个位置最常见的就是 01(实体瘤)和 11(实体瘤旁),当然也是我们最常用的! 更多代码意义详见:gdc.cancer.gov/resources...

      Code Definition Short Letter Code
      01 Primary Solid Tumor TP
      02 Recurrent Solid Tumor TR
      03 Primary Blood Derived Cancer - Peripheral Blood TB
      04 Recurrent Blood Derived Cancer - Bone Marrow TRBM
      05 Additional - New Primary TAP
      06 Metastatic TM
      07 Additional Metastatic TAM
      08 Human Tumor Original Cells THOC
      09 Primary Blood Derived Cancer - Bone Marrow TBM
      10 Blood Derived Normal NB
      11 Solid Tissue Normal NT
      12 Buccal Cell Normal NBC
      13 EBV Immortalized Normal NEBV
      14 Bone Marrow Normal NBM
      15 sample type 15 15SH
      16 sample type 16 16SH
      20 Control Analyte CELLC
      40 Recurrent Blood Derived Cancer - Peripheral Blood TRB
      50 Cell Lines CELL
      60 Primary Xenograft Tissue XP
      61 Cell Line Derived Xenograft Tissue XCL
      99 sample type 99 99SH
    • C: 这是小瓶的标识,指示样本序列中的样本顺序。C 表示第三个小瓶。A 到 Z,在一系列患者组织中的顺序,绝大多数样本该位置编码都是 A(表示冰冻组织),很少数的是 B(表示福尔马林固定石蜡包埋组织),B 已被证明用于测序分析的效果不佳,所以更建议使用 01A 的样本数据

    • 01: 表示部分的标识,指示样本部分的顺序。01 表示样本中的第一个部分。同属于一个患者组织的不同部分的顺序编号,同一组织会分割为 100-120mg 的部分,分别使用。

    • D: 表示分析物的分子类型。D 表示分析物为 DNA 样本。更多代码意义详见:gdc.cancer.gov/resources...

      Code Definition
      D DNA
      G Whole Genome Amplification (WGA) produced using GenomePlex (Rubicon) DNA
      H mirVana RNA (Allprep DNA) produced by hybrid protocol
      R RNA
      T Total RNA
      W Whole Genome Amplification (WGA) produced using Repli-G (Qiagen) DNA
      X Whole Genome Amplification (WGA) produced using Repli-G X (Qiagen) DNA (2nd Reaction)
    • 0182: 这是板的标识,指示 96 孔板序列中的顺序。0182 表示第 182 块板。值大表示制板越晚。

    • 01: 测序或鉴定中心编码。01 表示 The Broad Institute GCC。更多代码意义详见:gdc.cancer.gov/resources...

    TCGA-BR-6457-01A-21R-1802-13

  2. 3. 来自 GDC 官网 mRNA 分析流程

    docs.gdc.cancer.gov/Data...

    介绍

    GDC mRNA 定量分析流程可测量基因水平表达 STAR 作为原始读取计数。随后,计数通过多种转换进行增强,包括每百万映射读取的每千碱基转录本片段数 (FPKM)、上四分位归一化 FPKM (FPKM-UQ) 和每百万转录本数 (TPM)。这些值还用基因符号和基因生物类型进行注释。这些数据是通过此管道生成的,首先将读取对齐到 GRCh38 参考基因组,然后量化映射的读数。为了促进样本之间的协调,所有 RNA-Seq 读数在分析过程中都被视为非链。

    数据处理步骤

    RNA-Seq 比对工作流程

    mRNA 分析管道从比对工作流程开始,该工作流程使用两遍方法执行 STAR。 STAR 分别比对每个读取组(read group),然后将所得比对合并为一个。遵循国际癌症基因组联盟使用的方法 ICGCgithub),两遍方法包括剪接点检测步骤,用于生成最终的比对。此工作流程输出基因组 BAM 文件,其中包含对齐和未对齐的读取。质量评估是在与 FASTQC 和后对齐 Picard Tools

    除了上面详述的基因组比对之外,数据发布 14 之后处理的文件还具有关联的转录组和嵌合比对。这仅适用于至少具有一组双端读数的等分试样。嵌合 BAM 文件包含映射到不同染色体或链(融合比对)的读数。基因组比对文件包含嵌合和未比对读数,以方便检索所有原始读数。转录组比对报告比对的读数与转录本坐标而不是基因组坐标。转录组比对也进行了不同的排序,以方便下游分析。此排序方法不支持 BAM 索引文件配对,因此不允许对这些比对进行 BAM 切片。这些比对的拼接连接文件也可用。

    在数据发布 25 之后处理的文件将具有关联的 gene fusion files.

    从数据版本 32 开始,参考注释将更新为 GENCODE v36,并且将不再使用 HT-Seq。

    image

    I/O Entity Format
    Input Submitted Unaligned Reads or Submitted Aligned Reads FASTQ or BAM
    Output Aligned Reads BAM

    RNA-Seq 比对命令行参数

    请注意,由于持续的流程开发和改进,从 GDC 数据门户下载的文件的版本号可能会有所不同。

    # STAR Genome Index
    STAR
    --runMode genomeGenerate
    --genomeDir <star_index_path>
    --genomeFastaFiles <reference>
    --sjdbOverhang 100
    --sjdbGTFfile <gencode.v36.annotation.gtf>
    --runThreadN 8
    
    # STAR Alignment
    # STAR v2
    STAR
    --readFilesIn <fastq_files> \
    --outSAMattrRGline <read_group_strings> \
    --genomeDir <genome_dir> \
    --readFilesCommand <cat, zcat, etc> \
    --runThreadN <threads> \
    --twopassMode Basic \
    --outFilterMultimapNmax 20 \
    --alignSJoverhangMin 8 \
    --alignSJDBoverhangMin 1 \
    --outFilterMismatchNmax 999 \
    --outFilterMismatchNoverLmax 0.1 \
    --alignIntronMin 20 \
    --alignIntronMax 1000000 \
    --alignMatesGapMax 1000000 \
    --outFilterType BySJout \
    --outFilterScoreMinOverLread 0.33 \
    --outFilterMatchNminOverLread 0.33 \
    --limitSjdbInsertNsj 1200000 \
    --outFileNamePrefix <output prefix> \
    --outSAMstrandField intronMotif \
    --outFilterIntronMotifs None \
    --alignSoftClipAtReferenceEnds Yes \
    --quantMode TranscriptomeSAM GeneCounts \
    --outSAMtype BAM Unsorted \
    --outSAMunmapped Within \
    --genomeLoad NoSharedMemory \
    --chimSegmentMin 15 \
    --chimJunctionOverhangMin 15 \
    --chimOutType Junctions SeparateSAMold WithinBAM SoftClip \
    --chimOutJunctionFormat 1 \
    --chimMainSegmentMultNmax 1 \
    --outSAMattributes NH HI AS nM NM ch
    

    mRNA 表达工作流程

    主要计数数据由 STAR 生成,包括基因 ID、非链和链计数数据。比对后,STAR 生成的原始计数文件将通过常用计数转换(FPKM、FPKM-UQ 和 TPM)以及作为 RNA 表达工作流程一部分的基本注释进行增强。这些数据以制表符分隔的格式提供。 GENCODE v36 用于基因注释。

    请注意,STAR 计数结果不会计算映射到多个不同基因的读数。下面是两个文件,列出了完全被其他基因包围的基因,并且可能会显示零值。

    I/O Entity Format
    Input Aligned Reads BAM
    Output Gene Expression TXT

    mRNA 定量命令行参数

    HTSeq

    #Current
    Counts are produced by STAR concurrent with alignment.
    #Original
    htseq-count \
    -m intersection-nonempty \
    -i gene_id \
    -r pos \
    -s no \
    - gencode.v22.annotation.gtf
    #Dr15-31
    htseq-count \
    -f bam \
    -r name \
    -s no \
    -a 10 \
    -t exon \
    -i gene_id \
    -m intersection-nonempty \
    <input_bam> \
    <gtf_file> > <counts_file>
    

    mRNA 表达转化

    使用三种常用方法对工作流程产生的 RNA-Seq 表达水平读数计数进行标准化:FPKM、FPKM-UQ 和 TPM。归一化值只能在整个基因集的背景下使用。如果研究了基因子集,则鼓励用户标准化原始读取计数值。

    FPKM

    每百万映射读数中每千碱基转录本的片段 (FPKM) 计算旨在控制转录本长度和整体测序数量。

    上四分位 FPKM

    上四分位数 FPKM (FPKM-UQ) 是一种改进的 FPKM 计算,其中第 75 个百分位数位置的蛋白质编码基因替换为测序量。这被认为比包含极端噪声的基因提供更稳定的值。

    TPM

    每百万份转录本的计算与 FPKM 类似,但不同之处在于所有转录本首先针对长度进行归一化。然后,不使用总读取计数作为大小的标准化,而是使用长度标准化转录本值的总和作为大小的指标。

    计算

    image

    注意: 在标准化期间,读取计数乘以标量 (10 ^9^ ),以考虑千碱基和“百万映射读取”单位。

    例子

    样本 1:基因 A

    • 基因长度:3,000 bp
    • 1,000 个读取映射到基因 A
    • 1,000,000 个读数映射到所有蛋白质编码区域
    • 样本 1 中第 75 个百分位基因的读取计数:2,000
    • 常染色体上蛋白质编码基因的数量:19,029
    • 长度归一化转录本计数总和:9,000,000

    基因 A 的 FPKM = 1,000 * 10^9 / (3,000 * 50,000,000) = 6.67

    基因 A 的 FPKM-UQ = 1,000) * 10^9 / (3,000 * 2,000 * 19,029) = 8.76

    基因 A 的 TPM = (1,000 * 1,000 / 3,000) * 1,000,000 / (9,000,000) = 37.04

    聚变管道

    GDC 使用两条管道来检测基因融合。

    STAR-Fusion 管道

    GDC 基因融合管道使用 STAR-Fusion v1.6 算法生成基因融合数据。 STAR-Fusion 管道处理 STAR 对齐器生成的输出,以将连接读取和跨越读取映射到连接注释集。它利用运行 STAR 对准器产生的嵌合连接文件并生成选项卡限制的基因融合预测文件。预测文件提供融合基因名称、连接读取计数和断点信息。

    Arriba 融合管道

    Arriba 基因融合管道使用 Arriba v1.1.0 从肿瘤样本的 RNA-Seq 数据中检测基因融合。

    scRNA-Seq 管道(单核)

    GDC 使用以下方法处理单细胞 RNA-Seq (scRNA-Seq) 数据 Cell Ranger 管道计算基因表达,然后 Seurat 用于二级表达分析。

    scRNA 基因表达管道

    使用 Cell Ranger 的基因表达管道生成三个文件:

    • Aligned reads file (BAM)
    • Raw counts matrix - contains all barcodes in Market Exchange Format (MEX)
    • Filtered counts matrix - contains only detected cellular barcodes (MEX)

    scRNA 分析流程

    使用 Seurat 软件的分析管道根据过滤计数矩阵的输入生成三个文件:

    • 分析 - PCA、UMAP、tSNE 值以及基于图形的聚类结果以及相关元数据 (TSV)。
    • 差异基因表达 - 将一个簇中的细胞与其余细胞 (TSV) 进行比较的 DEG 信息。
    • 完整的 Seurat 分析日志作为 loom 对象 HDF5 格式。

    当从细胞核而不是细胞质中提取输入 RNA 时,会实施稍微修改的定量方法以包括内含子。目前,这些单核 RNA-Seq (snRNA-Seq) 分析在数据门户中共享相同的实验策略 (scRNA-Seq),并且可以通过查询 aliquot.analyte_type = "Nuclei RNA" 进行过滤。

    文件访问和可用性

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...