全基因组拷贝数变异(Copy Number Variation,CNV)在肿瘤的研究中占据十分重要的地位。目前,CNV已被多项研究证明参与了癌症的发生和发展,其数量和复杂程度更是许多癌症的预后指标。2013年9月Nature杂志发表了一篇对3299份来自于12种实体瘤样本的研究,结论表明肿瘤可以依据驱动因素,分为M class (mutation driven,基因突变驱动) 和C class (copy number driven,拷贝数变异驱动)。其中,卵巢癌、乳腺癌、肺(鳞)癌及头颈癌等癌症中,CNV类型的驱动突变多于基因突变。这充分表明了CNV在肿瘤研究中的重要性。
上海伯豪生物技术有限公司(Shanghai Biotechnology Corporation)作为上海生物芯片有限公司/生物芯片上海国家工程研究中心旗下的专业技术服务子公司,在FFPE样品检测服务领域有多年服务经验,为客户整合推出OncoScanTM FFPE检测服务分析全面解决方案。
一. 产品介绍
福尔马林固定、石蜡包埋(formalin fixation and paraffin embedding,FFPE)是肿瘤医学领域常见的样本形式。FFPE样本通常珍贵且保存时间长,存在样本量稀少和高度降解的问题。因此,从FFPE 组织中获得CNV变异信息,是一个巨大的挑战。Affymetrix 公司的OncoScan™ FFPE检测产品针对降解状态的FFPE样本,开发了分子倒置探针(MIP)技术,并针对891个癌症相关基因加密设计了探针,以提高检测分辨率。在一个试验中轻松完成拷贝数变异和杂合性缺失(LOH)检测,并能检测常见的获得性突变。
Affymetrix OncoScan™ FFPE芯片特点
- 使用分子倒置探针(MIP)技术,针对FFPE样本优化设计(探针结合处只需40bp的碱基);
- 经7000多个样本验证,试验成功率>90%;
- 所需起始DNA量少,陈旧FFPE样本也有效(10年或者更久);
- 针对约900种癌基因,能达到50-100kb拷贝数的分辨率;
- 癌基因外的全基因扫描,可达到300kb的分辨率;
- 可检测全基因组LOH缺失,包括拷贝数中性的LOH(copy neutral LOH);
- 检测动态范围可以高达10拷贝以上;
- 对关键癌基因如ERBB2 (Her2)、EGFR、MDM2、MYCFGFR1等,证实与FISH验证的扩增一致。
通过OncoScan™ FFPE观察样本的CNV和LOH
拷贝数探针强度(log2ratio)与B等位基因频率(B-Allele Frequency, BAF)的结果是判断样本是否发生了CNV和LOH的直接依据。图2展示了拷贝数增加(左圈)和减少(右圈)的示例。
在图2案例中,拷贝数增加使log2ratio大于0,且等位基因由2个等位基因增加为3个,因此BAF出现了4条带型,带型的频率分布根据肿瘤样本和正常样本的比例决定(表2)。拷贝数减少也会出现4个带型,原理相似。
OncoScan™ FFPE可反映样本的亚克隆结构
肿瘤样本具有高度异质性,通过OncoScan™ FFPE芯片的分析,可以观察样本中的亚克隆结构。图3展示了样本中存在2个亚克隆时的情况。2个克隆由于在组织中占比不同,因此发生缺失时log2ratio将出现2个小于0的不同数值,且BAF带型也将呈现两种状态(见表2)。
二. 样本要求
样本准备及建议:
FFPE切片(10片左右,切片厚度10um左右)
样品量要求
- 样品纯度:RNA 应该去除干净;
- 样品浓度:浓度不低于12ng/µl;
- 样品溶剂:溶解在Reduced TE(10mM Tris, pH 8,0,0.1mM EDTA)中;
- 样品运输: DNA低温运输(-20℃);在运输过程中请用parafilm将管口密封好,以防污染。
三. 基础分析内容
3.1 CNV和LOH结果统计
Affymetrix Genechip Scaner产生的芯片原始数据cel文件,用CHAS(Chromosome Analysis Suite)软件进行分析将Cel文件转换成CYCHP文件,导出每个样本CNV及LOH结果总表、样本的CNV及LOH染色体分布图和每个样本log2Ratio、BAF总图。
3.2 CNV和LOH结果可视化
借助CHAS软件分染色体展示拷贝数变异和LOH。其中CNV用蓝色(扩增)与红色(缺失)表示,LOH用紫色表示。
CHAS软件也可以同时展示多个样本的CNV或LOH结果,用于直观比较多个样本的相同和差异。
CHAS软件可将单个样本的拷贝数探针(log2ratio)与SNP探针(BAF)的结果用图形展示出来。图8为展示结果,X轴为染色体,Y轴为log2ratio或BAF。
四. 高级分析内容
4.1多样本CNV频数分析
在进行多个样本分析时,可统计多个样本的CNV频数,直观发现样本之间的相似性和差异性。在下图中,柱高代表该CNV区段在样本中所占比例,向上为拷贝数增加,向下为拷贝数减少,不同颜色代表不同拷贝数状态。
4.2显著高频CNV统计
GISTIC是使用频率较高的CNV显著性统计软件,可找出多个样本(一般大于20个)中显著高频出现的CNV,用于推测驱动CNV变异。另外,GISTIC可根据CNV占染色体比例,将CNV区分为broad events和focal events。在对每个样本进行分析时,GISTIC计算了各基因区域的G-score,反映了CNV的变化幅度和其在样本之间的出现频率。下图展示了各样本的G-score染色体排布,可观察样本之间CNV发生情况。
下图为GISTIC的主要结果,展示了扩增和缺失的显著区域。红色为拷贝数增加,蓝色为拷贝数减少,超出阈值的区段为显著性CNV区段。
4.3 CNV相关基因富集分析
在癌症发展中,具有驱动作用的CNV变异由于具有选择优势,可能会受到富集作用。因此,可对CNV中包含的基因进行GO、KEGG和疾病类型的富集分析,观察是否有某些基因功能、通路或疾病类型被显著富集。在下图中,纵坐标表示Go term,横坐标是富集因子(Rich Factor = Gene number/Total Gene Number of the term)。每个圆圈的大小与在这个Go Term上的基因成正比,颜色与根据q-value的log值从红到绿渐变。颜色越红,则q-value值越低,富集越显著。
4.4 CNV聚类热图展示
在肿瘤研究样本数较多的情况下,可对所研究的个体进行聚类,方便对具有相似CNV发生特征的个体进行分组;也可对发生CNV的染色体区域进行聚类,寻找相似的癌症相关基因。
下图为根据GISTIC结果,对样本的G-score进行聚类。左上图例:不同颜色代表不同拷贝数,折线图表示具有该拷贝数的windows(以2Mb为单位统计)数量;右上图例:个体表型分类;左下图例:不同颜色代表不同染色体。
也可同时对样本和染色体区域进行聚类,如下。
另外,也可根据绝对拷贝数进行聚类分析,如下图所示。
4.5组间差异基因CNV统计
在肿瘤基因组研究中,常需统计原发和转移组,或者用药敏感或非敏感组等之间的CNV差异。常见的统计方法如下:
(1) 寻找样本之间共同的CNV,并以CNV区段为单位进行fisher检验;
(2) 以基因为单位,使用fisher检验统计两组样本中基因拷贝数变化的差异;
(3) 以GISTIC结果中基因的G-score为单位,在两组样本中使用t检验统计差异基因。
4.6基于机器学习模型筛选生物标志物
SVM(Support Vector Machine,支持向量机)是一个有监督的学习模型,通常用来进行模式识别、分类以及回归分析,能够较好的解决小样本的分类问题。在癌症研究中,常需要对用药前后,转移和非转移等分组进行特征性分子标志物的筛选。分类效果的好坏可以用ROC曲线(Receiver Operator Characteristic curve)对所筛选基因的准确性进行可视化展示。ROC曲线越靠近左上角,分子标志物筛选准确性就越高,当AUC值(Area Under the Curve)大于0.9时说明模型较为可靠。