高能教程 | 把自己的数据传给世界看!
什么是GEO数据库?
Gene Expression Omnibus(GEO)是NCBI旗下的一个分支数据库
http://www.ncbi.nlm.nih.gov/geo/,是一个储存高通量功能基因组学数据的数据库,这些高通量功能基因组学数据来自芯片和新一代的测序仪得到的试验数据。
红色方框标出的就是两大类高通量数据,一类是芯片数据提交,另一类是高通量测序数据提交;现在主要介绍高通量芯片数据的上传。
向GEO上传数据,首先需要注册一个NCBI账户,有了账户后,就可以正式开始数据上传了。
https://www.ncbi.nlm.nih.gov/account/
Agilent芯片结果上传至GEO
GEO的Data types选项可以选择Array submissions的相应芯片平台,如常见的Affymetrix、Agilent;Nimblegen、Illumina等;如果是其他形式,可以选择General。
下面以Agilent芯片数据上传为例,详细介绍一下高通量芯片数据上传需要的文件及填写等。
上传数据类型选择及需要文件
GEO推荐以GEO archive格式上传数据。GEO archive包含三个文件:
(1)包含芯片实验描述的Excel表格;
(2)原始数据(Agilent为TXT文档);
(3)归一化或处理的数据
(一般包含在第一个Excel文件中)。
高通量芯片数据上传文件准备
在数据选择页面选择Agilent,进入页面后,下拉网页,在Agilent GEOarchive templates and examples中选择数据类型:
常规实验均为单通道芯片实验(One-color experiment),点击One-color experiment,下载需要填写的Excel表格。
MetadataTemplate内容填写:
(1)SERIES:跟文章相关的内容:标题,摘要,实验设计,参与者;
(2)SAMPLES:跟样本信息相关的内容:样本名称,原始数据文件名称,样本来源,物种,特征(样本类型等),实验用分子类型,标记类型,样本描述,芯片平台类型或ID;
(3)PROTOCOLS:实验样本的培养、处理、提取方法,芯片实验样本标记,芯片杂交、扫描及数据处理方法,信号值定义;
Matrix Template内容填写,只需要将芯片结果中的数据填入即可。必须填写的是芯片探号和样本信号值,ID REF填写芯片探针ID,一般为芯片数据表格第一列,FeatureNumbers可以删除,后面列即为每个样品对应的归一化信号值。
下面激动人心的时刻终于要来了!!!
数据上传
将原始数据和填写好的Excel表格压缩到一个压缩文件里,点击“高通量芯片数据上传文件准备”页面中的Submit,上传压缩文件,此时可以选择数据上传类型(新的上传数据或更新的数据);选择数据释放时间(最长可设置3年后释放);如果你还有想对GEO管理员“偷偷说的悄悄话”,也可以填写相应内容;如果你的压缩文件太大,上传失败,不要灰心,可以用FTP工具上传你的数据。
到此,所有数据上传工作就结束了,你只需要等GEO管理员回复邮件,通知你的数据上传成功,并给你相应GSE编号就可以了。
一些细心的同学可能会问,GEO数据库如何上传高通量测序数据呢?
向GEO数据库上传高通量测序数据,需要将原始数据上传到NCBI SRA数据库,其他与芯片数据上传类似。
如果有高通量测序数据急需上传的同学,可以联系区域内我们的销售人员,他们有本上神亲自撰写的《高通量测序数据上传指南》,需要的同学快快联系啊,历完此劫(读完指南),我相信你也会从高通量数据上传的小仙飞升为上神的!
联系方式
活动详情请咨询当地业务员也可以发邮件至
bioservice@capitalbiotech.com
或者拨打电话
010-69002900-8303
博奥晶典科研服务事业部张伟 吴洁 张西轩 | 文案
部分配图来源于网络 侵删