很多老师有没有一种感慨,辛辛苦苦做完实验设计,测序工作,数据分析和文章撰写,在文章发表的前夕,还有一项磨人的工作不得不做,那就是数据上传。
为什么要进行数据上传?
数据上传到哪里?
怎么进行数据上传?
突然之间的三连问是不是有点懵,不要怕,本篇软文就来带领大家梳理这些问题,数据上传So easy~
为什么要进行数据上传?
简单来说,为了发表文章,但根本原因是为了帮助大家管理这些动辄几十个G或者几T的数据,同时实现科研共享。
数据上传到哪里?
这里建议将数据上传到NCBI的SRA数据库。NCBI SRA(Sequence Read Archive)数据库是最常用的存放测序Raw Reads的数据库(当然还有GEO等其他大的相关的上传数据的数据库,大家感兴趣的可以自行检索)。
将测序数据上传至该数据库,可分为4大步:
▶ 注册并登录NCBI账号;
▶ 申请BioProject号;
▶ 申请BioSample号;
▶ 创建SRA提交任务。
搞清楚这4大步,上传过程不复杂!
一 注册并登录NCBI账号
网址:https://www.ncbi.nlm.nih.gov/
1
打开网址,点击右上角 Sign in to NCBI;
11.png
2
点击注册账号 Register for an NCBI account;
22.png
3
填写账号邮箱等信息,点击 Create accout 完成注册。
33.png
二 申请BioProject号
登录账号后,打开网址https://submit.ncbi.nlm.nih.gov/subs/,并进入,界面如下。
44.png
1
点击 BioProject,再点击 New submission。BioProject:主要描述测序项目的研究目的,不同类型的数据(如基因组和转录组)可以都放到一个BioProject下。申请成功后,NCBI会给一个类似PRJNA544896这样的号,申请过程任何遇到问题,可以写信给他们的工作人员(genomeprj@ncbi.nlm.nih.gov),很快就能收到回复;
55.png
2
SUBMITTER,填写信息,完成后点击continue。
注:Submitting organization:提交组织、机构或者学校等研究单位。Department:实验室或课题组或科室名称。
66.png
3
SAMPLE TYPE,选择数据类型。转录组数据选择第二个,其它数据视实际情况选择。Sample scope选择Multiisolate。点击continue;
77.png
88.png
4
输入测序数据的物种拉丁名(必填),如果是微生物细菌,还需要填写菌株的名称。分离提取或培养组织名称等,简单描述,此处可省略。点击continue;
99.png
5
填写project释放时间,如没有特殊要求,一般为立即释放,Public description,主要写数据测序目的,测序组织等。此处必须填写。点击continue;
110.png
6
填写Biosample。此处省略,直接continue。因为上传步骤一般先申请Bioproject号,再申请Biosample号。点击continue;
111.png
7
如果文章已经发出,可以填写Pubmed ID或者文章的DOI。点击continue;如果文章还未发出,可以不填。
112.png
8
确认填写的信息,点击submit后提交完成。
113_meitu_1.jpg
至此Bioproject号申请完成,会立即收到邮件。
114.png
三 申请BioSample号
打开网址https://submit.ncbi.nlm.nih.gov/subs/。这与BioProject号不同,这里要求每个样品申请一个biosample号。
1
点击BioSample后,在新的界面点击New submission;
115.png
116.png
2
SUBMITTER,填写信息。同BioProject。点击continue;
3
GENERAL INFO,同BioProject,多个样品选择Batch/Multiple Bio Samples。点击continue;
117.png
4
SAMPLE TYPE,选择样品的类型,植物、动物、人等,选择和自己样品分类一致的选项即可。点击continue;
5
ATTRIBUTES,上传样品信息表。点击红色箭头处,下载信息模板。点击绿色箭头处,可以查看模板中每一项表头的解释,得知如何填写样品信息表。excel可直接打开下载的模板,如图:表格绿色部分必填,黄色部分选填,蓝色表示这些字段中至少有一个是必需的,如果信息不可用,请根据情况输入“未收集”、“不适用”或“缺少”。。每个样品生成一个文件(先填写一个文件试着上传,如果有报错可以修改,之后只需改动样品名即可)。点击continue;
118.png
6
确认填写的信息,点击submit后提交完成。几分钟内就会收到邮件,包含BioSample号。
四 创建SRA提交任务
打开网址https://submit.ncbi.nlm.nih.gov/subs/,并进入。
1
点击SRA,New submission。文件可以用gzip或者bzip2压缩,不能用zip压缩。注:所有文件名必须唯一不可重名;
119.png
120.png
2
SUBMITTER,填写信息,同BioProject号申请。点击continue;
3
GENERAL,填写申请好的BioProject号及数据释放时间。点击continue;
121.png
4
METADATA,上传文件信息表。点击箭头处,下载表格模板,并按照介绍填写(每一列都必填),填写完成后在浏览处上传表格,点击continue。
122.png
5
FILES,上传压缩好的原始数据,如果文件大于10GB,或者多于300个文件,不能用网页上传,可安装Aspera插件后上传。点击箭头处下载插件,安装后回到网页继续上传。由于测序数据较大,网速的限制等原因,这个过程所需时间可能较长,还请大家耐心等待哦。
123.png
6
OVERVIEW,确认填写的信息,提交。
完成了前面的四个步骤,所有的操作就已经完成了,静静等待NCBI发送序列号邮件就可以了。
欢迎大家学习和尝试前往NCBI上传原始数据,测序文章的成功发表,离不开数据的成功上传,大家加油~~