#源代码#从GenBank数据库批量抓取
GenBank是一个有来自于70,多种生物的核苷酸序列的数据库。每条纪录都有编码区(CDS)特点的注释,还包括氨基酸的翻译。GenBank属于一个序列数据库的国际合作组织,包括EMBL和DDBJ。
完全的GenBank数据库包括序列文件,索引文件和其它有关文件。索引文件是根据数据库中作者、参考文献等建立的,用于数据库查询。GenPept是由GenBank中的核酸序列翻译而得到的蛋白质序列数据库,其数据格式为FastA。GenBank中最经常使用的是序列文件。序列文件的基本单位是序列条目,包括核苷酸碱基排列顺序和注释两部份。目前,许多生物信息资源中心通过计算机络提供该数据库文件。
下面,我们介绍序列文件的结构。GenBank序列文件由单个的序列条目组成。序列条目由字段组成,每一个字段由关键字起始,后面为该字段的具体说明。有些字段又分若干次子字段,以次关键字或特性表说明符开始。每一个序列条目以双斜杠“//”作结束标记。序列条目的格式非常重要,关键字从第一列开始,次关键字从第三列开始,特性表说明符从第五列开始。每一个字段可以占一行,也可以占若干行。若一行中写不下时,继续行以空格开始。。序列条目的关键字包括LOCUS(代码),DEFINITION(说明),ACCESSION(编号),NID符(核酸标识),KEYWORDS(关键词)SOURCE(数据来源),REFERENCE(文献),FEATURES(特性表),BASECOUNT(碱基组成)及ORIGIN(碱基排列顺序)。先版的核酸序列数据库将引入新的关键词SV(序列版本号)用“编号.版本号”表示,并取代关键词NID。LOCUS(代码):是该序列条目的标记,或说标识符,蕴涵这个序列的功能。
基于GenBank数据库海量的底层序列信息数据,我们可以从中检索到任意基因或蛋白的序列信息,这些信息对我们的研究非常重要,一方面可以用于比对参考序列,从而找到突变位点,另一方面基于蛋白的序列信息可以通过预测软件估计出碱基突变致使的氨基酸变化,是不是会通过影响蛋白质结构而引发功能变化如SNAP数据库等。但事实上我们通常要检索不止一个基因,因此一个一个的到数据库中查找非常麻烦,今天就介绍给大家一个基于python语言批量抓取蛋白序列信息的方法。
首先我们进入GenBank主页,
可以看到检索到很多和EGFR相干的词条,我们进行进一步挑选,选择红框内的protein,由于我们要检索的是蛋白序列信息。点击后可以看到下面界面
这里我们选择第一个,其他三个也是EGFR蛋白,但是属于同家族但氨基酸个数不同的蛋白。点击第一个蛋白后进入下面界面
一直下拉到底,会找到我们要的序列信息。
以上就是完成序列信息查找的全过程,这是针对EGFR一个基因的,当我们需要对多个基因进行检索时,只需要设置一个proteinlist,然后迭代的进行循环就可以了。那末下面提供如何通过python批量抓取蛋白的序列信息。
这样就可以实现批量抓取蛋白在GenBank上的序列信息了。
1、RCT的Meta分析:文献检索-质量评价-统计分析-RevMan/Stata/R
北京中科医院爆光北京中科医院爆光