Gene Ontology(GO)简介与
怎样就出现了?当今的生物学家们浪费了太多的时间和精力在搜索生物信息上。这种情况归结为生物学上定义混乱的缘由:不光是精确的计算机难以搜索到这些随时间和人为多重因素而随机改变的定义,即便是完全由人手动处理也没法完成。举个例子来讲,如果需要找到一个用于制抗生素的药物靶点,你可能想找到所有的和细菌蛋白质合成相干的基因产物,特别是那些和人中蛋白质合成组分显著不同的。但如果一个数据库描写这些基因产物为“翻译类”,而另一个描写其为“蛋白质合成类”,那末这无疑对计算机来说是难以辨别这两个在字面上相差甚远却在功能上相一致的定义。
GeneOntology(GO)项目正是为了能够使对各种数据库中基因产物功能描写相一致的努力结果。这个项目最初是由年对三个模式生物数据库的整合开始::FlyBase(果蝇数据库Drosophila),tSaccharomycesGenomeDatabase(酵母基因组数据库SGD)andtheMouseGenomeDatabase(小鼠基因组数据库MGD)。从那开始,GO不断发展扩大,现在已包括数十个动物、植物、微生物的数据库。
GO的定义法则已在多个合作的数据库中使用,这使在这些数据库中的查询具有极高的一致性。这类定义语言具有多重结构,因此在各种程度上都能进行查询。举例来说,GO可以被用来在小鼠基因组中查询和信号转导相干的基因产物,也可以进一步找到各种生物地受体酪氨酸激酶。这类结构允许在各种水平添加对此基因产物特性的认识。
的发展和组织形式GO发展了具有三级结构的标准语言(ontologies),根据基因产物的相干份子功能,生物学途径,细胞学组件而给予定义,无物种相关性。3种本体论的内容以下:
1)份子功能本体论基因产物个体的功能,如与碳水化合物结合或ATP水解酶活性等
2)生物学途径本体论份子功能的有序组合,达成更广的生物功能,如有丝分裂或嘌呤代谢等
3)细胞组件本体论亚细胞结构、位置和大分子复合物,如核仁、端粒和辨认起始的复合物等
基本来讲,GO工作可分为三个不同的部份:第一,给予和保持定义;第二,将位于不同数据库中的本体论语言、基因和基因产物进行联系,构成络;第三,发展相干工具,使本体论的标准语言的产生和保持更加便捷。
的情势GO定义的术语有着直接非循环式(directedacyclicgraphs(DAGs)的特点,而并不是是传统的等级制定义方式(随着代数增加,下一级比上一级更加具体)。举个例子来讲,生物学途径中有一个定义是己糖合成,它的上一级为己糖代谢和单糖合成。当某个基因被注解为“己糖合成活性”后,它自动地取得了己糖代谢和单糖合成地注解。由于在GO中,每一个术语必须遵守“真途径“法则,即如果下一代的术语可以用于描写此基因产物,其上一代术语也可以适用。
的注释(Annotation)那末,GO中的术语如何和相对应的基因产物相联系的呢?这是由参与合作的数据库来完成的,它们使用GO的定义方法,对它们所包括的基因产物进行注解,并且提供支持这类注解的参考和证据。每一个基因或基因产物都会有一个列表,列出与之相干的GO术语。每一个数据库都会给出这些基因产物和GO术语的联系数据库,并且也可以在GO的ftp站点上和WEB方式查询到。
而且,GO联合会提供了简化的本体论术语(GOslim),这样,可以在更高级的层面上研究基因组的功能。比如,粗略地估计哪一部份的基因组与信号传导、代谢合成或复制有关。
GO对基因和蛋白的注释阐明了基因产物和用于定义他们的GO术语之间的关系。基因产物指一个基因编码的RNA或蛋白产物。由于一个基因可能编码多个具有很不相同性质的产物,所以GO推荐的注释是针对基因产物的而不是基因的。一个基因是和所有适用于它的术语联系在一起的。
一个基因产物可以被一种本体论定义的多种分支或多种水平注释。注释需要反应在正常情况下此基因产物的功能,生物途径,定位等,而其实不包括其在突变或病理状态下的情况。GO联合会的各个数据库成员采取手动或自动的方式生成注释,这两种方式共有的原理是:1.所有的注释都需要有来源,可以是文字、另一个数据库或是计算机分析结果;2.注释必须提供支持这类基因产物和GO术语之间联系的证据。
文件格式GO的所有数据都是免费取得的。GO数据有3种格式:flat(逐日更新)、XML(每个月更新)和MySQL(每个月更新)。这些数据格式都可以在GOftp的站点上下载。XML和MySQL文件是被贮存于独立的GO数据库中。
如果需要找到与某一个GO术语相干的基因或基因产物,可以找到一个相应表格,搜索到这类注解的编号,并且可以链接到与之对应的位于不同数据库的基因相干文件。
浏览器和修改器(browserandeditor)GO术语和注释使用了多种不同的工具软件,它们都可以在web方式的“GO浏览器”下“GOsoftwarepage”中找到。大多数GO浏览器都是web模式的,允许你直观的看到术语和其相干信息,如定义、同义词和数据库参考等。有些GO浏览器如AmiGO和QuickGO,可以看到每一个术语的注释。而可下载的DAG-Edit器,一样可以离线地显示注释和所有本体论定义的信息。对每个浏览器来讲,都可以选择最适用于你要求的工具软件。
1)常见的3种浏览器
AmiGOfromBDGP在AmiGO中,可以通过查询一个GO术语而得到所有具有这个注释的基因产物,或查询一个基因产物而得到它所有的注释关系。还可以阅读本体论,得到术语之间的关系和术语对应的基因产物数目。AmiGO直接连接GO下的MySQL。
MGIGOBrowserMGIGO的功能类似于AmiGO,所不同的在于它所得到的基因为小鼠基因。MGIGO浏览器直接连接GO下的MGI数据库。
QuickGOatEBIQuickGO,整合在EBI下的InterPro中,可以通过查询一个GO术语而得到它的定义与关系描写、在SWISS-PROT中的定位、在酶分类学(EC)和转运分类学(TC)中的定位和InterPro中的定位等。
其他还有一些特殊的阅读GO的浏览器,其中括号中为建立机构和主要特点:
EPGOBrowser(EBI,基因表达情况),、GoFish(Harvard,Boolean查询、GenNav(NLM,图象化展现)、GeneOntology
RZPD(RZPD,UniGene)、ProToGO(HebrewUniversity,GO的亚图象化)、CGAPGOBrowser(癌症基因组解剖工程,癌症)、GOBrowser(Illuminae,perl.、TAIRKeywordBrowser(TAIR,拟南芥)、PANDORA(HebrewUniversity,非一致化蛋白)。
2)修改器
GO术语和本体论结构可以由任何可以读入GO平板文件的文本修改器进行,但是这需要对平板文件非常熟习。因此,DAG-Edit是被推荐使用的,它是为GO特别设计的,能够保证文件的句法正确。GO注释可以被多种数据库特异性的工具所,如TIGR的Manatee和EBI的Talismantool。但是GO数据库中写入新的注释是需要通过GO认证的管理员方可进行的,如果想提出新的注释或对本体论的建议,可以联系GO。
主要修改器为DAG-Edit和COBrA。DAG-Edit基于Java语言,提供了能阅读、查询、具有DAG数据格式的GO数据界面。在SourceForge可以免费下载,伴随着帮助文件。COBrA能够和定位GO和OBO本体论。它一次显示两个本体论,因此可以在不同的水平相应定位。(如组织和细胞类型水平)优点在于可以综合几种本体论,支持的文件格式多,包括GO平板文件、GORDF和OWL格式等。
如图为DAG-Edit的界面,可以分为四个部份:
1)定义面板(termeditorpanel)
显示当下的本体论。也是主要的本体论结构的工具,可以通过点击和拖动术语来修改本体论的从属关系。
2)文本面板(texteditorpanel)
修改术语中的内容。在修改多个术语时,会出现一个选择菜单,可以选中后逐一修改。
3)DAG浏览器
DAG浏览器是一个插件,能够以图形的方式展现具有复杂的从属关系的术语。
4)搜索/屏蔽面板
可搜索术语、术语类型和术语间关系。可自定义屏蔽条件,限制得出的搜索结果。
数据库的查找和阅读FAQ1)如何搜索注释?
使用AmiGO浏览器,可以在所有参与的数据库中搜索一个特定的注解。AmiGO允许使用GO术语或基因产物的搜索。搜索结果包括GO对这个术语的等级分级情况,定义和近义结构,外部链接,所有相联系的基因产物和它的下一级术语。
2)如何得到全部的GO注释?
在GO站上,基因产物与GO联系的组信息都有提供。这些文件贮存了基因/基因产物的ID和援用文献等支持证据(如FlyBase基因ID,SWISS-PROT蛋白ID),在ftp站点上都可以获得。
3)在一些模式生物中,一个基因通常有多个与之相干的核苷酸序列,如EST、蛋白序列等。要查询到这些序列,可以从该模式生物数据库中通过基因联系(geneassociation)查询到基因取得ID(geneaccessionID),或是分别在Compugen中查询大的转录产物(transcipt)和SWISS-PROT/TrEMBL中查询蛋白。
4)如何得到由GO术语注解的蛋白序列?
在GO页上选择能查询到所有数据库的Amigo浏览器,键入GO术语(如“线粒体”),在结果中显示了被注释的基因。然后选择你所需基因,在页的最低端把选项拖至“getfastasequence”区域,再肯定便可。
5)如何能够找到所有和一个特定的GO术语相干的人类基因呢?
GO术语是和SWISS-PROT/TrEMBL/InterProandEnsembl中的蛋白序列无赘余地对应的。这些注释在EBI上的GOA-Human文件中,GO的FTP站点上,Ensembl,EMBL-Bank上都可找到。
6)可以直接使用GenBank的gi获得码在GO数据库中进行查询吗?
GO数据库中除Compugen所提供的GenBank获得码以外,没有包括其他GenBank获得码的信息,但是在EBI的GOA(GOAnnotation)中,有一个综合的对GenBank/EMBL/DDBJ进行查询的方式,详细请见:
7)GO与其他分类系统的定位关系(MappingtoGO)
GO其实不只是希望为基因组建立一个标准化的、结构清晰的注释语言。GO致力于各种基因组数据库的标准化。GO为各种基因组分类系统和GO注释之间的转化提供了转化表,见
身上有白癜风怎么办白癜风的根治方法