EMBL数据库:保存生命的遗传密码 (embl数据库)

简介

EMBL数据库是欧洲分子生物学实验室(European Molecular Biology Laboratory)维护的一个遗传学和分子生物学研究数据库。它包括核酸和蛋白质序列、大型分子结构、功能注释、基因组学和转录组学数据等多种信息。EMBL数据库旨在为生命科学研究人员提供一个全球范围内的资源,帮助他们了解生命的分子机制。

一、EMBL数据库的历史

EMBL数据库成立于1974年,是欧洲分子生物学实验室(EMBL)的重要组成部分。作为一个全球性的遗传学和分子生物学数据库,EMBL旨在为研究人员提供简洁易懂、全面准确的分子生物学信息。EMBL数据库的建立和发展历程与现代分子生物学的发展有着密不可分的关系,早期的EMBL数据库仅覆盖有简单的DNA和RNA序列,但是随着科技的发展,这些数据逐渐得到了丰富和完善。目前,EMBL数据库不仅收集了全世界的蛋白质、核酸序列,并且还记录了许多大型分子结构、基因组数据以及转录组学数据等,成为了一个全面而强大的数据库枢纽。

二、EMBL数据库的结构和内容

EMBL数据库包含了许多具有代表性的数据,其中最重要的是序列编号(Accession Number)。EMBL数据库的序列编号是由EMBL Nucleotide Sequence Database(ENA)分配的,对于任何一个新的序列ID号,都必须经过ENA审核通过并分配才能够被EMBL数据库所记录。除了序列编号,EMBL数据库还有以下主要的数据类型:

1. DNA序列:EMBLEntry 是EMBL数据库的序列记录,包括DNA、RNA和多肽序列,以及相关的注释信息和参考文献。

2. 蛋白质序列:EMBL也收錄了蛋白質和基因表达產物(PE和PD條目)的資料。

3. 大型分子结构:EMBL记录了许多重要的生物分子结构信息,包括各种蛋白质、核酸和多肽结构。

4. 基因组学数据:EMBL收录了许多基因组学的数据,包括许多生物的全基因组序列、整理和分类的序列、SNP和变异数据、基因注释等。

5. 转录组学数据:EMBL也收录了大量转录组数据集,包括表达谱、RNA-Seq等。

三、EMBL数据库的应用价值

EMBL数据库是全球科研人员公认的一个重要的生命科学数据库,它具有的一些应用价值包括:

1. 帮助进行生物学研究:EMBL数据库为研究人员提供了一个全球性的遗传学和分子生物学数据库,其中包括了来自全球各地的蛋白质、核酸序列、分子结构、基因组学数据以及转录组学数据等信息,这些数据对于科学家开展基础研究具有重要意义。

2. 辅助疾病治疗:EMBL数据库对于疾病的治疗、特别是基因治疗具有至关重要的意义。通过对基因数据的分析,人们可以预测疾病的发生风险,及早发现患者的基因突变型,并寻找特定的针对基因的靶向治疗方法。

3. 帮助制药业:EMBL数据库中大量的分子结构信息和基因组数据对于制药行业非常重要,尤其对于新药发现和设计。研发过程中,科学家可以通过分析分子结构数据,寻找特定的分子靶点,设计一些有针对性的药物。

除此之外,EMBL数据库在生物信息学、计算机科学、、机器学习等领域也产生很大的影响,人们可以通过利用EMBL数据库中的数据来开展更为深入的研究。

四、结语

随着分子生物学研究的不断深入,EMBL数据库的应用范围也越来越广泛,它不仅为研究人员提供了重要的研究数据,并且为人类健康和生活的改善做出了巨大的贡献。但是,EMBL数据库也面临着许多问题和挑战,比如大数据量的处理和存储、数据质量的保证、数据隐私与共享等问题。相信随着科技的发展和技术的创新,EMBL数据库的发展也将更加强大和优化,为人类提供更多更好的服务。

相关问题拓展阅读:

Genbank序列包含什么?

大型数据库分成若干子库,有许多好处。首先,可以把数据库查询限定在某一特定部分,以便加快查询速度。其次,基因组计划快速测序得到的大量序列尚未加以注释,将它们单独分类,有利于数据库查询和搜索时“有的放矢”。GenBank将这些数据按高通量基因组序列(HighThroughput Genomic Sequences,HTG)、表达序列标记(Expressed Sequence Tags,EST)、序列标记位点(SequenceTaggedSites,STS)和基因组概览序列(Genome Survey Sequences,GSS)单独分类。尽管这些数据尚未加以注释,它们依然是GenBank的重要组成部分。

可通过Entrez数据库查询系统对GenBank进行查询。这个系统将核酸、蛋白质序列和基因图谱、蛋白质结构数据库整合在一起。此外,通过该系统的文献摘要数据库MEDLINE,可获取有关序列的进一步信息。在万维网上,进入NCBI的主页,可以用BLAST程序对GenBank数据库进行未知序列的同源性搜索(详见第六章)。

完整的GenBank数据库包括序列文件,索引文件以及其它有关文件。索引文件是根据数据库中作者、参考文献等子段建立的,用于数据库查询。GenPept是由GenBank中槐粗雀的核酸序列翻译而得到的蛋白质序列数据库,其数据格式为FastA。GenBank曾以CD-ROM光盘的形式分发,价格比较便宜。随着数据库容量的增长,一套最新版的GenBank需要12张光盘存放,不仅生产成本很高,也不便于使用。现在,光盘分发的方式已经停止,可以通过网络下载GenBank数据库。

GenBank中最常用的是序列文件。序列文件的基本单位是序列条目,包括核甘酸碱基排列顺序和注释两部分。目前,许多生物信息资源中心通过计算机网络提供该数据库文件。下面,我们介绍序列文件的结构。

序列文件由单个的序列条目组成。序列条目由字段组成,每个字段由关键字起始,后面为该字段的具体说明。有些字段又分若干次子字段,以次关键字或特性表说明符开始。每个序列条目以双斜杠“//”作结束标记。序列条目的格式非常重要,关键字从之一列开始,次关键字从第三列开始,特性表说明符从第五列开始。每个字段可以占一行,也可以占若干行。若一行中写不下时,继续行以空格开始。

序列条目的关键字包括代码(LOCUS),说明(DEFINITION), 编号(ACCESSION),核酸标凳此识符(NID),关键词(KEYWORDS),数据来源(SOURCE),文献(REFERENCE),特性表(FEATURES),碱基组成(BASE COUNT)及碱基排列顺序(ORIGIN)。

代码LOCUS是该序列条目的标记,或者说标识符,蕴涵这个序列的功能。例如,图4.1中所示的HUMCYCLOX表示人的环氧化酶cyclooxygenase。该字段还包括其它相关内容,如序列长度、类型、种属来源以及录入日期等。说明铅早字段是有关这一序列的简单描述,如本例为人环氧化酶-2的mRNA全序列。关键词字段由该序列的提交者提供,包括该序列的基因产物以及其它相关信息,如本例中还氧化酶-2 (cyclooxygenase-2),前列腺素合成酶(prostaglandin synthase)。数据来源字段说明该序列是从什么生物体、什么组织得到的,如本例中人脐带血管(umbilical vein)。次关键字种属(ORGANI)指出该生物体的分类学地位,如本例人、真核生物等等。文献字段说明该序列中的相关文献,包括作者(AUTHORS),题目(TITLE)及杂志名(JOURNAL)等,以次关键词列出。该字段中还列出医学文献摘要数据库MEDLINE的代码。该代码实际上是个网络链接指针,点击它可以直接调用上述文献摘要。一个序列可以有多篇文献,以不同序号表示,并给出该序列中的哪一部分与文献有关。

用户可以通过NCBI(National Center for Biotechnology Information 美国国家生物技术信息中心信息中心,隶属于NLM-美国国家医学图书馆)的主页使用GenBank。GenBank的宗旨是鼓励科研团体对DNA序列的获取,从而促进数据库中DNA序列的丰富和更新,所以NCBI对GenBank的数据使用与发送没有任何限制。用户可从GenBank主页上下载Banklt(NCBI提供的WWW格式,用于便捷的提交 DNA序列的数据)、sequin(NCBI的独立于 操作系统的提交 软件,可用于MAC、PC和UNIX平台,也可以通过FTP远程获取)以及VecScreen(带菌污染物的筛选工具)等便于提交和更新研究成果的 应用软件。

其页面上的简单检索界面提供19种相关检索选项,分别是:PubMed、Protein( 蛋白质)、Nucleotide( 核苷)、Structure(结构)、Genome(基因组)、PMC、LocusLink、PopSet、OMIM、Taxonomy(分类学)、Books(图书)、ProbeSet、3D Domains(三维区域)、UniSTS、Domains、SNP、Journals(期刊)、UniGene、NCBI Web Site(NCBI站点)。 GenBank可以与DNA Star软件结合使用,进行基因序列分析和比对。GenBank 是一个开放获取的序列数据库,对所有公开可利用的核苷酸序列与其翻译的蛋白质进行收集并注好瞎旦释。 此数据库是国际协作核酸序列数据库(INSDC)的一部分,由美国国家生物技术信息中心(National Center for Biotechnology Information,NCBI)主管,NCBI为美国国立卫生研究院的下属机构。GenBank和它的合作者从全球各个实验室接收了超过百万种生物的数据。Genbank库包含了所有已知的核酸序列和蛋白质序列,以及与它们相关的文献著作和生物学注释。它的数据直接来源于测序工作者提交的序列、由测序中心提交的大量EST序列和其它测序数据、以及与其它数据机构协作交换数据而来。

Genbank每天都会与欧洲分子生神含物学实验室(EMBL)的数据库,和日本的DNA数据库(DDBJ)交换数据,使这三个数据库的数据同步。到1999年8月,Genbank中收集的序列数量达到460万条,34亿个碱基,而且数据增长的速度还在不断加快。Genbank的数据可以从NCBI的FTP服务器上免费下载完整的库,或下载积累的新数据。NCBI还提供广泛的数据查询友扰、序列相似性搜索以及其它分析服务,用户可以从NCBI的主页上找到这些服务。

说明字段是有关这一序列的简单描述,如本例为人环氧化酶-2的mRNA全序列。ACCESSION (编号):具有唯一性和永久性,如本例中代码M90100用来表示上述人环氧局此化酶-2的mRNA序列,在文献中引用这个序列时,应该以此编号为准。KEYWORDS (关键词)字段:由该序列的提交者提供,包括该序列的基因产物以及其它相关信息,如本例中环氧化酶-2 (cyclooxygenase-2),前列腺素合成酶(prostaglandin synthase)。SOURCE (数据来源)字段:说明该序列是从什么生物体、什么组织得到的,如本例中人脐带血(umbilical vein)。次关键字ORGANI (种属)指出该生物体的分类学地位,如本例人、真核生物等等(详见图4.1)。REFERENCE (文献)字段:说明该序列中的相关文献,包括AUTHORS (作者),TITLE (题目)及JOURNAL (杂志名)等,以次关键词列出。该字段中还列出医学文献摘要数据库MEDLINE的代码。该代码实际上是个超文本链接,点击它可以直接调用上述文献摘要。一个序列可以有多篇文献,以不同序号表示,并给出该序列中的哪一部分与轮激文献有关。FEATURES (特性表):具有特定的格式,用来详细描述腊腊袜序列特性。特性表中带有‘/db-xref/’标志的字符可以连接到其它数据库,如本例中的分类数据库(taxon 9606),以及蛋白质序列数据库

序列中各部分的位置都在表中标明,5’非编码区(1-97),编码区(),3’非编码区(),多聚腺苷酸重复区域(),等等。翻译所得信号肽以及最终蛋白质产物也都有所说明。当然,这个例子只是特性表的部分注释信息,但已经足以说明其详细程度。接下来是碱基含量字段,给出序列中的碱组成,如本例中1010个A,712个C,633个G,1032个T。ORIGIN行是序列的引导行,接下来便是碱基序列,以双斜杠行“//”结束。

核酸序列、结构数据库有哪些?

美国的核酸数据库GenBank

欧洲核酸序列数据库EMBL

日本核酸序列数据库DDBJ

这是目前世界三大核酸数据库.不本我们用的最多的还是NCBI,基本上是不用日本的!

关于embl数据库的介绍到此就结束了,不知道你从中找到你需要的信息了吗 ?如果你还想了解更多这方面的信息,记得收藏关注本站。


数据运维技术 » EMBL数据库:保存生命的遗传密码 (embl数据库)