如何解析xml数据库_如何解析xml数据库文件

如何解析xml数据库_如何解析xml数据库文件一文教你进行多种ID转换(上)在进行转录组、蛋白质组和代谢组的数据分析时,我们经常会遇到一个问题,那就是基因(蛋白质)和代谢物不同ID之间的转换。因为不同的数据库一般都有自己独特的检索编号,比如基因TP53,它的Gene Symbol为TP53,这是人类基因命名委员会(HUGO Gene No

一文教你进行多种ID转换(上)   在进行转录组、蛋白质组和代谢组的数据分析时,我们经常会遇到一个问题,那就是基因(蛋白质)和代谢物不同ID之间的转换。因为不同的数据库一般都有自己独特的检索编号,比如基因TP53,它的Gene Symbol为TP53,这是人类基因命名委员会(HUGO Gene Nomenclature Committee,HGNC)提供的官方名称;它的Entrez ID为7157,这是美国国家生物技术信息中心(National Center for Biotechnology Information,NCBI)提供的编号,此外还有Uniprot ID等。这意味着同一个基因在不同的数据库中有不同的名称,在进行不同的分析时,我们可能需要在不同类型的ID之间进行转换。所以,本文汇总了多种ID转换方法分享给大家。   ID名称背景知识   在进行ID的转换前,我们先对各种常见的基因/蛋白质和代谢物ID名称进行一个简单的介绍。   1.1常见基因/蛋白质ID名称1.1.1 Entrez ID   也称Entrez Gene ID或Gene ID,源于NCBI的基因特异性数据库Entrez Gene,分配的标识符是一个整数,并且是物种特定的编号。Entrez Gene ID唯一且稳定,是目前国际上最权威的Gene ID。1.1.2 HUGO Gene Symbol   也称Official Symbol或HGNC Symbol,是HGNC为基因提供的官方名称,是基因命名描述的缩写标识符(如TP53)。这些基因符号是唯一的。需要注意的是,HGNC只对人类基因命名,并不是所有基因都有Gene Symbol。1.1.3 Gene Name   也称Official Full Name,是经过HGNC批准的完整基因名称,对应于Gene Symbol。例如TP53对应的Gene Name为Tumor Protein P53。1.1.4 HGNC ID   是HGNC数据库分配的基因编号,每个标准的Gene Symbol都有对应的HGNC ID。例如TP53对应的HGNC ID为HGNC:11998。1.1.5 Ensembl ID   也称Ensembl Stable ID,是Ensembl数据库使用的基因ID标识符,格式为:[物种符号][分子特征][唯一的11位数字],例如ENSG00000。Ensembl ID基本以ENS开头,后接表示物种的符号,人类直接以ENS表示,小鼠(Mus musculus)表示为ENSMUS,大鼠(Rattus norvegicus)表示为ENSRNO。对于分子特征,G表示基因(gene)、P表示蛋白质(protein)、T表示转录本(transcript)、E表示外显子(exon)等。此外,我们会经常在Ensembl ID的结尾看到小数,用来表示版本号(Version)。一般情况下,如果某个基因发生一些很小的变动,Ensembl Stable ID不变,Version部分发生变化。只有发生较大改变,Ensembl才会分配新的Ensembl Stable ID。1.1.6 Uniprot ID   Uniprot,全称Universal Protein,整合了EBI (European Bioinformatics Institute)、SIB (The Swiss Institute of Bioinformatics) 和PIR (Protein Information Resource) 三大数据库资源,是目前世界上使用最广泛的蛋白质数据库。其中UniprotKB收录蛋白质信息,由Swiss-Prot和TrEMBL两个子库构成。Swiss-Prot是高质量手工注释的非冗余数据集,提供了蛋白质功能、结构域、序列、翻译后修饰等注释信息。TrEMBL则是机器预测的未经校验的数据集。   Uniprot ID,即Uniprot Accession Number,是UniprotKB给每个蛋白质条目分配的唯一稳定的标识符。Uniprot Accession Number通常由6或10个字母数字的组合构成,格式为:[OPQ][0-9][A-Z0-9]{3}[0-9]|[A-NR-Z][0-9]([A-Z][A-Z0-9]{2}[0-9]){1,2},例如P12345、A0A023GPI8。1.1.7 RefSeq ID   NCBI参考序列数据库 (NCBI Reference Sequence Database,RefSeq) 是NCBI整合的全面、非冗余、注释良好的基因、蛋白质、转录本片段序列的数据库。   RefSeq ID,即RefSeq Accesion Number,是RefSeq数据库的标识符,格式为:[两个字母的字母前缀][_][一系列数字][.][版本号],例如NM_001744.6、NC_003619.1、NG_009904.1和NR_.1。1.1.8 OMIM ID   在线人类孟德尔遗传数据库(Online Mendelian Inheritance in Man,OMIM)是一个全面的、权威的、不断更新的人类基因和遗传病数据库,着重遗传变异和基因表型的关系,收录了所有已知的孟德尔病和16000多个基因的信息。   OMIM收录的条目都有唯一的六位数编号,编号规则如下所示:   1—–(-)   2—–(-) Autosomal loci or phenotypes (entries created before May 15, 1994)   3—–(-) X-linked loci or phenotypes   4—–(-) Y-linked loci or phenotypes   5—–(-) Mitochondrial loci or phenotypes   6—–(-) Autosomal loci or phenotypes (entries created after May 15, 1994)   等位基因变体由条目的MIM编号指定,后面跟着一个小数点和一个唯一的4位数变体编号。例如,因子IX基因()中的等位基因变体编号为.0001至.0101。   1.2常见代谢物ID名称1.2.1 Chemical Name   代谢物标准名称,如丙氨酸的标准名称为alanine。1.2.2 KEGG ID   KEGG ID是京都基因与基因组百科全书(Kyoto Encyclopedia of Genes and Genomes,KEGG)的KEGG标识符(KEGG Identifiler,KID)的一种,是给代谢物提供的编号,KEGG COMPOUND数据库收录了丰富的代谢物功能注释信息,尤其是代谢通路信息。代谢物的KEGG ID的格式为C[0-9]{5},C表示Compound,后面的5位数字为顺序号,例如卵磷脂(Phosphatidylcholine)的KEGG ID是C00157。1.2.3 HMDB ID   人体代谢组数据库(The Human Metabolome Database,HMDB)是一个免费的电子数据库,包含人体中发现的小分子代谢产物的详细信息,包含个代谢物条目,包括水溶性和脂溶性代谢物。   HMDB ID是HMDB的主要登录号,是HMDB给代谢物的编号,其格式做过一次调整,新版HMDB ID格式为:HMDB[0-9]{7},即HMDB加7位数的顺序号。旧版HMDB ID格式为HMDB[0-9]{5},即HMDB加5位数的顺序号。新版ID通过在旧版ID的HMDB和五位数顺序号之间添加00升级而成。例如脱氧胞苷(Deoxycytidine)的HMDB ID是HMDB0000014。1.2.4 Pubchem CID   PubChem是NCBI的子数据库,是世界上最大的可自由的化学信息集。目前收录了近一亿个化合物的全面信息。可以通过名称、分子式、结构和其他标识符检索化合物,查找化合物的物理特性、生物活性、安全性和毒性信息、专利、文献引用等。   Pubchem CID,即PubChem Compound ID,是PubChem数据库的化合物登录号,由纯数字组成,例如D-葡萄糖(D-Glucose)的Pubchem CID是5793。1.2.5 CAS Registry Number   CAS注册号是某种化合物唯一且明确的标识符,是美国化学学会CAS注册数据库的注册号。CAS注册号是数字标识符,最多由10个数字组成,用连字符分为三部分,其格式为:[0-9]{2-7}-[0-9]{2}-[0-9]。第一部分2到7位数字,第二部分的2位数字为顺序号,第三部分的1位数字为根据前两部分计算得到的校验数字,用于验证整个数字的有效性和唯一性。例如咖啡因(caffeine)的CAS Registry Number为58-08-2。1.2.7 SMILES、InChI和InChIKey   SMILES,全称Simplified Molecular Input Line System,根据某些规则将化学结构线性表示为字符串。常用C、N等字母表示原子,-、=等符号表示键,()表示分支。   InChI,全称International Chemical Identifier,由国际纯粹与应用化学联合会(International Union of Pure and Applied Chemistry,IUPAC)和美国国家标准与技术研究院(Nation Institute of Standards and Technology,NIST)合作开发,是一种用文本来描述化学结构的方法。   InChIKey由InChI衍生而来,也称为哈希InChI,是完整InChI字符串的压缩表示,由27个字符组成。1.2.8 ChEBI ID   ChEBI,全称Chemical Entities of Biological Interest,是一个专注于“小”化合物的分子实体数据库和本体论,分子实体(molecular entity)是指任何组成或同位素上不同的原子、分子、离子、离子对、自由基、自由基离子、络合物、构象异构体等,可作为单独可区分的实体。   ChEBI ID,即ChEBI Identifer,是化合物在ChEBI数据库的唯一标识符,如甘油三磷酸(triglyceride)的ChEBI ID是17855。   R语言进行ID转换   对于生信工作人员或者熟悉R语言的使用者来说,使用R包进行基因/蛋白质和代谢物的ID转换是首选。   2.1R语言进行基因ID转换2.1.1 AnnotationDbi包的mapIds函数   2.1.2 AnnotationDbi包的select函数   2.1.3 clusterProfiler包的bitr函数   2.1.4 biomaRt包的getBM函数   2.1.5 自己下载数据并通过R语言转换   访问NCBI的FTP下载数据,gene2accession、gene2ensembl、gene2go等几个文件的核心连接就是基因的Entrez ID,简单了解文件后,可以根据需求下载对应的文件进行基因ID转换或者基因的通路信息。需要注意的是,该方法包含的ID类型较少,适用于少数ID。   https://ftp.ncbi.nlm.nih.gov/gene/DATA/   注意:AnnotationDbi包和clusterProfiler包进行Ensembl ID/RefSeq ID的转换借助于org.Hs.eg.db注释包,限于版本,即这两个R包只能转换没有版本号的Ensembl ID/RefSeq ID。   2.2R语言进行代谢物ID转换2.2.1 CTSgetR包   CTSgetR包是The Chemical Translation Service (CTS) 网页工具的R接口,可以在化合物名称和200多个数据库标识符之间进行转换,包括InChIKey、HMDB、KEGG和PubChem。   2.2.2 解析hmdb_metabolites.xml文件   下载HMDB的hmdb_metabolites.xml文件,使用R语言或者python解析,化合物ID之间的对应关系。我个人比较熟悉R语言,故以R包XML解析hmdb_metabolites.xml为例。   XML包提供了解析xml数据的三个函数:xmlParse:读取速度较快,但难以确定所需素的位置;xmlToList:将xml格式转换为列表;xmlToDataFrame:将xml格式转换为数据框。   其中xmlToDataFrame函数是最为方便的,可以直接根据列名提取数据,即可获得HMDB记录的所有化合物ID对应关系。   注意:hmdb_metabolites.xml文件很大,不建议在个人电脑上运行。   好啦,今天的小讲堂先到这里啦~小伙伴们可以“启氪医学”   及时查看续篇推送哦
如何解析xml数据库_如何解析xml数据库文件
如何解析xml数据库_如何解析xml数据库文件

2024最新激活全家桶教程,稳定运行到2099年,请移步至置顶文章:https://sigusoft.com/99576.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。 文章由激活谷谷主-小谷整理,转载请注明出处:https://sigusoft.com/88531.html

(0)
上一篇 2024年 6月 22日 13:43
下一篇 2024年 6月 22日 13:51

相关推荐

关注微信