如何解析xml数据库_如何解析xml数据库文件

2024年 6月 22日下午1:47 • 激活谷笔记

如何解析xml数据库_如何解析xml数据库文件一文教你进行多种ID转换（上）在进行转录组、蛋白质组和代谢组的数据分析时，我们经常会遇到一个问题，那就是基因（蛋白质）和代谢物不同ID之间的转换。因为不同的数据库一般都有自己独特的检索编号，比如基因TP53，它的Gene Symbol为TP53，这是人类基因命名委员会（HUGO Gene No

一文教你进行多种ID转换（上）　　在进行转录组、蛋白质组和代谢组的数据分析时，我们经常会遇到一个问题，那就是基因（蛋白质）和代谢物不同ID之间的转换。因为不同的数据库一般都有自己独特的检索编号，比如基因TP53，它的Gene Symbol为TP53，这是人类基因命名委员会（HUGO Gene Nomenclature Committee，HGNC）提供的官方名称；它的Entrez ID为7157，这是美国国家生物技术信息中心（National Center for Biotechnology Information，NCBI）提供的编号，此外还有Uniprot ID等。这意味着同一个基因在不同的数据库中有不同的名称，在进行不同的分析时，我们可能需要在不同类型的ID之间进行转换。所以，本文汇总了多种ID转换方法分享给大家。　　ID名称背景知识　　在进行ID的转换前，我们先对各种常见的基因/蛋白质和代谢物ID名称进行一个简单的介绍。　　1.1常见基因/蛋白质ID名称1.1.1 Entrez ID 　　也称Entrez Gene ID或Gene ID，源于NCBI的基因特异性数据库Entrez Gene，分配的标识符是一个整数，并且是物种特定的编号。Entrez Gene ID唯一且稳定，是目前国际上最权威的Gene ID。1.1.2 HUGO Gene Symbol 　　也称Official Symbol或HGNC Symbol，是HGNC为基因提供的官方名称，是基因命名描述的缩写标识符（如TP53）。这些基因符号是唯一的。需要注意的是，HGNC只对人类基因命名，并不是所有基因都有Gene Symbol。1.1.3 Gene Name 　　也称Official Full Name，是经过HGNC批准的完整基因名称，对应于Gene Symbol。例如TP53对应的Gene Name为Tumor Protein P53。1.1.4 HGNC ID 　　是HGNC数据库分配的基因编号，每个标准的Gene Symbol都有对应的HGNC ID。例如TP53对应的HGNC ID为HGNC:11998。1.1.5 Ensembl ID 　　也称Ensembl Stable ID，是Ensembl数据库使用的基因ID标识符，格式为：[物种符号][分子特征][唯一的11位数字]，例如ENSG00000。Ensembl ID基本以ENS开头，后接表示物种的符号，人类直接以ENS表示，小鼠（Mus musculus）表示为ENSMUS，大鼠（Rattus norvegicus）表示为ENSRNO。对于分子特征，G表示基因（gene）、P表示蛋白质（protein）、T表示转录本（transcript）、E表示外显子（exon）等。此外，我们会经常在Ensembl ID的结尾看到小数，用来表示版本号（Version）。一般情况下，如果某个基因发生一些很小的变动，Ensembl Stable ID不变，Version部分发生变化。只有发生较大改变，Ensembl才会分配新的Ensembl Stable ID。1.1.6 Uniprot ID 　　Uniprot，全称Universal Protein，整合了EBI (European Bioinformatics Institute)、SIB (The Swiss Institute of Bioinformatics) 和PIR (Protein Information Resource) 三大数据库资源，是目前世界上使用最广泛的蛋白质数据库。其中UniprotKB收录蛋白质信息，由Swiss-Prot和TrEMBL两个子库构成。Swiss-Prot是高质量手工注释的非冗余数据集，提供了蛋白质功能、结构域、序列、翻译后修饰等注释信息。TrEMBL则是机器预测的未经校验的数据集。　　Uniprot ID，即Uniprot Accession Number，是UniprotKB给每个蛋白质条目分配的唯一稳定的标识符。Uniprot Accession Number通常由6或10个字母数字的组合构成，格式为：[OPQ][0-9][A-Z0-9]{3}[0-9]|[A-NR-Z][0-9]([A-Z][A-Z0-9]{2}[0-9]){1,2}，例如P12345、A0A023GPI8。1.1.7 RefSeq ID 　　NCBI参考序列数据库 (NCBI Reference Sequence Database，RefSeq) 是NCBI整合的全面、非冗余、注释良好的基因、蛋白质、转录本片段序列的数据库。　　RefSeq ID，即RefSeq Accesion Number，是RefSeq数据库的标识符，格式为：[两个字母的字母前缀][_][一系列数字][.][版本号]，例如NM_001744.6、NC_003619.1、NG_009904.1和NR_.1。1.1.8 OMIM ID 　　在线人类孟德尔遗传数据库（Online Mendelian Inheritance in Man，OMIM）是一个全面的、权威的、不断更新的人类基因和遗传病数据库，着重遗传变异和基因表型的关系，收录了所有已知的孟德尔病和16000多个基因的信息。　　OMIM收录的条目都有唯一的六位数编号，编号规则如下所示：　　1—–(-) 　　2—–(-) Autosomal loci or phenotypes (entries created before May 15, 1994) 　　3—–(-) X-linked loci or phenotypes 　　4—–(-) Y-linked loci or phenotypes 　　5—–(-) Mitochondrial loci or phenotypes 　　6—–(-) Autosomal loci or phenotypes (entries created after May 15, 1994) 　　等位基因变体由条目的MIM编号指定，后面跟着一个小数点和一个唯一的4位数变体编号。例如，因子IX基因（）中的等位基因变体编号为.0001至.0101。　　1.2常见代谢物ID名称1.2.1 Chemical Name 　　代谢物标准名称，如丙氨酸的标准名称为alanine。1.2.2 KEGG ID 　　KEGG ID是京都基因与基因组百科全书（Kyoto Encyclopedia of Genes and Genomes，KEGG）的KEGG标识符（KEGG Identifiler，KID）的一种，是给代谢物提供的编号，KEGG COMPOUND数据库收录了丰富的代谢物功能注释信息，尤其是代谢通路信息。代谢物的KEGG ID的格式为C[0-9]{5}，C表示Compound，后面的5位数字为顺序号，例如卵磷脂（Phosphatidylcholine）的KEGG ID是C00157。1.2.3 HMDB ID 　　人体代谢组数据库（The Human Metabolome Database，HMDB）是一个免费的电子数据库，包含人体中发现的小分子代谢产物的详细信息，包含个代谢物条目，包括水溶性和脂溶性代谢物。　　HMDB ID是HMDB的主要登录号，是HMDB给代谢物的编号，其格式做过一次调整，新版HMDB ID格式为：HMDB[0-9]{7}，即HMDB加7位数的顺序号。旧版HMDB ID格式为HMDB[0-9]{5}，即HMDB加5位数的顺序号。新版ID通过在旧版ID的HMDB和五位数顺序号之间添加00升级而成。例如脱氧胞苷（Deoxycytidine）的HMDB ID是HMDB0000014。1.2.4 Pubchem CID 　　PubChem是NCBI的子数据库，是世界上最大的可自由的化学信息集。目前收录了近一亿个化合物的全面信息。可以通过名称、分子式、结构和其他标识符检索化合物，查找化合物的物理特性、生物活性、安全性和毒性信息、专利、文献引用等。　　Pubchem CID，即PubChem Compound ID，是PubChem数据库的化合物登录号，由纯数字组成，例如D-葡萄糖（D-Glucose）的Pubchem CID是5793。1.2.5 CAS Registry Number 　　CAS注册号是某种化合物唯一且明确的标识符，是美国化学学会CAS注册数据库的注册号。CAS注册号是数字标识符，最多由10个数字组成，用连字符分为三部分，其格式为：[0-9]{2-7}-[0-9]{2}-[0-9]。第一部分2到7位数字，第二部分的2位数字为顺序号，第三部分的1位数字为根据前两部分计算得到的校验数字，用于验证整个数字的有效性和唯一性。例如咖啡因（caffeine）的CAS Registry Number为58-08-2。1.2.7 SMILES、InChI和InChIKey 　　SMILES，全称Simplified Molecular Input Line System，根据某些规则将化学结构线性表示为字符串。常用C、N等字母表示原子，-、=等符号表示键，（）表示分支。　　InChI，全称International Chemical Identifier，由国际纯粹与应用化学联合会（International Union of Pure and Applied Chemistry，IUPAC）和美国国家标准与技术研究院（Nation Institute of Standards and Technology，NIST）合作开发，是一种用文本来描述化学结构的方法。　　InChIKey由InChI衍生而来，也称为哈希InChI，是完整InChI字符串的压缩表示，由27个字符组成。1.2.8 ChEBI ID 　　ChEBI，全称Chemical Entities of Biological Interest，是一个专注于“小”化合物的分子实体数据库和本体论，分子实体（molecular entity）是指任何组成或同位素上不同的原子、分子、离子、离子对、自由基、自由基离子、络合物、构象异构体等，可作为单独可区分的实体。　　ChEBI ID，即ChEBI Identifer，是化合物在ChEBI数据库的唯一标识符，如甘油三磷酸（triglyceride）的ChEBI ID是17855。　　R语言进行ID转换　　对于生信工作人员或者熟悉R语言的使用者来说，使用R包进行基因/蛋白质和代谢物的ID转换是首选。　　2.1R语言进行基因ID转换2.1.1 AnnotationDbi包的mapIds函数　　2.1.2 AnnotationDbi包的select函数　　2.1.3 clusterProfiler包的bitr函数　　2.1.4 biomaRt包的getBM函数　　2.1.5 自己下载数据并通过R语言转换　　访问NCBI的FTP下载数据，gene2accession、gene2ensembl、gene2go等几个文件的核心连接就是基因的Entrez ID，简单了解文件后，可以根据需求下载对应的文件进行基因ID转换或者基因的通路信息。需要注意的是，该方法包含的ID类型较少，适用于少数ID。　　https://ftp.ncbi.nlm.nih.gov/gene/DATA/ 　　注意：AnnotationDbi包和clusterProfiler包进行Ensembl ID/RefSeq ID的转换借助于org.Hs.eg.db注释包，限于版本，即这两个R包只能转换没有版本号的Ensembl ID/RefSeq ID。　　2.2R语言进行代谢物ID转换2.2.1 CTSgetR包　　CTSgetR包是The Chemical Translation Service (CTS) 网页工具的R接口，可以在化合物名称和200多个数据库标识符之间进行转换，包括InChIKey、HMDB、KEGG和PubChem。　　2.2.2 解析hmdb_metabolites.xml文件　　下载HMDB的hmdb_metabolites.xml文件，使用R语言或者python解析，化合物ID之间的对应关系。我个人比较熟悉R语言，故以R包XML解析hmdb_metabolites.xml为例。　　XML包提供了解析xml数据的三个函数：xmlParse：读取速度较快，但难以确定所需素的位置；xmlToList：将xml格式转换为列表；xmlToDataFrame：将xml格式转换为数据框。　　其中xmlToDataFrame函数是最为方便的，可以直接根据列名提取数据，即可获得HMDB记录的所有化合物ID对应关系。　　注意：hmdb_metabolites.xml文件很大，不建议在个人电脑上运行。　　好啦，今天的小讲堂先到这里啦~小伙伴们可以“启氪医学” 　　及时查看续篇推送哦

定义指向数组的指针变量是_定义指向数组的指针变量是什么

上一篇 2024年 6月 22日下午1:43

两张照片相似度对比在线_两张照片相似度对比在线测试

下一篇 2024年 6月 22日下午1:51

激活谷笔记

Rider2024.1.3激活码(WebStorm 2024.1.3 最新激活码,激活成功教程版安装教程（亲测有效~）)

Rider2024.1.3激活码(WebStorm 2024.1.3 最新激活码,激活成功教程版安装教程（亲测有效~）)

2024年 7月 2日
激活谷笔记

余弦相似度怎么计算三维数组_余弦相似度怎么计算三维数组的值

余弦相似度怎么计算三维数组_余弦相似度怎么计算三维数组的值Scipy 学习第3篇：数字向量的距离计算计算两个数字向量u和v之间的距离函数1，欧氏距离（Euclidean distance）在数学中，欧几里得距离或欧几里得度量是欧几里得空间中两点间“普通”（即直线）距离。使用这个距离，欧氏空间成为度量空间。计算公式为二维空间中的欧氏

2024年 5月 29日
Datagrip激活2024.1.3(2024Navicat Premium激活码，Navicat Premium免费激活码，Navicat Premium最新激活码06-2更新)

Datagrip激活2024.1.3(2024Navicat Premium激活码，Navicat Premium免费激活码，Navicat Premium最新激活码06-2更新)

激活谷笔记 2024年 6月 11日
激活谷笔记

ubuntu和linux一样吗_Ubuntu系统和Linux系统

ubuntu和linux一样吗_Ubuntu系统和Linux系统【Linux操作系统】Linux和Ubuntu是什么关系？两者有区别吗？Linux和Ubuntu是什么关系？两者有区别吗？对于不了解Linux的朋友来说，可能会说“我使用的是Linux操作系统”。其实Linux这个词本身指标是Linux内核。一般说的Linux系统其实是基于Linux

2024年 5月 14日
激活谷笔记

Rider激活2024.1.2(CleanMyMac X 4.15.1 激活成功教程版包含完整激活码 2024)

Rider激活2024.1.2(CleanMyMac X 4.15.1 激活成功教程版包含完整激活码 2024)

2024年 6月 11日
Idea激活2023.2.6(IntelliJ IDEA 2023.2最新版激活方法及验证ja-netfilter配置是否成功)

Idea激活2023.2.6(IntelliJ IDEA 2023.2最新版激活方法及验证ja-netfilter配置是否成功)

激活谷笔记 2024年 6月 24日
激活谷笔记

PyCharm激活2023.3.6(2024最新pycharm激活教程!可激活至2099！)

PyCharm激活2023.3.6(2024最新pycharm激活教程!可激活至2099！)

2024年 6月 28日
node.js安装失败2908

node.js安装失败2908Nodejs是现代JavaScript语言产生革命性变化的一个主要框架，它使得JavaScript从一门浏览器语言成为可以在服务器端运行、开发各种各样应用的通用语言。在不同的平台下，Nodejs的安装和配置也各有不同。由于Nodejs版本更迭频繁的特点

激活谷笔记 2024年 5月 18日
spring的aop底层实现原理

spring的aop底层实现原理今日分享开始啦，请大家多多指教~spring aop使得我们的aop开发工作变得简单，这是众所周知的。今天我们一起揭秘spring aop底层原理及实现吧！AOP面向切面编程：主要是通过切面类来提高代码的复用，降低业务代码的耦合性，从而提高开发效率。主要的功能是：日志记录

激活谷笔记 2024年 5月 18日
Idea激活2024.1.4(IDEA 2024专业版创建web项目，servlet文件以及配置tomcat环境)

Idea激活2024.1.4(IDEA 2024专业版创建web项目，servlet文件以及配置tomcat环境)

激活谷笔记 2024年 6月 29日
IDEA激活2024.1.2(Idea2024.1正式发布, 快来看下有哪些新特性~(附激活方式))

IDEA激活2024.1.2(Idea2024.1正式发布, 快来看下有哪些新特性~(附激活方式))

激活谷笔记 2024年 6月 9日
idea注册码2021

idea注册码2021一、IntelliJ IDEA激活码IDEA正规账号：这里分享账号：YetoL密码传送门：https://wp.hellocode.name/?page_id=1349怕账号用的人多的可以使用激活码ID

激活谷笔记 2024年 5月 18日

如何解析xml数据库_如何解析xml数据库文件

相关推荐