如何解析xml_如何修改xml文件内容

如何解析xml_如何修改xml文件内容TCGA xml文件临床信息整合(1)生存分析数据整合前言从TCGA中下载的XML数据中可以提取的信息很多,除了基本的性别、年龄、生存时间等基础的信息,还包括手术信息,放、化疗信息,甚至还包括放疗的剂量等,但是很多数据

TCGA xml文件临床信息整合(1)生存分析数据整合   前言   从TCGA中下载的XML数据中可以提取的信息很多,除了基本的性别、年龄、生存时间等基础的信息,还包括手术信息,放、化疗信息,甚至还包括放疗的剂量等,但是很多数据都不完整,或者存在更新的情况,(TCGA的临床数据中包含初次诊断的信息以及随访信息),提取太多信息会存在很多缺失值。   使用R包 TCGAcm,可以一键提取整合最新的临床信息,简单快捷整合总生存率和无进展生存期的数据,直接开始生存分析。   TCGA临床数据XML文件介绍   我们从TCGA下载的临床数据
如何解析xml_如何修改xml文件内容
如何解析xml_如何修改xml文件内容   TCGA中包含丰富的病人临床资料信息,从TCGA中下载的原始数据的样子
如何解析xml_如何修改xml文件内容
如何解析xml_如何修改xml文件内容   里面每个文件夹都是一个病人的信息,病人的信息都整合在这个XML文件中XML 文件与HTML非常类似,不一样的是,XML 被设计用来传输和存储数据,其焦点是数据的内容。
如何解析xml_如何修改xml文件内容
如何解析xml_如何修改xml文件内容   这个是总生存率分析用到的数据,从病人收入到死亡的事件(days_to_death), 从病人收入到最后的随访时间(days_to_last_followup)
如何解析xml_如何修改xml文件内容
如何解析xml_如何修改xml文件内容   这个是无进展生存率分析用到的数据,是否有新的肿瘤事件(new_tumor_event_after_initial_treatment), 从收入病人到新的肿瘤事件发生的时间days_to_new_tumor_event_after_initial_treatment, 从病人收入到最后的随访时间days_tumor_free_till_last_followup
如何解析xml_如何修改xml文件内容
如何解析xml_如何修改xml文件内容   这里的信息整理出来就够了吗?我们又发现在follow_up的标签里面有两次更新的随访记录
如何解析xml_如何修改xml文件内容
如何解析xml_如何修改xml文件内容   而每次的随访记录中又包含了更新的随访信息,最新的随访时间和病人是否死亡的信息
如何解析xml_如何修改xml文件内容
如何解析xml_如何修改xml文件内容   下面我们从里面整理出我们需要的临床信息用来做生存分析   生存分析介绍   首先我们需要知道生存分析用到的数据,其实生存分析需要的数据,就两个每个病人的生存情况,终点事件的发生或者未发生,最常见的就是死亡,入院,肿瘤复发等到终点事件的时间;可包含删失,就是还没死   这个就是我们需要拿到的数据
如何解析xml_如何修改xml文件内容
如何解析xml_如何修改xml文件内容   在肿瘤研究中,最常用的两个终点时间是,总生存率和无进展生存期,这里介绍的方法,不仅能拿到总生存率,还有无进展生存期的数据,而且还是最新的随访记录的数据。   R包 TCGAcm 介绍   首先从github上安装TCGAcmR包   首先先所有文件的路径和文件名,使用list.files来所有XML文件的文件名,注意工作目录要在XML所在的文件夹里;   使用TCGAcm中vitalParse()函数,此函数可以解析来自TCGA XML文件的TCGA临床数据,包括旧的生存数据和最新随访生存数据。下面我们从里面整理出我们需要的临床信息用来做生存分析;   vital_data的结果如下bcr_patient_barcodetumor_tissue_sitevital_statusdays_to_deathdays_to_last_followupnew_tumor_event_after_initial_treatmentdays_to_new_tumor_event_after_initial_treatmentdays_tumor_free_till_last_followupTCGA-A2-A3XYBreastAlive786YES1072NATCGA-A6-A56BColonAlive1595YES1678NATCGA-A8-A091BreastAlive580YES243NATCGA-A8-A09CBreastAlive31NANANATCGA-A8-A09IBreastAlive1371NONA1371   这里包含TCGA病人样本的关键信息和总生存率、无进展生存期分析要用到的数据,包括:bcr_patient_barcode, tumor_tissue_site, vital_status, days_to_death, days_to_last_followup, new_tumor_event_after_initial_treatment, days_to_new_tumor_event_after_initial_treatment, days_tumor_free_till_last_followup   下次教程介绍TCGAcm的其他功能。   欢迎,分享更多肿瘤,单细胞测序和文献分享的内容
如何解析xml_如何修改xml文件内容
如何解析xml_如何修改xml文件内容

2024最新激活全家桶教程,稳定运行到2099年,请移步至置顶文章:https://sigusoft.com/99576.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请联系我们举报,一经查实,本站将立刻删除。 文章由激活谷谷主-小谷整理,转载请注明出处:https://sigusoft.com/22330.html

(0)
上一篇 2024年 9月 14日
下一篇 2024年 9月 14日

相关推荐

关注微信