xml解析的三种方式_什么是XML

XML格式以及相关libxml库学习　　本文参考 XML文件格式语法以及DTD，摘除其中自己认为必要的知识点，在此记录如下。　　　　先给出一个xml的实例文件，　　<?xml version=”1.0″ encoding=”utf-8″?> <gadget> <name>日历</name> <namespace> <!–_locComment_text=”{Locked}”–>microsoft.windows </namespace> <version> <!–_locComment_text=”{Locked}”–>1.1.0.0 </version> <author name=”Microsoft Corporation”> <info url=”http://go.microsoft.com/fwlink/?LinkId=124093″ text=”www.gallery.microsoft.com”/> <logo src=”https://www.cnblogs.com/cherishui/p/logo.png”/> </author> <copyright><!–_locComment_text=”{Locked}”–>© 2009</copyright> <description>浏览日历中的日期。</description> <icons> <icon height=”48″ width=”48″ src=”https://www.cnblogs.com/cherishui/p/icon.png”/> </icons> <hosts> <host name=”sidebar”> <autoscaleDPI><!–_locComment_text=”{Locked}”–>true</autoscaleDPI> <base type=”HTML” apiVersion=”1.0.0″ src=”https://www.cnblogs.com/cherishui/p/calendar.html”/> <permissions> <!–_locComment_text=”{Locked}”–>Full </permissions> <platform minPlatformVersion=”1.0″/> <defaultImage src=”https://www.cnblogs.com/cherishui/p/drag.png”/> </host> </hosts> </gadget> 　　XML是一个文本文件，整个内容可以分为两个部分，分别为位于第一行的文件序言（Prolog）和文件主体。　　文件序言是一个XML文件必须要声明的东西，它主要是告诉XML解析器如何工作，其中，version表示该xml文件所使用标准的版本号，encoding表示该xml文件中所使用的字符类型。　　文件主体是xml文件中，除了文件序言剩下的部分，以上文为例子，它由开始的 <gadget>和结束的</gadget> 控制标记组成，它为XML的根素；name为根素下面的“子素”,在子素<author>中，name为素的属性，后面的名字为素的属性值。　　<!– 注释内容 –> 这一句为XML中的注释格式。　　XML解析器　　XML解析器首先根据XML编写规范来检查将要打开的XML文件中，是否有结构上的错误，然后剥离XML文件中的标记，读出正确的内容，交给后续程序处理。　　XML的设计者严格规定了两种XML的语法和结构，一种是 Well-Formed XML 文件，另一种是 Validating XML 文件。XML必须是Well-Formed的，只有满足这个条件，才能被解析器正确的解析出来，显示在浏览器中。以下是Well-Formed的编写准则：　　1. XML文件的第一行必须是声明该文件是XML文件以及它所使用的XML规范版本。　　2. XML文件中，有且只能有一个根素　　3. XML文件中，标记必须正确的关闭，有<A>,就必定对于的关闭标签 </A>。特殊的空素写法<空素名 [属性=“属性值”]/> 　　4. XML文件中，标记之间不得交叉，属性值必须用英文的””括起来，控制标记、指令和属性名称等英文区分大小写。　　5. 要想原封不动的显示输入的内容，XML中需要以CDATA来予以特殊标记，以<! [CDATA[开始标记，以>>为结束标记。　　6. XML文件中，所有标记以外的空白，解析器都要忠实地交给后续应用程序来处理。　　上述就是符合Well-Formed标准的XML文件，这是编写XML文件最基本的要求。XML文件是用来传输数据的，在文件中，除了数据内容之外，还有数据的素名称，而这些素名称是用户自定义的，这就为后续的沟通带来了问题。设想一下，A公司使用<价格>来表示，B公司使用<售价>来表示，那么他们之间的xml文件沟通，虽然都可以解析出数字来，但是所理解的意思会不同，XML的制定者约定了一个规范，编写XML文件可以用哪些标记，母素中能够包含哪些子素，各个素出现的顺序，素中的属性怎样定义等。这种约定双方的规范叫做DTD(Document Type Definiton ,文档格式定义)。可以认为DTD是编写XML的模板，照着这个模板来写，双方就能正确沟通。　　如果一个XML文件时Well-Formed的，并且它是正确的依据某个DTD来建立的，那么它称之为：Validating XML文件。　　DTD有两种使用方式，在XML文件中直接设定的内部DTD文件，由XML文件中调用的外部DTD文件。　　内部DTD是在XML文件中的文件序言区域中定义的，语法：　　<! DOCTYPE element-name[ …… ]> 　　<! DOCTYPE    ：表示开始设定DTD 　　element-name : 指定此DTD的根素名称，如果XML文件使用了DTD，那么文件中的根素在此指定。　　[….]>             : 在[]标记里面定义了XML文件使用的素，以>结束DTD的定义。　　　　外部DTD是一个独立于XML文件的文件，以dtd作为文件扩展名，它可以供多个XML文件使用。下面给出一个外部DTD的例子。　　〈?xml version=”1.0″ encoding=”GB2312″ ?〉　　     〈!ELEMENT 参考资料 (书籍*)〉　　     〈!ELEMENT 书籍 (名称,作者,价格)〉　　     〈!ELEMENT 名称 (#PCDATA)〉　　     〈!ELEMENT 作者 (#PCDATA)〉　　     〈!ELEMENT 价格 (#PCDATA)〉　　     〈!ATTLIST 价格货币单位 CDATA #REQUIRED〉　　XML文件中，使用 <!DOCTYPE element-name SYSTEM DT-URL >来引用创建好的外部DTD文件。　　　　XML解析库　　要真正在项目中使用XML，来需要自己来编写XML解析器，为了简单起见，现从学习libxml2入手，快速上手xml解析任务。这一章中，要解决的问题是解析一个xml配置文件，并将对于的内容输出到结构体中去。　　这部分内容参考了网上其他人的学习经历，点此进入。　　Linux下，Gnome项目提供xml的C解析器，叫做libxml2解析库，能简单方便的提供对XML文件的各种操作，并且支持XPATH查询，以及部分XSLT转换等功能。安装方法有下载源码自己编译安装或者使用apt工具来安装，建议使用后者。　　安装方法： apt-get install libxml2 　　              apt-get install libxm2-dev 　　　　安装完后，在/usr/bin里面，提供了三个与xml相关的可执行文件　　
　　xml2-config 提供了安装后的一些xml配置信息，后续编译时，需要相关信息。　　xmlcatalog   不知道它用来干嘛的　　xmllint         可以用来解析xml文件，并且输出解析后的结果。　　libxml2里面提供了帮助编译的工具，查找xml2-config ，输出cflags和libs的配置信息　　
　　上述两个路径，需要在编译时添加到命令行中去。　　编译时，产生如下的错误：　　
　　原因是没有链接库，或者链接库没有更新。添加了各种-l和-L，都不行。　　　　正常的编译选项：　　gcc test.c -o test -I/usr/include/libxml2/ -lxml2 -L/usr/lib/i386-linux-gnu/ 　　超级大坑：gcc编译过程中，上述正常的编译就可以通过，改变一下位置，将test.c o test 放在后面，编译就失败。
　　　　最后的执行结果如下：https://www.cnblogs.com/cherishui/p/test abc, 其中，abc的内容如下：　　
　　这是最后生成的xml文件。　　　　解析XML文件，晚上再添加。　　　　　　　　学习了解xml库，刚开始，只需要了解它最常用的几个函数和数据结构类型。下面就实例程序中提供的来一一介绍：　　1. 内部字符类型 xmlChar 　　    libxml2库中所有字符和字符串都是基于此字符类型　　    原型定义为 typedef unsigned char xmlChar 　　    它能够很好适应UTF-8编码，UTF-8编码是libxml2的内部编码，其他格式的编码必须先转换为UTF-8编码才能使用libxml2。　　2. xmlChar* 和其他类型之间的转换　　    为了便于在xmlChar* 和 char* 之间进行类型转换，定义了一个BAD_CAST宏　　    原型如下： #define BAD_CAST (xmlChar *) 　　3. 文件类型数据结构 xmlDoc，文件类型数据结构对于的指针 xmlDocPtr 　　     xmlDoc保存了一个xml文件的基本信息，包括文件名、文件类型、子节点等等。　　     xmlDocPtr等于 xmlDoc* 　　　　     xmlNewDoc 函数用来创建一个新的文件指针　　　　     xmlParseFile 函数以默认方式读入一个UTF-8格式的文件，并返回文件指针　　　　     xmlFreeDoc 函数释放文件指针。注意，当调用此函数时，该文件所包含的节点内存都被释放，所以一般来说，不必手动调用xmlFreeNode后者xmlFreeNodeList来释放动态分配的节点内存，除非你把该节点从文件中移除。　　      一般来说，一个文件中的所有节点都应该是动态分配的，然后加入文件，最后调用xmlFreeDoc一次性释放所有节点申请的动态内存。　　      xmlSaveFile 将文件以默认方式存入一个文件　　      4. 节点类型 xmlNode ，节点类型对于的指针 xmlNodePtr 　　         一个xmlNode代表XML文件中的一个节点，具体实现为一个struct，　　          xml文件操作的原理，就是在节点之间移动、查询节点的各项信息，并进行增加、删除、修改等操作。　　       5. 节点集合类型 xmlNodeSet，及其对应指针 xmlNodeSetPtr 　　          节点集合代表一个由节点组成的变量，节点集合只作为Xpath的查询结果而出现。　　　　　　      　　　　　　　　　　实例XML文件内容如下：　　<?xml version=”1.0″ encoding=”UTF-8″?> <!– edited with XMLSpy v2011 rel. 2 (http://www.altova.com) by dancelj (em) –> <conf xmlns:xsi=”http://www.w3.org/2001/XMLSchema-instance” xsi:noNamespaceSchemaLocation=”conf.xsd”> <service> <name>service_1</name> <monitor_interface>eth0</monitor_interface> <exprobe_ip>192.168.8.201</exprobe_ip> <update_period>5</update_period> <sample_number>10</sample_number> <media_servers> <ip>10.0.0.1</ip> <ip>10.0.0.2</ip> <ip>10.0.0.3</ip> </media_servers> </service> <service> <name>service_2</name> <monitor_interface>eth1</monitor_interface> <exprobe_ip>192.168.8.202</exprobe_ip> <update_period>5</update_period> <sample_number>10</sample_number> <media_servers> <ip>10.1.0.1</ip> <ip>10.1.0.2</ip> </media_servers> </service> </conf> 　　先来分析以下这个xml文件，里面介绍了两个服务，每个服务都有服务名称(name)，监控端口(mif)，浏览ip(expip)，更新周期(update_period)，采样数目(sample_number)和三个媒体服务器地址,考虑到媒体服务器地址后续可能还会增加，此处采用链表形式来存储，便于后期扩展。每个服务属性也采用链表的连接起来。　　　　　　　　　　　　　　　　　　Editplus快捷键：　　选择当前的单词 Ctrl+W 　　选择当前行      Ctrl+R 　　新建浏览器窗口 Ctrl+Shift+B 　　新建普通文本   Ctrl+N 　　开启代码折叠    Ctrl+Shift+F 　　查找下一个匹配的文本 F3 　　查找上一个匹配的文本 Shift+F3 　　转到文档中指定行     Ctrl+G 　　　　ftp服务这边，主动和被动，都是针对server这端来说的。　　主动连接：客户端先告诉服务器的21号端口，我这里可以连接啦。然后服务器的20端口主动的去连接客户端的端口。　　被动模式：客户端告诉服务器21号宽口可以连接啦，然后，服务器的21端口sigusoft客户端说“我的XX端口可用，你连接过来吧”，于是客户端主动发起连接，服务器端被动接受连接，这种模式下，服务器的XX端口不再是主动模式下的20端口，而是大于1024的某个端口。

xml解析的三种方式_什么是XML

相关推荐