【XML】《XML 实用教程》笔记

本贴最后更新于 2933 天前,其中的信息可能已经水流花落

XML 是 eXtensible Markup Language 的缩写,称之为可扩展标记语言。

符合 W3C 制定的基本语法规则的 XML 文件称为规范的 XML 文件,规范的 XML 文件如果再符合额外的一些约束就称之为有效的 XML 文件。

一个规范的 XML 文件应当满足如下语法规则:

  • XML 文件用“XML 声明”开始。
  • XML 文件有且仅有一个根标记
  • XML 的非根标记都必须封装在根标记中。
  • 非空标记必须由“开始标记”与“结束标记”构成。
  • XML 文件的标记必须形成树形结构,即标记不允许出现交叉。
  • 空标记没有“开始标记”和“结束标记”

XML 声明

一个规范的 XML 文件应当以 XML 声明作为文件的第 1 行,在其前面不能有空白、其他处理指令或注释。如:

还可以添加属性:standalone,指为 yes 或 no,表明 XML 文件是否是完全自包含的,即是否引用了外部“实体”。

标记

一个标记包含的内容由两部分构成:文本数据部分和子标记部分。一个标记包含的文本数据部分可以有普通字符、CDATA 段和实体引用。
根标记:每个 XML 文件有且仅有一个根标记,其他标记都必须封装在根标记中。
空标记:即不包含子标记或文本内容的标记,如:
非空标记:...
标记命名规则:可以由字母、数字、下划线、点或连字符组成,但必须以字母或下划线开头。标记名称区分大小写。

属性

属性指标记的附加信息,命名规则与标记相同,且区分大小写。属性不体现数据结构,不要因属性的频繁使用破坏 XML 的数据结构。

特殊字符

&lt;  <
&gt;  >
&apos;  '
&quot;  "
&amp;   &

CDATA 段
CDATA 段中的内容可以包含任意的字符。但 CDATA 段不能相互嵌套,如:

<![CDATA[
boolean boo=true&&false
<三国演义>
]]>

注释

<!--与HTML文件相同—>

注释不可以在 XML 声明的前面。

名称空间

XML 允许自定义标记,那么不同的 XML 文件以及同一 XML 文件就可能出现名字相同的标记。想要区分这些标记,就需要使用名称空间。
有前缀的名称空间语法如下:
xmlns:前缀=名称空间的名字,如 xmlns:person="China.dalian"
无前缀的名称空间语法如下:
xmlns=名称空间的名字,如 xmlns=www.yahoo.com
名称空间的名字决定了相互之间的区分,前缀只是为了方便标记引用。
名称空间的作用域是声明该命名空间的标记及其所有子孙标记。尽管子标记可以通过名称空间的前缀来引用父标记声明名称空间,表明自己隶属于该名称空间,但子标记也可以重新声明名称空间,如:

<?xml version="1.0" encoding="UTF-8" ?>
<people xmlns="public.of.china">
 <p1:Lisi xmlnsp1="Liaoning">
  在建筑公司担任工程师
  <usa:Lichuguo xmlns:usa="American">
   在美国学医英语
  </usa:Lichuguo>
 </p1:Lisi>
 <Zhangsan xmlns="Shanghai">
  在上海中心医院医师
  <Zhangchuguo xmlns="France">
   在法国学习法语
  </Zhangchuguo>
 </Zhangsan>
</people>

名称空间的名字

W3C 推荐使用统一资源标识符(Uniform Resource Identifier, URI)作为名称空间的名字。在 XML 中,URI 不必是有效的,仅仅用作名称空间的名字,往往使用 URL 作为 URI。

有效的 XML 文件

规范的 XML 表示合乎 XML 文件语法,有效的 XML 文件表示组织符合需要的逻辑。
对 XML 的数据结构进行约束的方式有两种:使用文档类型定义(Document Type Definition,DTD)和 XML Schema 模式。
一个规范的 XML 文件如果和某个 DTD 文件相关联,并且遵守该 DTD 文件规定的约束条件,就称之为有效的 XML 文件。

DTD 文件

在 DTD 文件中,用关键字 ELEMENT 来定义一个元素,格式如下:

DTD 文件的扩展名必须是“.dtd”,保存时所选择的编码必须与其关联的 XML 文件一致。

<!ELEMENT 手机用户表 (用户*)>
<!ELEMENT 用户 (号码,姓名)>
<!ELEMENT 号码 (#PCDATA)>
<!ELEMENT 姓名 (#PCDATA)>

在 XML 文件中使用“文档类型声明”与一个 DTD 文件相关联。有两种形式的关联:SYSTEM 和 PUBLIC,SYSTEM 关联表明所关联的 DTD 文件由个人或工作小组所定义且认可,PUBLIC 关联表明所关联的 DTD 文件已经得到某一领域的认可,是经过许多人讨论得到认可的 DTD 文件:

<!DOCTYPE 根标记名称 SYSTEM "DTD文件的URI">
<!DOCTYPE 根标记名称 PUBLIC "正式公用标识符" "DTD文件的URI">

URI 如果是一个文件的名字,该文件必须和当前 XML 文件在同一目录中;如果 URI 是一个 URL,该 URL 必须是可以访问的。
DTD 文档类型声明应该写在 XML 声明的后面。

约束标记的子标记

标记的约束条件是用小括号括起来的子标记列表,子标记列表可以约束 XML 文件中的标记可以包含哪些子标记以及这些子标记出现的先后顺序。
子标记列表中的每个子标记可以尾加模式限定符来限定该子标记出现的次数,不加限定符的子标记必须出现且只能出现一次。限定符有一下三种:

  • +:必须出现一次或多次
  • *:可以出现零次或多次
  • ?:可以出现零次或一次

子标记列表的分项也可以是几个标记的“或运算”,并用括号括起来,如:
约束(#PCDATA)表示文本数据,可以单独使用,也可以与子标记或运算使用,但与子标记或运算时,限定符必须为*
约束 EMPTY 表示标记是一个空标记,或者只能包含有空字符的非空标记。
约束 ANY 表示不准备对该标记有任何约束

DTD 的完整性
即满足以下两个条件:

  1. 不允许无穷嵌套
  2. XML 文件中的每个标记都必须在 DTD 中有相应元素对其进行约束

DTD 中的属性约束列表

格式如下:

<!ATTLIST 标记名称
   属性名称 属性类型 默认值
   属性名称 属性类型 默认值
   ......
>

其中,默认值有如下几种情况:

  • 字符串:标记必须有该属性,且有默认值
  • #IMPLIED:标记可以没有该属性,没有默认值
  • #REQUIRED:标记必须有该属性,没有默认值
  • #FIXED:标记可以没有改属性,但是如果有该属性,那么属性指固定不变

常用属性类型如下:

  • CDATA:属性值可以为任意字符串,但不能包含左右尖括号、与符号、单双引号。如果想用这些字符,可以使用实体引用。
  • Enumerated:属性值只可以使枚举值,其并非关键字,而是用小括号括起来,使用竖线分隔的枚举值组。
  • NMTOKEN:属性值可以由字母、数字、下划线、点或连字符组成,属性值中不能含有空格,可以用数字、点或连字符开头。
  • NMTOKENS:即用空格分隔的多个 NMTOKEN 值
  • ID:如果希望某个属性的属性值具有专用性,即不允许其他类型相同的属性再取这个属性值,就可以将属性的类型取为 ID 类型。可以由字母、数字、下划线、点或连字符组成,但必须以字母或下划线开头。其默认值必须为#REQUIRED 或#IMPLIED。
  • IDREF:属性值为已有的某个 ID 类型的属性的值
  • IDREFS:属性值为若干个其他 ID 类型的属性值的组合,可以用空格分隔。

内部 DTD

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE 列车时刻表 [
 <!ELEMENT 列车时刻表 (T28次,T226次)>
 <!ELEMENT T28次 (开车时间,终到时间)>
 <!ELEMENT T266次 (开车时间,终到时间)>
 <!ELEMENT 开车时间 (hour,minute)>
 <!ELEMENT 终到时间 (hour,minute)>
 <!ELEMENT hour (#PCDATA)>
 <!ELEMENT minute (#PCDATA)>
]>
<列车时刻表>
 <T28次>
  <开车时间>
   <hour>21点</hour>
   <minute>12分</minute>
  </开车时间>
  <终到时间>
   <hour>23点</hour>
   <minute>25分</minute>
  </终到时间>
 </T28次>
 <T226次>
  <开车时间>
   <hour>08点</hour>
   <minute>45分</minute>
  </开车时间>
  <终到时间>
  <hour>19点</hour>
  <minute>36分</minute>
  </终到时间>
 </T28次>
</列车时刻表>

DTD 调试

IGNORE:忽略某些约束条件
<![ IGNORE [
DTD中的某些约束条件
]]>
INCLUDE:包含某些约束条件
<![INCLUDE [
DTD中的某些约束条件
]]>

DTD 与命名空间

如果有效的 XML 文件中的标记想定义名称空间,那么必须保证 DTD 中有相应的约束。格式如下:

如:

<!ATTLIST ya:张三 xmlns:ya CDATA #FIXED "www.yahoo.com">

名称空间的目的是有效的区分名字相同的标记,否则不允许对一个标记约束两次。

XML 关联 CSS

<?xml-stylesheet href="样式表的URI" type="text/css" ?>
  • XML
    28 引用 • 59 回帖
  • 教程
    143 引用 • 602 回帖 • 8 关注
  • 阅读
    85 引用 • 242 回帖 • 4 关注

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • ZephyrJung

    我好像搞出来了两篇一样的。。
    事情的经过是这样的:我编辑完后发现有问题,于是更新,但是不小心点了个取消发布,然后草稿箱里出现了两条一样的
    我点进去了其中一个进行编辑发布,另一个还在草稿箱里。然而我同步到黑客派上的文章却并没有更新,似乎是和草稿箱的保持一致了
    于是我删除了草稿箱的那篇,并点进黑客派的这篇,编辑了一下,与 blog 上的一致
    结果就出现了两篇
    @88250

    1 回复
  • 其他回帖
  • 88250

    收到,这估计是个很深的坑,多谢反馈,等有空我会尽力修复的。

ZephyrJung
一切有为法,如梦幻泡影,如露亦如电,应作如是观 北京

推荐标签 标签

  • SEO

    发布对别人有帮助的原创内容是最好的 SEO 方式。

    35 引用 • 200 回帖 • 22 关注
  • 招聘

    哪里都缺人,哪里都不缺人。

    190 引用 • 1057 回帖
  • ReactiveX

    ReactiveX 是一个专注于异步编程与控制可观察数据(或者事件)流的 API。它组合了观察者模式,迭代器模式和函数式编程的优秀思想。

    1 引用 • 2 回帖 • 155 关注
  • API

    应用程序编程接口(Application Programming Interface)是一些预先定义的函数,目的是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能力,而又无需访问源码,或理解内部工作机制的细节。

    77 引用 • 430 回帖 • 1 关注
  • 服务

    提供一个服务绝不仅仅是简单的把硬件和软件累加在一起,它包括了服务的可靠性、服务的标准化、以及对服务的监控、维护、技术支持等。

    41 引用 • 24 回帖 • 1 关注
  • TensorFlow

    TensorFlow 是一个采用数据流图(data flow graphs),用于数值计算的开源软件库。节点(Nodes)在图中表示数学操作,图中的线(edges)则表示在节点间相互联系的多维数据数组,即张量(tensor)。

    20 引用 • 19 回帖
  • 酷鸟浏览器

    安全 · 稳定 · 快速
    为跨境从业人员提供专业的跨境浏览器

    3 引用 • 59 回帖 • 25 关注
  • NGINX

    NGINX 是一个高性能的 HTTP 和反向代理服务器,也是一个 IMAP/POP3/SMTP 代理服务器。 NGINX 是由 Igor Sysoev 为俄罗斯访问量第二的 Rambler.ru 站点开发的,第一个公开版本 0.1.0 发布于 2004 年 10 月 4 日。

    311 引用 • 546 回帖
  • Facebook

    Facebook 是一个联系朋友的社交工具。大家可以通过它和朋友、同事、同学以及周围的人保持互动交流,分享无限上传的图片,发布链接和视频,更可以增进对朋友的了解。

    4 引用 • 15 回帖 • 453 关注
  • PWA

    PWA(Progressive Web App)是 Google 在 2015 年提出、2016 年 6 月开始推广的项目。它结合了一系列现代 Web 技术,在网页应用中实现和原生应用相近的用户体验。

    14 引用 • 69 回帖 • 155 关注
  • 强迫症

    强迫症(OCD)属于焦虑障碍的一种类型,是一组以强迫思维和强迫行为为主要临床表现的神经精神疾病,其特点为有意识的强迫和反强迫并存,一些毫无意义、甚至违背自己意愿的想法或冲动反反复复侵入患者的日常生活。

    15 引用 • 161 回帖
  • Flutter

    Flutter 是谷歌的移动 UI 框架,可以快速在 iOS 和 Android 上构建高质量的原生用户界面。 Flutter 可以与现有的代码一起工作,它正在被越来越多的开发者和组织使用,并且 Flutter 是完全免费、开源的。

    39 引用 • 92 回帖
  • App

    App(应用程序,Application 的缩写)一般指手机软件。

    91 引用 • 384 回帖 • 1 关注
  • V2EX

    V2EX 是创意工作者们的社区。这里目前汇聚了超过 400,000 名主要来自互联网行业、游戏行业和媒体行业的创意工作者。V2EX 希望能够成为创意工作者们的生活和事业的一部分。

    17 引用 • 236 回帖 • 328 关注
  • Chrome

    Chrome 又称 Google 浏览器,是一个由谷歌公司开发的网页浏览器。该浏览器是基于其他开源软件所编写,包括 WebKit,目标是提升稳定性、速度和安全性,并创造出简单且有效率的使用者界面。

    62 引用 • 289 回帖
  • 星云链

    星云链是一个开源公链,业内简单的将其称为区块链上的谷歌。其实它不仅仅是区块链搜索引擎,一个公链的所有功能,它基本都有,比如你可以用它来开发部署你的去中心化的 APP,你可以在上面编写智能合约,发送交易等等。3 分钟快速接入星云链 (NAS) 测试网

    3 引用 • 16 回帖 • 1 关注
  • Wide

    Wide 是一款基于 Web 的 Go 语言 IDE。通过浏览器就可以进行 Go 开发,并有代码自动完成、查看表达式、编译反馈、Lint、实时结果输出等功能。

    欢迎访问我们运维的实例: https://wide.b3log.org

    30 引用 • 218 回帖 • 629 关注
  • ActiveMQ

    ActiveMQ 是 Apache 旗下的一款开源消息总线系统,它完整实现了 JMS 规范,是一个企业级的消息中间件。

    19 引用 • 13 回帖 • 672 关注
  • 脑图

    脑图又叫思维导图,是表达发散性思维的有效图形思维工具 ,它简单却又很有效,是一种实用性的思维工具。

    26 引用 • 84 回帖 • 2 关注
  • Netty

    Netty 是一个基于 NIO 的客户端-服务器编程框架,使用 Netty 可以让你快速、简单地开发出一个可维护、高性能的网络应用,例如实现了某种协议的客户、服务端应用。

    49 引用 • 33 回帖 • 21 关注
  • 友情链接

    确认过眼神后的灵魂连接,站在链在!

    24 引用 • 373 回帖
  • Mobi.css

    Mobi.css is a lightweight, flexible CSS framework that focus on mobile.

    1 引用 • 6 回帖 • 733 关注
  • DNSPod

    DNSPod 建立于 2006 年 3 月份,是一款免费智能 DNS 产品。 DNSPod 可以为同时有电信、网通、教育网服务器的网站提供智能的解析,让电信用户访问电信的服务器,网通的用户访问网通的服务器,教育网的用户访问教育网的服务器,达到互联互通的效果。

    6 引用 • 26 回帖 • 510 关注
  • 反馈

    Communication channel for makers and users.

    123 引用 • 911 回帖 • 245 关注
  • PHP

    PHP(Hypertext Preprocessor)是一种开源脚本语言。语法吸收了 C 语言、 Java 和 Perl 的特点,主要适用于 Web 开发领域,据说是世界上最好的编程语言。

    179 引用 • 407 回帖 • 488 关注
  • OkHttp

    OkHttp 是一款 HTTP & HTTP/2 客户端库,专为 Android 和 Java 应用打造。

    16 引用 • 6 回帖 • 62 关注
  • Sublime

    Sublime Text 是一款可以用来写代码、写文章的文本编辑器。支持代码高亮、自动完成,还支持通过插件进行扩展。

    10 引用 • 5 回帖