【XML】《XML 实用教程》笔记

本贴最后更新于 3105 天前,其中的信息可能已经时异事殊

XML 是 eXtensible Markup Language 的缩写,称之为可扩展标记语言。

符合 W3C 制定的基本语法规则的 XML 文件称为规范的 XML 文件,规范的 XML 文件如果再符合额外的一些约束就称之为有效的 XML 文件。

一个规范的 XML 文件应当满足如下语法规则:

  • XML 文件用“XML 声明”开始。
  • XML 文件有且仅有一个根标记
  • XML 的非根标记都必须封装在根标记中。
  • 非空标记必须由“开始标记”与“结束标记”构成。
  • XML 文件的标记必须形成树形结构,即标记不允许出现交叉。
  • 空标记没有“开始标记”和“结束标记”

XML 声明

一个规范的 XML 文件应当以 XML 声明作为文件的第 1 行,在其前面不能有空白、其他处理指令或注释。如:

还可以添加属性:standalone,指为 yes 或 no,表明 XML 文件是否是完全自包含的,即是否引用了外部“实体”。

标记

一个标记包含的内容由两部分构成:文本数据部分和子标记部分。一个标记包含的文本数据部分可以有普通字符、CDATA 段和实体引用。
根标记:每个 XML 文件有且仅有一个根标记,其他标记都必须封装在根标记中。
空标记:即不包含子标记或文本内容的标记,如:
非空标记:...
标记命名规则:可以由字母、数字、下划线、点或连字符组成,但必须以字母或下划线开头。标记名称区分大小写。

属性

属性指标记的附加信息,命名规则与标记相同,且区分大小写。属性不体现数据结构,不要因属性的频繁使用破坏 XML 的数据结构。

特殊字符

&lt; < &gt; > &apos; ' &quot; " &amp; &

CDATA 段
CDATA 段中的内容可以包含任意的字符。但 CDATA 段不能相互嵌套,如:

<![CDATA[ boolean boo=true&&false <三国演义> ]]>

注释

<!--与HTML文件相同—>

注释不可以在 XML 声明的前面。

名称空间

XML 允许自定义标记,那么不同的 XML 文件以及同一 XML 文件就可能出现名字相同的标记。想要区分这些标记,就需要使用名称空间。
有前缀的名称空间语法如下:
xmlns:前缀=名称空间的名字,如 xmlns:person="China.dalian"
无前缀的名称空间语法如下:
xmlns=名称空间的名字,如 xmlns=www.yahoo.com
名称空间的名字决定了相互之间的区分,前缀只是为了方便标记引用。
名称空间的作用域是声明该命名空间的标记及其所有子孙标记。尽管子标记可以通过名称空间的前缀来引用父标记声明名称空间,表明自己隶属于该名称空间,但子标记也可以重新声明名称空间,如:

<?xml version="1.0" encoding="UTF-8" ?> <people xmlns="public.of.china"> <p1:Lisi xmlnsp1="Liaoning"> 在建筑公司担任工程师 <usa:Lichuguo xmlns:usa="American"> 在美国学医英语 </usa:Lichuguo> </p1:Lisi> <Zhangsan xmlns="Shanghai"> 在上海中心医院医师 <Zhangchuguo xmlns="France"> 在法国学习法语 </Zhangchuguo> </Zhangsan> </people>

名称空间的名字

W3C 推荐使用统一资源标识符(Uniform Resource Identifier, URI)作为名称空间的名字。在 XML 中,URI 不必是有效的,仅仅用作名称空间的名字,往往使用 URL 作为 URI。

有效的 XML 文件

规范的 XML 表示合乎 XML 文件语法,有效的 XML 文件表示组织符合需要的逻辑。
对 XML 的数据结构进行约束的方式有两种:使用文档类型定义(Document Type Definition,DTD)和 XML Schema 模式。
一个规范的 XML 文件如果和某个 DTD 文件相关联,并且遵守该 DTD 文件规定的约束条件,就称之为有效的 XML 文件。

DTD 文件

在 DTD 文件中,用关键字 ELEMENT 来定义一个元素,格式如下:

DTD 文件的扩展名必须是“.dtd”,保存时所选择的编码必须与其关联的 XML 文件一致。

<!ELEMENT 手机用户表 (用户*)> <!ELEMENT 用户 (号码,姓名)> <!ELEMENT 号码 (#PCDATA)> <!ELEMENT 姓名 (#PCDATA)>

在 XML 文件中使用“文档类型声明”与一个 DTD 文件相关联。有两种形式的关联:SYSTEM 和 PUBLIC,SYSTEM 关联表明所关联的 DTD 文件由个人或工作小组所定义且认可,PUBLIC 关联表明所关联的 DTD 文件已经得到某一领域的认可,是经过许多人讨论得到认可的 DTD 文件:

<!DOCTYPE 根标记名称 SYSTEM "DTD文件的URI"> <!DOCTYPE 根标记名称 PUBLIC "正式公用标识符" "DTD文件的URI">

URI 如果是一个文件的名字,该文件必须和当前 XML 文件在同一目录中;如果 URI 是一个 URL,该 URL 必须是可以访问的。
DTD 文档类型声明应该写在 XML 声明的后面。

约束标记的子标记

标记的约束条件是用小括号括起来的子标记列表,子标记列表可以约束 XML 文件中的标记可以包含哪些子标记以及这些子标记出现的先后顺序。
子标记列表中的每个子标记可以尾加模式限定符来限定该子标记出现的次数,不加限定符的子标记必须出现且只能出现一次。限定符有一下三种:

  • +:必须出现一次或多次
  • *:可以出现零次或多次
  • ?:可以出现零次或一次

子标记列表的分项也可以是几个标记的“或运算”,并用括号括起来,如:
约束(#PCDATA)表示文本数据,可以单独使用,也可以与子标记或运算使用,但与子标记或运算时,限定符必须为*
约束 EMPTY 表示标记是一个空标记,或者只能包含有空字符的非空标记。
约束 ANY 表示不准备对该标记有任何约束

DTD 的完整性
即满足以下两个条件:

  1. 不允许无穷嵌套
  2. XML 文件中的每个标记都必须在 DTD 中有相应元素对其进行约束

DTD 中的属性约束列表

格式如下:

<!ATTLIST 标记名称 属性名称 属性类型 默认值 属性名称 属性类型 默认值 ...... >

其中,默认值有如下几种情况:

  • 字符串:标记必须有该属性,且有默认值
  • #IMPLIED:标记可以没有该属性,没有默认值
  • #REQUIRED:标记必须有该属性,没有默认值
  • #FIXED:标记可以没有改属性,但是如果有该属性,那么属性指固定不变

常用属性类型如下:

  • CDATA:属性值可以为任意字符串,但不能包含左右尖括号、与符号、单双引号。如果想用这些字符,可以使用实体引用。
  • Enumerated:属性值只可以使枚举值,其并非关键字,而是用小括号括起来,使用竖线分隔的枚举值组。
  • NMTOKEN:属性值可以由字母、数字、下划线、点或连字符组成,属性值中不能含有空格,可以用数字、点或连字符开头。
  • NMTOKENS:即用空格分隔的多个 NMTOKEN 值
  • ID:如果希望某个属性的属性值具有专用性,即不允许其他类型相同的属性再取这个属性值,就可以将属性的类型取为 ID 类型。可以由字母、数字、下划线、点或连字符组成,但必须以字母或下划线开头。其默认值必须为#REQUIRED 或#IMPLIED。
  • IDREF:属性值为已有的某个 ID 类型的属性的值
  • IDREFS:属性值为若干个其他 ID 类型的属性值的组合,可以用空格分隔。

内部 DTD

<?xml version="1.0" encoding="UTF-8"?> <!DOCTYPE 列车时刻表 [ <!ELEMENT 列车时刻表 (T28次,T226次)> <!ELEMENT T28次 (开车时间,终到时间)> <!ELEMENT T266次 (开车时间,终到时间)> <!ELEMENT 开车时间 (hour,minute)> <!ELEMENT 终到时间 (hour,minute)> <!ELEMENT hour (#PCDATA)> <!ELEMENT minute (#PCDATA)> ]> <列车时刻表> <T28次> <开车时间> <hour>21点</hour> <minute>12分</minute> </开车时间> <终到时间> <hour>23点</hour> <minute>25分</minute> </终到时间> </T28次> <T226次> <开车时间> <hour>08点</hour> <minute>45分</minute> </开车时间> <终到时间> <hour>19点</hour> <minute>36分</minute> </终到时间> </T28次> </列车时刻表>

DTD 调试

IGNORE:忽略某些约束条件 <![ IGNORE [ DTD中的某些约束条件 ]]> INCLUDE:包含某些约束条件 <![INCLUDE [ DTD中的某些约束条件 ]]>

DTD 与命名空间

如果有效的 XML 文件中的标记想定义名称空间,那么必须保证 DTD 中有相应的约束。格式如下:

如:

<!ATTLIST ya:张三 xmlns:ya CDATA #FIXED "www.yahoo.com">

名称空间的目的是有效的区分名字相同的标记,否则不允许对一个标记约束两次。

XML 关联 CSS

<?xml-stylesheet href="样式表的URI" type="text/css" ?>
  • 笔记

    好记性不如烂笔头。

    310 引用 • 794 回帖
  • 教程
    144 引用 • 626 回帖 • 8 关注
  • XML
    28 引用 • 59 回帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
ZephyrJung
一切有为法,如梦幻泡影,如露亦如电,应作如是观 北京

推荐标签 标签

  • CodeMirror
    2 引用 • 17 回帖 • 162 关注
  • OpenShift

    红帽提供的 PaaS 云,支持多种编程语言,为开发人员提供了更为灵活的框架、存储选择。

    14 引用 • 20 回帖 • 658 关注
  • SendCloud

    SendCloud 由搜狐武汉研发中心孵化的项目,是致力于为开发者提供高质量的触发邮件服务的云端邮件发送平台,为开发者提供便利的 API 接口来调用服务,让邮件准确迅速到达用户收件箱并获得强大的追踪数据。

    2 引用 • 8 回帖 • 499 关注
  • ZeroNet

    ZeroNet 是一个基于比特币加密技术和 BT 网络技术的去中心化的、开放开源的网络和交流系统。

    1 引用 • 21 回帖 • 648 关注
  • 微信

    腾讯公司 2011 年 1 月 21 日推出的一款手机通讯软件。用户可以通过摇一摇、搜索号码、扫描二维码等添加好友和关注公众平台,同时可以将自己看到的精彩内容分享到微信朋友圈。

    133 引用 • 796 回帖
  • Latke

    Latke 是一款以 JSON 为主的 Java Web 框架。

    71 引用 • 535 回帖 • 833 关注
  • Ngui

    Ngui 是一个 GUI 的排版显示引擎和跨平台的 GUI 应用程序开发框架,基于
    Node.js / OpenGL。目标是在此基础上开发 GUI 应用程序可拥有开发 WEB 应用般简单与速度同时兼顾 Native 应用程序的性能与体验。

    7 引用 • 9 回帖 • 397 关注
  • Scala

    Scala 是一门多范式的编程语言,集成面向对象编程和函数式编程的各种特性。

    13 引用 • 11 回帖 • 157 关注
  • 游戏

    沉迷游戏伤身,强撸灰飞烟灭。

    181 引用 • 821 回帖
  • Google

    Google(Google Inc.,NASDAQ:GOOG)是一家美国上市公司(公有股份公司),于 1998 年 9 月 7 日以私有股份公司的形式创立,设计并管理一个互联网搜索引擎。Google 公司的总部称作“Googleplex”,它位于加利福尼亚山景城。Google 目前被公认为是全球规模最大的搜索引擎,它提供了简单易用的免费服务。不作恶(Don't be evil)是谷歌公司的一项非正式的公司口号。

    49 引用 • 192 回帖 • 2 关注
  • MyBatis

    MyBatis 本是 Apache 软件基金会 的一个开源项目 iBatis,2010 年这个项目由 Apache 软件基金会迁移到了 google code,并且改名为 MyBatis ,2013 年 11 月再次迁移到了 GitHub。

    173 引用 • 414 回帖 • 364 关注
  • Kubernetes

    Kubernetes 是 Google 开源的一个容器编排引擎,它支持自动化部署、大规模可伸缩、应用容器化管理。

    118 引用 • 54 回帖 • 5 关注
  • Spark

    Spark 是 UC Berkeley AMP lab 所开源的类 Hadoop MapReduce 的通用并行框架。Spark 拥有 Hadoop MapReduce 所具有的优点;但不同于 MapReduce 的是 Job 中间输出结果可以保存在内存中,从而不再需要读写 HDFS,因此 Spark 能更好地适用于数据挖掘与机器学习等需要迭代的 MapReduce 的算法。

    74 引用 • 46 回帖 • 563 关注
  • 锤子科技

    锤子科技(Smartisan)成立于 2012 年 5 月,是一家制造移动互联网终端设备的公司,公司的使命是用完美主义的工匠精神,打造用户体验一流的数码消费类产品(智能手机为主),改善人们的生活质量。

    4 引用 • 31 回帖
  • JRebel

    JRebel 是一款 Java 虚拟机插件,它使得 Java 程序员能在不进行重部署的情况下,即时看到代码的改变对一个应用程序带来的影响。

    26 引用 • 78 回帖 • 678 关注
  • QQ

    1999 年 2 月腾讯正式推出“腾讯 QQ”,在线用户由 1999 年的 2 人(马化腾和张志东)到现在已经发展到上亿用户了,在线人数超过一亿,是目前使用最广泛的聊天软件之一。

    45 引用 • 557 回帖 • 1 关注
  • Electron

    Electron 基于 Chromium 和 Node.js,让你可以使用 HTML、CSS 和 JavaScript 构建应用。它是一个由 GitHub 及众多贡献者组成的活跃社区共同维护的开源项目,兼容 Mac、Windows 和 Linux,它构建的应用可在这三个操作系统上面运行。

    15 引用 • 136 回帖 • 4 关注
  • InfluxDB

    InfluxDB 是一个开源的没有外部依赖的时间序列数据库。适用于记录度量,事件及实时分析。

    2 引用 • 92 关注
  • 30Seconds

    📙 前端知识精选集,包含 HTML、CSS、JavaScript、React、Node、安全等方面,每天仅需 30 秒。

    • 精选常见面试题,帮助您准备下一次面试
    • 精选常见交互,帮助您拥有简洁酷炫的站点
    • 精选有用的 React 片段,帮助你获取最佳实践
    • 精选常见代码集,帮助您提高打码效率
    • 整理前端界的最新资讯,邀您一同探索新世界
    488 引用 • 384 回帖 • 9 关注
  • 印象笔记
    3 引用 • 16 回帖 • 1 关注
  • 反馈

    Communication channel for makers and users.

    121 引用 • 907 回帖 • 273 关注
  • Tomcat

    Tomcat 最早是由 Sun Microsystems 开发的一个 Servlet 容器,在 1999 年被捐献给 ASF(Apache Software Foundation),隶属于 Jakarta 项目,现在已经独立为一个顶级项目。Tomcat 主要实现了 JavaEE 中的 Servlet、JSP 规范,同时也提供 HTTP 服务,是市场上非常流行的 Java Web 容器。

    162 引用 • 529 回帖 • 2 关注
  • 小说

    小说是以刻画人物形象为中心,通过完整的故事情节和环境描写来反映社会生活的文学体裁。

    32 引用 • 108 回帖 • 1 关注
  • sts
    2 引用 • 2 回帖 • 230 关注
  • 心情

    心是产生任何想法的源泉,心本体会陷入到对自己本体不能理解的状态中,因为心能产生任何想法,不能分出对错,不能分出自己。

    59 引用 • 369 回帖 • 1 关注
  • 阿里云

    阿里云是阿里巴巴集团旗下公司,是全球领先的云计算及人工智能科技公司。提供云服务器、云数据库、云安全等云计算服务,以及大数据、人工智能服务、精准定制基于场景的行业解决方案。

    84 引用 • 324 回帖
  • DevOps

    DevOps(Development 和 Operations 的组合词)是一组过程、方法与系统的统称,用于促进开发(应用程序/软件工程)、技术运营和质量保障(QA)部门之间的沟通、协作与整合。

    58 引用 • 25 回帖 • 3 关注