rust 中的 DST 和 ZST

本贴最后更新于 2340 天前,其中的信息可能已经沧海桑田

类型的大小在 Rust 中很重要,Sized trait 是 std::marker 模块中的四大特殊 trait 之一。本文主要介绍 DST 和 ZST。

DST

DST 是 Dynamic Sized Type 的缩写,意思是动态大小类型,表示在编译阶段无法确定大小的类型。在讲这种类型之前,我们先从数组开始谈起。

数组是一个容器,它在一块连续内存空间中,存储了一系列的同样类型的数据。数组中的元素的占用空间大小必须是编译期确定的,数组本身所容纳的元素个数也必须是编译期确定的。如果需要使用变长的容器,可以使用标准库中的 Vec / LinkedList 等,原始数组类型是不支持动态改变大小的。数组类型的表示方式为[T; n],T 代表元素类型,n 代表元素个数。中间用分号隔开。在 Rust 中,对于两个数组类型,只有元素类型和元素个数都完全相同,这两个数组才是同类型的。示例如下:

fn modify_array(mut arr: [i32; 5]) { arr[0] = 100; println!("modified array {:?}", arr); } fn main() { let xs: [i32; 5] = [1, 2, 3, 4, 5]; modify_array(xs); println!("origin array {:?}", xs); }

编译执行,结果为:

modified array [100, 2, 3, 4, 5] origin array [1, 2, 3, 4, 5]

我们可以看到,把数组 xs 作为参数传给一个函数,这个数组并不会退化成一个指针,而是会将这个数组完整拷贝进入这个函数。函数体内对数组的改动,不会影响到外面的数组。

如果我们把数组的长度改变一下,会发现 [i32; 4] 类型的数组和 [i32; 5] 类型的数组是不同的类型,不能赋值。

数组切片

对数组取 borrow 操作,可以生成一个“数组切片(Slice)”。数组切片对数组没有“所有权”,我们可以把数组切片看做是专门用于指向数组的指针,是对数组的另外一个“视图”。比如,我们有一个数组[T; n],它的借用指针的类型就是&[T; n]。它可以通过编译器内部魔法,转换为数组切片类型&[T]。数组切片实质上还是指针,它不过是在类型系统中丢弃了编译阶段定长数组类型的长度信息,而将此长度信息存储为运行期的值。示例如下:

// 注意参数类型

fn mut_array(a : &mut [i32]) { a[2] = 5; println!("len {}", a.len()); } fn main() { let mut v : [i32; 3] = [1,2,3]; { let s : &mut [i32; 3] = &mut v; mut_array(s); } println!("{:?}", v); }

变量 v 是[i32; 3]类型,变量 s 是&mut; [i32; 3]类型。它可以自动转换为&mut; [i32]数组切片类型传入函数 mut_array。在函数内部,通过这个指针,修改了外部的数组 v 的值。而且我们可以看到,这个 &mut; [i32] 类型的指针,它不仅包含了指向数组的地址信息,还包含了指向数组的长度信息。

那它是怎么实现的呢?原因就在于 &mut; [i32; 3] 和 &mut; [i32] 的内部表示是有区别的。&mut; [i32; 3] 这种指针,就是普通指针,数组长度信息是编译期确定的。&mut; [i32] 这种指针,是“胖指针(fat pointer)”,它既可以指向 [i32; 3],也可以指向 [i32; 4],还能指向一个数组的某一个部分。示例如下:

use std::mem::transmute; use std::mem::size_of; fn main() { println!("{:?}", size_of::<&[i32; 3]>()); println!("{:?}", size_of::<&[i32]>()); let v : [i32; 5] = [1,2,3,4,5]; let p : &[i32] = &v;[2..4]; unsafe { let (ptr, len) : (usize, isize) = transmute(p); println!("{} {}", ptr, len); let ptr = ptr as *const i32; for i in 0..len { println!("{}", *ptr.offset(i)); } } }

由此可见,对于 &[i32] 型指针,它是普通指针大小的两倍,这也是为什么它叫做“胖指针”的原因。它里面同时存储了所指向的地址,以及长度信息。所以它避免了 C/C++ 里面出现的,数组作为函数参数的时候,退化为裸指针的问题。

Sized

为什么 Rust 编译器会把 &[i32] 这种类型的指针当成胖指针处理呢?因为在 Rust 眼里,[i32]也是一个合理的类型。它代表由 i32 类型组成的数组,然而长度在编译阶段不确定。对于编译阶段大小不定的类型,Rust 将其称之为 Dynamic Sized Type。我们不能直接声明 DST 类型的变量绑定,因为编译器根本没办法知道,怎么为它分配内存。但是,指向这种类型的指针是可以存在的,因为指针的大小是固定的。

Rust 中有一个重要的 trait Sized,可以用于区分一个类型是不是 DST。所有的 DST 类型都不满足 Sized 约束。我们可以在泛型约束中使用 Sized、!Sized、?Sized 三种写法。其中 T:Sized 代表类型必须是编译期确定大小的,T:!Sized 代表类型必须是编译期不确定大小的,T:?Sized 代表以上两种情况都可以。在泛型代码中,泛型类型参数默认携带了 Sized 约束,因为这是最普遍最常见的情况。如果我们希望这个泛型参数也可以支持 DST 类型,那么就应该为它专门加上 ?Sized 约束,示例如下:

use std::fmt::Debug; fn call(p : &T;) where T:Debug { println!("{}", p); } fn main() { let x : &[i32] = &[1,2,3,4]; call(x); } 以上写法,等同于默认有一个 T:Sized 约束。当参数是 &[i32] 类型的时候,编译器推理出来泛型参数是 [i32],不符合 Sized 约束,就会报错。修复方案是,加上 T: ?Sized 约束: use std::fmt::Debug; fn call(p : &T;) where T: Debug { println!("{:?}", p); } fn main() { let x : &[i32] = &[1,2,3,4]; call(x); }

如果我没记错的话,这个 ?Sized 表示法,是知乎网友 @Liigo 提出来的建议。

直接在语言中加入对 DST 的支持是有好处的。虽然这种类型无法直接实例化,但是可以被用在 impl 块,以及泛型代码中。比如,我们可以为 [i32] 类型 impl 一个 trait。再比如, Rc<[i32]> 也是一个合法的类型。我们为 [i32] 类型添加的方法,自然而然就可以被 Rc<[i32]> 使用。

Rust 中的 str 类型也是一种典型的 DST 类型。它跟不定长数组是一样的,它内部就是一个 u8 类型的不定长数组。&str;也是一个胖指针,跟数组切片一模一样。还有一种常见的 DST 类型就是 trait。trait 仅仅规定了类型需要实现的方法,而对具体类型的大小没有限制,因此实现同一个 trait 的具体类型大小是不定的,所以我们不能直接声明 trait 类型的变量。同理,把 trait 放到指针后面是合法的。此时,指针也是胖指针,其中包含了指向真实数据结构的指针以及指向虚函数表的 vtable 指针。这种胖指针,也叫做 trait object,在后面讲解泛型和动态分派的时候再详细介绍。

DST 的故事到现在为止还没有结束。目前编译器只支持上面介绍的这几种固定的 DST 及其对应的胖指针类型。按照 Rust 设计者的想法,用户应该有权自定义自己的 DST 类型以及各种智能指针类型。只不过这些问题目前不是很紧急,以后再来慢慢设计。

ZST

Rust 还支持 0 大小类型(Zero Sized Type)。比如,在前面的文章中提到过的 () 类型和空结构体类型,都是 0 大小类型。示例如下:

use std::mem::size_of; fn main() { println!("{}", size_of::<()>()); println!("{}", size_of::<[(); 100]>()); let boxed_unit = Box::new(()); println!("{:p}", boxed_unit); }

执行结果为:

0 0 0x1

由此可见,unit 类型确实是 0 大小的类型,而且由它组成的数组,也是 0 大小类型。而如果我们为 0 大小的类型申请动态分配内存,我们可以得到,指针指向的地址是 1。这个 1 是怎么回事呢?

当碰到 0 大小类型需要动态分配空间的时候,在标准库里面会直接返回一个 EMPTY 出去。这个 EMPTY 定义在 liballoc/heap.rs 模块中:

/// An arbitrary non-null address to represent

/// zero-size allocations.

/// This preserves the non-null invariant for

/// types like Box. The address may overlap

/// with non-zero-size memory allocations.

pub const EMPTY: *mut () = 0x1 as *mut ();

为什么选 1 这个值呢?首先,1 不可能是内存分配器正常返回的地址,其次,0 已经用于表示空指针 null 的情况,所以选择另外一个不同的值来表示这种情况。那么这两种“空”有什么区别呢,我们继续用示例说明:

use std::mem::transmute;

fn main() {

let x : Box<()> = Box::new(());

let y : Option> = None;

let z : Option> = Some(Box::new(()));

unsafe {

let value1 : usize = transmute(x); let value2 : usize = transmute(y); let value3 : usize = transmute(z);println!("{} {} {}", value1, value2, value3); } }

其中的 transmute 函数是强制类型转换的作用。编译执行,结果为:“1 0 1”。所以,解释起来就是:非空指针指向 0 大小的类型,指向的是地址 1;空指针都是指向的是地址 0。

  • Rust

    Rust 是一门赋予每个人构建可靠且高效软件能力的语言。Rust 由 Mozilla 开发,最早发布于 2014 年 9 月。

    58 引用 • 22 回帖 • 1 关注

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...

推荐标签 标签

  • OpenCV
    15 引用 • 36 回帖 • 1 关注
  • Thymeleaf

    Thymeleaf 是一款用于渲染 XML/XHTML/HTML5 内容的模板引擎。类似 Velocity、 FreeMarker 等,它也可以轻易的与 Spring 等 Web 框架进行集成作为 Web 应用的模板引擎。与其它模板引擎相比,Thymeleaf 最大的特点是能够直接在浏览器中打开并正确显示模板页面,而不需要启动整个 Web 应用。

    11 引用 • 19 回帖 • 381 关注
  • 外包

    有空闲时间是接外包好呢还是学习好呢?

    26 引用 • 233 回帖 • 2 关注
  • GAE

    Google App Engine(GAE)是 Google 管理的数据中心中用于 WEB 应用程序的开发和托管的平台。2008 年 4 月 发布第一个测试版本。目前支持 Python、Java 和 Go 开发部署。全球已有数十万的开发者在其上开发了众多的应用。

    14 引用 • 42 回帖 • 803 关注
  • Hexo

    Hexo 是一款快速、简洁且高效的博客框架,使用 Node.js 编写。

    22 引用 • 148 回帖 • 13 关注
  • jQuery

    jQuery 是一套跨浏览器的 JavaScript 库,强化 HTML 与 JavaScript 之间的操作。由 John Resig 在 2006 年 1 月的 BarCamp NYC 上释出第一个版本。全球约有 28% 的网站使用 jQuery,是非常受欢迎的 JavaScript 库。

    63 引用 • 134 回帖 • 732 关注
  • 以太坊

    以太坊(Ethereum)并不是一个机构,而是一款能够在区块链上实现智能合约、开源的底层系统。以太坊是一个平台和一种编程语言 Solidity,使开发人员能够建立和发布下一代去中心化应用。 以太坊可以用来编程、分散、担保和交易任何事物:投票、域名、金融交易所、众筹、公司管理、合同和知识产权等等。

    34 引用 • 367 回帖 • 3 关注
  • Solo

    Solo 是一款小而美的开源博客系统,专为程序员设计。Solo 有着非常活跃的社区,可将文章作为帖子推送到社区,来自社区的回帖将作为博客评论进行联动(具体细节请浏览 B3log 构思 - 分布式社区网络)。

    这是一种全新的网络社区体验,让热爱记录和分享的你不再感到孤单!

    1439 引用 • 10067 回帖 • 493 关注
  • Windows

    Microsoft Windows 是美国微软公司研发的一套操作系统,它问世于 1985 年,起初仅仅是 Microsoft-DOS 模拟环境,后续的系统版本由于微软不断的更新升级,不但易用,也慢慢的成为家家户户人们最喜爱的操作系统。

    226 引用 • 476 回帖
  • JetBrains

    JetBrains 是一家捷克的软件开发公司,该公司位于捷克的布拉格,并在俄国的圣彼得堡及美国麻州波士顿都设有办公室,该公司最为人所熟知的产品是 Java 编程语言开发撰写时所用的集成开发环境:IntelliJ IDEA

    18 引用 • 54 回帖 • 4 关注
  • 叶归
    5 引用 • 16 回帖 • 10 关注
  • Maven

    Maven 是基于项目对象模型(POM)、通过一小段描述信息来管理项目的构建、报告和文档的软件项目管理工具。

    186 引用 • 318 回帖 • 264 关注
  • Laravel

    Laravel 是一套简洁、优雅的 PHP Web 开发框架。它采用 MVC 设计,是一款崇尚开发效率的全栈框架。

    20 引用 • 23 回帖 • 738 关注
  • 心情

    心是产生任何想法的源泉,心本体会陷入到对自己本体不能理解的状态中,因为心能产生任何想法,不能分出对错,不能分出自己。

    59 引用 • 369 回帖
  • 阿里巴巴

    阿里巴巴网络技术有限公司(简称:阿里巴巴集团)是以曾担任英语教师的马云为首的 18 人,于 1999 年在中国杭州创立,他们相信互联网能够创造公平的竞争环境,让小企业通过创新与科技扩展业务,并在参与国内或全球市场竞争时处于更有利的位置。

    43 引用 • 221 回帖 • 76 关注
  • BookxNote

    BookxNote 是一款全新的电子书学习工具,助力您的学习与思考,让您的大脑更高效的记忆。

    笔记整理交给我,一心只读圣贤书。

    1 引用 • 1 回帖
  • AngularJS

    AngularJS 诞生于 2009 年,由 Misko Hevery 等人创建,后为 Google 所收购。是一款优秀的前端 JS 框架,已经被用于 Google 的多款产品当中。AngularJS 有着诸多特性,最为核心的是:MVC、模块化、自动化双向数据绑定、语义化标签、依赖注入等。2.0 版本后已经改名为 Angular。

    12 引用 • 50 回帖 • 498 关注
  • ReactiveX

    ReactiveX 是一个专注于异步编程与控制可观察数据(或者事件)流的 API。它组合了观察者模式,迭代器模式和函数式编程的优秀思想。

    1 引用 • 2 回帖 • 174 关注
  • PostgreSQL

    PostgreSQL 是一款功能强大的企业级数据库系统,在 BSD 开源许可证下发布。

    22 引用 • 22 回帖 • 1 关注
  • 大疆创新

    深圳市大疆创新科技有限公司(DJI-Innovations,简称 DJI),成立于 2006 年,是全球领先的无人飞行器控制系统及无人机解决方案的研发和生产商,客户遍布全球 100 多个国家。通过持续的创新,大疆致力于为无人机工业、行业用户以及专业航拍应用提供性能最强、体验最佳的革命性智能飞控产品和解决方案。

    2 引用 • 14 回帖
  • BAE

    百度应用引擎(Baidu App Engine)提供了 PHP、Java、Python 的执行环境,以及云存储、消息服务、云数据库等全面的云服务。它可以让开发者实现自动地部署和管理应用,并且提供动态扩容和负载均衡的运行环境,让开发者不用考虑高成本的运维工作,只需专注于业务逻辑,大大降低了开发者学习和迁移的成本。

    19 引用 • 75 回帖 • 657 关注
  • V2Ray
    1 引用 • 15 回帖
  • 周末

    星期六到星期天晚,实行五天工作制后,指每周的最后两天。再过几年可能就是三天了。

    14 引用 • 297 回帖
  • DevOps

    DevOps(Development 和 Operations 的组合词)是一组过程、方法与系统的统称,用于促进开发(应用程序/软件工程)、技术运营和质量保障(QA)部门之间的沟通、协作与整合。

    56 引用 • 25 回帖 • 3 关注
  • Hadoop

    Hadoop 是由 Apache 基金会所开发的一个分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。

    87 引用 • 122 回帖 • 628 关注
  • Ubuntu

    Ubuntu(友帮拓、优般图、乌班图)是一个以桌面应用为主的 Linux 操作系统,其名称来自非洲南部祖鲁语或豪萨语的“ubuntu”一词,意思是“人性”、“我的存在是因为大家的存在”,是非洲传统的一种价值观,类似华人社会的“仁爱”思想。Ubuntu 的目标在于为一般用户提供一个最新的、同时又相当稳定的主要由自由软件构建而成的操作系统。

    127 引用 • 169 回帖
  • 链书

    链书(Chainbook)是 B3log 开源社区提供的区块链纸质书交易平台,通过 B3T 实现共享激励与价值链。可将你的闲置书籍上架到链书,我们共同构建这个全新的交易平台,让闲置书籍继续发挥它的价值。

    链书社

    链书目前已经下线,也许以后还有计划重制上线。

    14 引用 • 257 回帖 • 1 关注