rust 中的 DST 和 ZST

本贴最后更新于 2257 天前,其中的信息可能已经沧海桑田

类型的大小在 Rust 中很重要,Sized trait 是 std::marker 模块中的四大特殊 trait 之一。本文主要介绍 DST 和 ZST。

DST

DST 是 Dynamic Sized Type 的缩写,意思是动态大小类型,表示在编译阶段无法确定大小的类型。在讲这种类型之前,我们先从数组开始谈起。

数组是一个容器,它在一块连续内存空间中,存储了一系列的同样类型的数据。数组中的元素的占用空间大小必须是编译期确定的,数组本身所容纳的元素个数也必须是编译期确定的。如果需要使用变长的容器,可以使用标准库中的 Vec / LinkedList 等,原始数组类型是不支持动态改变大小的。数组类型的表示方式为[T; n],T 代表元素类型,n 代表元素个数。中间用分号隔开。在 Rust 中,对于两个数组类型,只有元素类型和元素个数都完全相同,这两个数组才是同类型的。示例如下:

fn  modify_array(mut arr: [i32; 5]) {    
	arr[0] = 100;

   println!("modified array {:?}", arr); 
 }
   
   fn  main() {

	 let xs: [i32; 5] = [1, 2, 3, 4, 5];    modify_array(xs);

	 println!("origin array {:?}", xs);
   }

编译执行,结果为:

modified array [100, 2, 3, 4, 5] origin array [1, 2, 3, 4, 5]

我们可以看到,把数组 xs 作为参数传给一个函数,这个数组并不会退化成一个指针,而是会将这个数组完整拷贝进入这个函数。函数体内对数组的改动,不会影响到外面的数组。

如果我们把数组的长度改变一下,会发现 [i32; 4] 类型的数组和 [i32; 5] 类型的数组是不同的类型,不能赋值。

数组切片

对数组取 borrow 操作,可以生成一个“数组切片(Slice)”。数组切片对数组没有“所有权”,我们可以把数组切片看做是专门用于指向数组的指针,是对数组的另外一个“视图”。比如,我们有一个数组[T; n],它的借用指针的类型就是&[T; n]。它可以通过编译器内部魔法,转换为数组切片类型&[T]。数组切片实质上还是指针,它不过是在类型系统中丢弃了编译阶段定长数组类型的长度信息,而将此长度信息存储为运行期的值。示例如下:

// 注意参数类型

fn  mut_array(a : &mut [i32]) {    a[2] = 5;

   println!("len {}", a.len()); }

   

fn  main() {

   let  mut v :  [i32; 3] = [1,2,3];   
   {

       let s : &mut [i32; 3] = &mut v;        mut_array(s);   
	}

   println!("{:?}", v);
  }

变量 v 是[i32; 3]类型,变量 s 是&mut; [i32; 3]类型。它可以自动转换为&mut; [i32]数组切片类型传入函数 mut_array。在函数内部,通过这个指针,修改了外部的数组 v 的值。而且我们可以看到,这个 &mut; [i32] 类型的指针,它不仅包含了指向数组的地址信息,还包含了指向数组的长度信息。

那它是怎么实现的呢?原因就在于 &mut; [i32; 3] 和 &mut; [i32] 的内部表示是有区别的。&mut; [i32; 3] 这种指针,就是普通指针,数组长度信息是编译期确定的。&mut; [i32] 这种指针,是“胖指针(fat pointer)”,它既可以指向 [i32; 3],也可以指向 [i32; 4],还能指向一个数组的某一个部分。示例如下:

use std::mem::transmute;

use std::mem::size_of;

fn  main() {

   println!("{:?}", size_of::<&[i32; 3]>());

   println!("{:?}", size_of::<&[i32]>());

   let v : [i32; 5] = [1,2,3,4,5];

   let p : &[i32] = &v;[2..4];

   unsafe {

       let (ptr, len) : (usize, isize) = transmute(p);

       println!("{} {}", ptr, len);

       let ptr = ptr as *const  i32;

       for i in  0..len {

           println!("{}", *ptr.offset(i));        
	    }    
	} 
		
}

由此可见,对于 &[i32] 型指针,它是普通指针大小的两倍,这也是为什么它叫做“胖指针”的原因。它里面同时存储了所指向的地址,以及长度信息。所以它避免了 C/C++ 里面出现的,数组作为函数参数的时候,退化为裸指针的问题。

Sized

为什么 Rust 编译器会把 &[i32] 这种类型的指针当成胖指针处理呢?因为在 Rust 眼里,[i32]也是一个合理的类型。它代表由 i32 类型组成的数组,然而长度在编译阶段不确定。对于编译阶段大小不定的类型,Rust 将其称之为 Dynamic Sized Type。我们不能直接声明 DST 类型的变量绑定,因为编译器根本没办法知道,怎么为它分配内存。但是,指向这种类型的指针是可以存在的,因为指针的大小是固定的。

Rust 中有一个重要的 trait Sized,可以用于区分一个类型是不是 DST。所有的 DST 类型都不满足 Sized 约束。我们可以在泛型约束中使用 Sized、!Sized、?Sized 三种写法。其中 T:Sized 代表类型必须是编译期确定大小的,T:!Sized 代表类型必须是编译期不确定大小的,T:?Sized 代表以上两种情况都可以。在泛型代码中,泛型类型参数默认携带了 Sized 约束,因为这是最普遍最常见的情况。如果我们希望这个泛型参数也可以支持 DST 类型,那么就应该为它专门加上 ?Sized 约束,示例如下:

use std::fmt::Debug;

fn  call(p : &T;)

   where T:Debug {

   println!("{}", p); }

fn  main() {

   let x : &[i32] = &[1,2,3,4];    call(x); }

以上写法,等同于默认有一个 T:Sized 约束。当参数是 &[i32] 类型的时候,编译器推理出来泛型参数是 [i32],不符合 Sized 约束,就会报错。修复方案是,加上 T: ?Sized 约束:

use std::fmt::Debug;

fn  call(p : &T;)

   where T: Debug {

   println!("{:?}", p); }

fn  main() {

   let x : &[i32] = &[1,2,3,4];    call(x); 
 }

如果我没记错的话,这个 ?Sized 表示法,是知乎网友 @Liigo 提出来的建议。

直接在语言中加入对 DST 的支持是有好处的。虽然这种类型无法直接实例化,但是可以被用在 impl 块,以及泛型代码中。比如,我们可以为 [i32] 类型 impl 一个 trait。再比如, Rc<[i32]> 也是一个合法的类型。我们为 [i32] 类型添加的方法,自然而然就可以被 Rc<[i32]> 使用。

Rust 中的 str 类型也是一种典型的 DST 类型。它跟不定长数组是一样的,它内部就是一个 u8 类型的不定长数组。&str;也是一个胖指针,跟数组切片一模一样。还有一种常见的 DST 类型就是 trait。trait 仅仅规定了类型需要实现的方法,而对具体类型的大小没有限制,因此实现同一个 trait 的具体类型大小是不定的,所以我们不能直接声明 trait 类型的变量。同理,把 trait 放到指针后面是合法的。此时,指针也是胖指针,其中包含了指向真实数据结构的指针以及指向虚函数表的 vtable 指针。这种胖指针,也叫做 trait object,在后面讲解泛型和动态分派的时候再详细介绍。

DST 的故事到现在为止还没有结束。目前编译器只支持上面介绍的这几种固定的 DST 及其对应的胖指针类型。按照 Rust 设计者的想法,用户应该有权自定义自己的 DST 类型以及各种智能指针类型。只不过这些问题目前不是很紧急,以后再来慢慢设计。

ZST

Rust 还支持 0 大小类型(Zero Sized Type)。比如,在前面的文章中提到过的 () 类型和空结构体类型,都是 0 大小类型。示例如下:

use std::mem::size_of;

fn  main() {

   println!("{}", size_of::<()>());

   println!("{}", size_of::<[(); 100]>());

   let boxed_unit = Box::new(());

   println!("{:p}", boxed_unit); }

执行结果为:

0 0 0x1

由此可见,unit 类型确实是 0 大小的类型,而且由它组成的数组,也是 0 大小类型。而如果我们为 0 大小的类型申请动态分配内存,我们可以得到,指针指向的地址是 1。这个 1 是怎么回事呢?

当碰到 0 大小类型需要动态分配空间的时候,在标准库里面会直接返回一个 EMPTY 出去。这个 EMPTY 定义在 liballoc/heap.rs 模块中:

/// An arbitrary non-null address to represent

/// zero-size allocations.

/// This preserves the non-null invariant for

/// types like Box. The address may overlap

/// with non-zero-size memory allocations.

pub const EMPTY: *mut () = 0x1 as *mut ();

为什么选 1 这个值呢?首先,1 不可能是内存分配器正常返回的地址,其次,0 已经用于表示空指针 null 的情况,所以选择另外一个不同的值来表示这种情况。那么这两种“空”有什么区别呢,我们继续用示例说明:

use std::mem::transmute;

fn main() {

let x : Box<()> = Box::new(());

let y : Option> = None;

let z : Option> = Some(Box::new(()));

unsafe {

 let value1 : usize = transmute(x);

 let value2 : usize = transmute(y);

 let value3 : usize = transmute(z);println!("{} {} {}", value1, value2, value3);    } }

其中的 transmute 函数是强制类型转换的作用。编译执行,结果为:“1 0 1”。所以,解释起来就是:非空指针指向 0 大小的类型,指向的是地址 1;空指针都是指向的是地址 0。

  • Rust

    Rust 是一门赋予每个人构建可靠且高效软件能力的语言。Rust 由 Mozilla 开发,最早发布于 2014 年 9 月。

    58 引用 • 22 回帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...

推荐标签 标签

  • Postman

    Postman 是一款简单好用的 HTTP API 调试工具。

    4 引用 • 3 回帖 • 7 关注
  • ZooKeeper

    ZooKeeper 是一个分布式的,开放源码的分布式应用程序协调服务,是 Google 的 Chubby 一个开源的实现,是 Hadoop 和 HBase 的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。

    59 引用 • 29 回帖 • 14 关注
  • 学习

    “梦想从学习开始,事业从实践起步” —— 习近平

    171 引用 • 512 回帖
  • JWT

    JWT(JSON Web Token)是一种用于双方之间传递信息的简洁的、安全的表述性声明规范。JWT 作为一个开放的标准(RFC 7519),定义了一种简洁的,自包含的方法用于通信双方之间以 JSON 的形式安全的传递信息。

    20 引用 • 15 回帖 • 6 关注
  • C++

    C++ 是在 C 语言的基础上开发的一种通用编程语言,应用广泛。C++ 支持多种编程范式,面向对象编程、泛型编程和过程化编程。

    107 引用 • 153 回帖
  • Love2D

    Love2D 是一个开源的, 跨平台的 2D 游戏引擎。使用纯 Lua 脚本来进行游戏开发。目前支持的平台有 Windows, Mac OS X, Linux, Android 和 iOS。

    14 引用 • 53 回帖 • 538 关注
  • 宕机

    宕机,多指一些网站、游戏、网络应用等服务器一种区别于正常运行的状态,也叫“Down 机”、“当机”或“死机”。宕机状态不仅仅是指服务器“挂掉了”、“死机了”状态,也包括服务器假死、停用、关闭等一些原因而导致出现的不能够正常运行的状态。

    13 引用 • 82 回帖 • 59 关注
  • 机器学习

    机器学习(Machine Learning)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

    83 引用 • 37 回帖
  • Swagger

    Swagger 是一款非常流行的 API 开发工具,它遵循 OpenAPI Specification(这是一种通用的、和编程语言无关的 API 描述规范)。Swagger 贯穿整个 API 生命周期,如 API 的设计、编写文档、测试和部署。

    26 引用 • 35 回帖 • 5 关注
  • 房星科技

    房星网,我们不和没有钱的程序员谈理想,我们要让程序员又有理想又有钱。我们有雄厚的房地产行业线下资源,遍布昆明全城的 100 家门店、四千地产经纪人是我们坚实的后盾。

    6 引用 • 141 回帖 • 584 关注
  • App

    App(应用程序,Application 的缩写)一般指手机软件。

    91 引用 • 384 回帖 • 2 关注
  • 自由行
    4 关注
  • Sym

    Sym 是一款用 Java 实现的现代化社区(论坛/BBS/社交网络/博客)系统平台。

    下一代的社区系统,为未来而构建

    524 引用 • 4601 回帖 • 700 关注
  • iOS

    iOS 是由苹果公司开发的移动操作系统,最早于 2007 年 1 月 9 日的 Macworld 大会上公布这个系统,最初是设计给 iPhone 使用的,后来陆续套用到 iPod touch、iPad 以及 Apple TV 等产品上。iOS 与苹果的 Mac OS X 操作系统一样,属于类 Unix 的商业操作系统。

    85 引用 • 139 回帖
  • Log4j

    Log4j 是 Apache 开源的一款使用广泛的 Java 日志组件。

    20 引用 • 18 回帖 • 29 关注
  • TensorFlow

    TensorFlow 是一个采用数据流图(data flow graphs),用于数值计算的开源软件库。节点(Nodes)在图中表示数学操作,图中的线(edges)则表示在节点间相互联系的多维数据数组,即张量(tensor)。

    20 引用 • 19 回帖 • 1 关注
  • NGINX

    NGINX 是一个高性能的 HTTP 和反向代理服务器,也是一个 IMAP/POP3/SMTP 代理服务器。 NGINX 是由 Igor Sysoev 为俄罗斯访问量第二的 Rambler.ru 站点开发的,第一个公开版本 0.1.0 发布于 2004 年 10 月 4 日。

    313 引用 • 547 回帖 • 1 关注
  • Hprose

    Hprose 是一款先进的轻量级、跨语言、跨平台、无侵入式、高性能动态远程对象调用引擎库。它不仅简单易用,而且功能强大。你无需专门学习,只需看上几眼,就能用它轻松构建分布式应用系统。

    9 引用 • 17 回帖 • 612 关注
  • SVN

    SVN 是 Subversion 的简称,是一个开放源代码的版本控制系统,相较于 RCS、CVS,它采用了分支管理系统,它的设计目标就是取代 CVS。

    29 引用 • 98 回帖 • 694 关注
  • Latke

    Latke 是一款以 JSON 为主的 Java Web 框架。

    71 引用 • 535 回帖 • 789 关注
  • WordPress

    WordPress 是一个使用 PHP 语言开发的博客平台,用户可以在支持 PHP 和 MySQL 数据库的服务器上架设自己的博客。也可以把 WordPress 当作一个内容管理系统(CMS)来使用。WordPress 是一个免费的开源项目,在 GNU 通用公共许可证(GPLv2)下授权发布。

    66 引用 • 114 回帖 • 223 关注
  • Solo

    Solo 是一款小而美的开源博客系统,专为程序员设计。Solo 有着非常活跃的社区,可将文章作为帖子推送到社区,来自社区的回帖将作为博客评论进行联动(具体细节请浏览 B3log 构思 - 分布式社区网络)。

    这是一种全新的网络社区体验,让热爱记录和分享的你不再感到孤单!

    1435 引用 • 10056 回帖 • 489 关注
  • CSDN

    CSDN (Chinese Software Developer Network) 创立于 1999 年,是中国的 IT 社区和服务平台,为中国的软件开发者和 IT 从业者提供知识传播、职业发展、软件开发等全生命周期服务,满足他们在职业发展中学习及共享知识和信息、建立职业发展社交圈、通过软件开发实现技术商业化等刚性需求。

    14 引用 • 155 回帖
  • Git

    Git 是 Linux Torvalds 为了帮助管理 Linux 内核开发而开发的一个开放源码的版本控制软件。

    209 引用 • 358 回帖 • 1 关注
  • 分享

    有什么新发现就分享给大家吧!

    248 引用 • 1795 回帖
  • 百度

    百度(Nasdaq:BIDU)是全球最大的中文搜索引擎、最大的中文网站。2000 年 1 月由李彦宏创立于北京中关村,致力于向人们提供“简单,可依赖”的信息获取方式。“百度”二字源于中国宋朝词人辛弃疾的《青玉案·元夕》词句“众里寻他千百度”,象征着百度对中文信息检索技术的执著追求。

    63 引用 • 785 回帖 • 164 关注
  • BookxNote

    BookxNote 是一款全新的电子书学习工具,助力您的学习与思考,让您的大脑更高效的记忆。

    笔记整理交给我,一心只读圣贤书。

    1 引用 • 1 回帖