Redis- 简单动态字符串

本贴最后更新于 2771 天前,其中的信息可能已经斗转星移

Redis 没有直接使用 C 语言传统的字符串,而自己构建了一种简单动态字符串(Simple Dynamic String)的抽象类型,简称为 SDS。并将 SDS 作为 Redis 的默认字符串表示。

例如:当我们在 redis-client 执行如下的命令时;

> redis 127.0.0.1:6379>set message 'Hello World'
> 
> OK

那么 Redis 将会在数据库中创建一个新的键值对,其中:

  • 键值对的键是一个字符串对象,对象底层的实现是一个保存着字符串“msg”的 SDS。
  • 键值对的值也是一个字符串对象,对象底层的实现是一个保存着字符串“Hello World”的 SDS。

SDS 的定义

每个 sds.h/sdshdr 结构表示一个 SDS 值:

struct sdshdr{

 int len; //记录buf中已使用字节的数量等于SDS所保存的字符串的长度

 int free; //记录buf中未使用字节的长度

 char []buf; //字节数据,保存字符串

}

获取字符串的长度

Redis 获取字符串长度可以通过 SDS 中的 len 属性来获得,时间复杂度为 O(1)。而 C 语言获取字符串需要去遍历 char 数据来叠加获得,时间复杂度为 O(n)。这就保证了在获取字符串长度时不会成为 Redis 的性能瓶颈。

杜绝缓存区溢出

除了获取字符串长度复杂度高之外,C 语言不记录自身字符串长度带来的另一个问题是容易造成缓存区溢出(Buffer Overflow)。SDS 属性 len 可以记录自身字符串的长度,因此当对 SDS 字符串进行拼接时,SDS API 会先去检测 buf 的空间,如果空间不足,SDS 先会扩容 buf 的空间,之后进行拼接。反之,直接去拼接。

减少修改字符串带来的内存重分配次数

  • 空间预分配

空间预分配用于优化 SDS 字符串增长操作,当 SDS 的 API 对 SDS 的字符串进行修改,并且要对 SDS 进行空间扩展的时候,程序不仅会为 SDS 分配修改所必须要的空间,还会为 SDS 分配额外未使用的空间。分配公式主要有 SDS 中的 len 属性的大小决定。当 len 属性值小于 1MB 时,buf 数组的实际长度为 len(修改后的 len 值)*2+1byte,这时 len 和 free 相等,一个字节用于保存空字符。当 len 属性值大于 1MB 时,buf 数组的实际长度为 len(修改后的 len 值)+1MB+1byte,这时 free 的值为 1MB。通过内存预分配策略,Redis 可以减少连续执行字符串增长操作所需要的内存重分配次数。

  • 惰性空间释放

惰性空间释放用于优化 SDS 字符串缩短操作:当 SDS 的 API 需要缩短 SDS 所保存的字符串时,程序并不立即去使用内存重分配来回收字符串缩短后多出来的字节,而是使用 free 属性将这些字节的数量记录起来并等待将来使用。

二进制安全

由于 SDS 是通过 len 属性来判断字符串是否结束的,而不是使用空字符串来判断字符串是否结束的,并且 SDS 的 API 都是二进制安全的,所有的 SDS API 都会以处理二进制的方式来处理 SDS 存放在 buf 数组中的数据,程序不会对数组中的数据进行任何的过滤,限制,假设,数据在写入和读出的时候是一致的。

兼容部分 C 字符串函数

虽然 SDS API 是二进制安全的,但它依然遵循 C 字符串以空字符结尾的惯例。

总结

C 语言字符串 SDS
获取字符串长度的时间复杂度为 O(N) 获取字符串长度的时间复杂度为 O(1)
API 是不安全的,可能会造成缓存区溢出 API 是安全的,不会造成缓存区溢出
修改字符串 N 次必须需要执行 N 次内存重分配 修改字符串 N 次最多需要执行 N 次内存重分配
只能保存文本数据 可以保存文本和二进制数据
可以使用所有的函数 可以使用部分函数

SDS API

函数 作用 时间复杂度
sdsnew 创建一个给定包含 C 字符串的 SDS O(N),N 为给定 C 字符串的长度
sdsempty 创建一个不包含任何内容的空 SDS O(1)
sdsfree 释放给定的 SDS O(N),N 为被释放的 SDS 的长度
sdslen 返回 SDS 已使用的字节数 可以直接去读取 SDS 的 len 属性,O(1)
sdsavail 返回 SDS 未使用的字节数 可以直接去读取 SDS 的 free 属性,O(1)
sdsdup 创建一个给定 SDS 的副本(copy) O(N),N 为给定 SDS 的长度
sdsclear 清空给定的 SDS 字符串内容 使用惰性空间释放策略,O(1)
sdscat 将给定的 C 字符串拼接到 SDS 字符串的末尾 O(N),N 为拼接 C 字符串的长度
sdscatsds 将给定的 SDS 字符串拼接到另一个 SDS 字符串的末尾 O(N),N 为拼接 SDS 字符串的长度
sdscpy 将给定的 C 字符串复制到 SDS 中,覆盖原来 SDS 中的字符串 O(N),N 为被复制 C 字符串的长度
sdsgrowzero 用空字符串将 SDS 扩展到指定的长度 O(N),N 被扩展的新增字节数
sdsrange 保留 SDS 给定区域的数据,不在区域的数据覆盖或者清除 O(N),N 被保留的字节数
sdstrim 接受一个 SDS 和 C 字符串的参数,从 SDS 中移除所有在 C 字符串中出现过的字符 O(N*N),N 为给定 C 字符串的长度
sdscmp 对比两个 SDS 是否相等 O(N),N 两个 SDS 中 len 较小的值
  • Redis

    Redis 是一个开源的使用 ANSI C 语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value 数据库,并提供多种语言的 API。从 2010 年 3 月 15 日起,Redis 的开发工作由 VMware 主持。从 2013 年 5 月开始,Redis 的开发由 Pivotal 赞助。

    286 引用 • 248 回帖 • 62 关注
  • 数据结构
    88 引用 • 115 回帖 • 4 关注

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
SimpleBin
改变自己晴空万里,埋怨别人天昏地暗。 西安

推荐标签 标签

  • WebComponents

    Web Components 是 W3C 定义的标准,它给了前端开发者扩展浏览器标签的能力,可以方便地定制可复用组件,更好的进行模块化开发,解放了前端开发者的生产力。

    1 引用
  • C++

    C++ 是在 C 语言的基础上开发的一种通用编程语言,应用广泛。C++ 支持多种编程范式,面向对象编程、泛型编程和过程化编程。

    107 引用 • 153 回帖
  • wolai

    我来 wolai:不仅仅是未来的云端笔记!

    2 引用 • 14 回帖
  • Openfire

    Openfire 是开源的、基于可拓展通讯和表示协议 (XMPP)、采用 Java 编程语言开发的实时协作服务器。Openfire 的效率很高,单台服务器可支持上万并发用户。

    6 引用 • 7 回帖 • 94 关注
  • RIP

    愿逝者安息!

    8 引用 • 92 回帖 • 351 关注
  • 京东

    京东是中国最大的自营式电商企业,2015 年第一季度在中国自营式 B2C 电商市场的占有率为 56.3%。2014 年 5 月,京东在美国纳斯达克证券交易所正式挂牌上市(股票代码:JD),是中国第一个成功赴美上市的大型综合型电商平台,与腾讯、百度等中国互联网巨头共同跻身全球前十大互联网公司排行榜。

    14 引用 • 102 回帖 • 376 关注
  • 机器学习

    机器学习(Machine Learning)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

    83 引用 • 37 回帖 • 1 关注
  • 面试

    面试造航母,上班拧螺丝。多面试,少加班。

    325 引用 • 1395 回帖
  • TGIF

    Thank God It's Friday! 感谢老天,总算到星期五啦!

    287 引用 • 4484 回帖 • 669 关注
  • V2EX

    V2EX 是创意工作者们的社区。这里目前汇聚了超过 400,000 名主要来自互联网行业、游戏行业和媒体行业的创意工作者。V2EX 希望能够成为创意工作者们的生活和事业的一部分。

    17 引用 • 236 回帖 • 327 关注
  • GAE

    Google App Engine(GAE)是 Google 管理的数据中心中用于 WEB 应用程序的开发和托管的平台。2008 年 4 月 发布第一个测试版本。目前支持 Python、Java 和 Go 开发部署。全球已有数十万的开发者在其上开发了众多的应用。

    14 引用 • 42 回帖 • 764 关注
  • 学习

    “梦想从学习开始,事业从实践起步” —— 习近平

    169 引用 • 506 回帖
  • SOHO

    为成为自由职业者在家办公而努力吧!

    7 引用 • 55 回帖 • 19 关注
  • JRebel

    JRebel 是一款 Java 虚拟机插件,它使得 Java 程序员能在不进行重部署的情况下,即时看到代码的改变对一个应用程序带来的影响。

    26 引用 • 78 回帖 • 664 关注
  • 酷鸟浏览器

    安全 · 稳定 · 快速
    为跨境从业人员提供专业的跨境浏览器

    3 引用 • 59 回帖 • 26 关注
  • 区块链

    区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。所谓共识机制是区块链系统中实现不同节点之间建立信任、获取权益的数学算法 。

    91 引用 • 751 回帖 • 2 关注
  • 职场

    找到自己的位置,萌新烦恼少。

    127 引用 • 1705 回帖 • 1 关注
  • Gitea

    Gitea 是一个开源社区驱动的轻量级代码托管解决方案,后端采用 Go 编写,采用 MIT 许可证。

    4 引用 • 16 回帖 • 5 关注
  • Unity

    Unity 是由 Unity Technologies 开发的一个让开发者可以轻松创建诸如 2D、3D 多平台的综合型游戏开发工具,是一个全面整合的专业游戏引擎。

    25 引用 • 7 回帖 • 173 关注
  • 前端

    前端技术一般分为前端设计和前端开发,前端设计可以理解为网站的视觉设计,前端开发则是网站的前台代码实现,包括 HTML、CSS 以及 JavaScript 等。

    247 引用 • 1348 回帖
  • JavaScript

    JavaScript 一种动态类型、弱类型、基于原型的直译式脚本语言,内置支持类型。它的解释器被称为 JavaScript 引擎,为浏览器的一部分,广泛用于客户端的脚本语言,最早是在 HTML 网页上使用,用来给 HTML 网页增加动态功能。

    729 引用 • 1327 回帖
  • SEO

    发布对别人有帮助的原创内容是最好的 SEO 方式。

    35 引用 • 200 回帖 • 22 关注
  • 房星科技

    房星网,我们不和没有钱的程序员谈理想,我们要让程序员又有理想又有钱。我们有雄厚的房地产行业线下资源,遍布昆明全城的 100 家门店、四千地产经纪人是我们坚实的后盾。

    6 引用 • 141 回帖 • 585 关注
  • 以太坊

    以太坊(Ethereum)并不是一个机构,而是一款能够在区块链上实现智能合约、开源的底层系统。以太坊是一个平台和一种编程语言 Solidity,使开发人员能够建立和发布下一代去中心化应用。 以太坊可以用来编程、分散、担保和交易任何事物:投票、域名、金融交易所、众筹、公司管理、合同和知识产权等等。

    34 引用 • 367 回帖
  • MySQL

    MySQL 是一个关系型数据库管理系统,由瑞典 MySQL AB 公司开发,目前属于 Oracle 公司。MySQL 是最流行的关系型数据库管理系统之一。

    690 引用 • 535 回帖
  • Sym

    Sym 是一款用 Java 实现的现代化社区(论坛/BBS/社交网络/博客)系统平台。

    下一代的社区系统,为未来而构建

    524 引用 • 4601 回帖 • 700 关注
  • SendCloud

    SendCloud 由搜狐武汉研发中心孵化的项目,是致力于为开发者提供高质量的触发邮件服务的云端邮件发送平台,为开发者提供便利的 API 接口来调用服务,让邮件准确迅速到达用户收件箱并获得强大的追踪数据。

    2 引用 • 8 回帖 • 483 关注