Redis- 简单动态字符串

本贴最后更新于 2802 天前,其中的信息可能已经斗转星移

Redis 没有直接使用 C 语言传统的字符串,而自己构建了一种简单动态字符串(Simple Dynamic String)的抽象类型,简称为 SDS。并将 SDS 作为 Redis 的默认字符串表示。

例如:当我们在 redis-client 执行如下的命令时;

> redis 127.0.0.1:6379>set message 'Hello World'
> 
> OK

那么 Redis 将会在数据库中创建一个新的键值对,其中:

  • 键值对的键是一个字符串对象,对象底层的实现是一个保存着字符串“msg”的 SDS。
  • 键值对的值也是一个字符串对象,对象底层的实现是一个保存着字符串“Hello World”的 SDS。

SDS 的定义

每个 sds.h/sdshdr 结构表示一个 SDS 值:

struct sdshdr{

 int len; //记录buf中已使用字节的数量等于SDS所保存的字符串的长度

 int free; //记录buf中未使用字节的长度

 char []buf; //字节数据,保存字符串

}

获取字符串的长度

Redis 获取字符串长度可以通过 SDS 中的 len 属性来获得,时间复杂度为 O(1)。而 C 语言获取字符串需要去遍历 char 数据来叠加获得,时间复杂度为 O(n)。这就保证了在获取字符串长度时不会成为 Redis 的性能瓶颈。

杜绝缓存区溢出

除了获取字符串长度复杂度高之外,C 语言不记录自身字符串长度带来的另一个问题是容易造成缓存区溢出(Buffer Overflow)。SDS 属性 len 可以记录自身字符串的长度,因此当对 SDS 字符串进行拼接时,SDS API 会先去检测 buf 的空间,如果空间不足,SDS 先会扩容 buf 的空间,之后进行拼接。反之,直接去拼接。

减少修改字符串带来的内存重分配次数

  • 空间预分配

空间预分配用于优化 SDS 字符串增长操作,当 SDS 的 API 对 SDS 的字符串进行修改,并且要对 SDS 进行空间扩展的时候,程序不仅会为 SDS 分配修改所必须要的空间,还会为 SDS 分配额外未使用的空间。分配公式主要有 SDS 中的 len 属性的大小决定。当 len 属性值小于 1MB 时,buf 数组的实际长度为 len(修改后的 len 值)*2+1byte,这时 len 和 free 相等,一个字节用于保存空字符。当 len 属性值大于 1MB 时,buf 数组的实际长度为 len(修改后的 len 值)+1MB+1byte,这时 free 的值为 1MB。通过内存预分配策略,Redis 可以减少连续执行字符串增长操作所需要的内存重分配次数。

  • 惰性空间释放

惰性空间释放用于优化 SDS 字符串缩短操作:当 SDS 的 API 需要缩短 SDS 所保存的字符串时,程序并不立即去使用内存重分配来回收字符串缩短后多出来的字节,而是使用 free 属性将这些字节的数量记录起来并等待将来使用。

二进制安全

由于 SDS 是通过 len 属性来判断字符串是否结束的,而不是使用空字符串来判断字符串是否结束的,并且 SDS 的 API 都是二进制安全的,所有的 SDS API 都会以处理二进制的方式来处理 SDS 存放在 buf 数组中的数据,程序不会对数组中的数据进行任何的过滤,限制,假设,数据在写入和读出的时候是一致的。

兼容部分 C 字符串函数

虽然 SDS API 是二进制安全的,但它依然遵循 C 字符串以空字符结尾的惯例。

总结

C 语言字符串 SDS
获取字符串长度的时间复杂度为 O(N) 获取字符串长度的时间复杂度为 O(1)
API 是不安全的,可能会造成缓存区溢出 API 是安全的,不会造成缓存区溢出
修改字符串 N 次必须需要执行 N 次内存重分配 修改字符串 N 次最多需要执行 N 次内存重分配
只能保存文本数据 可以保存文本和二进制数据
可以使用所有的函数 可以使用部分函数

SDS API

函数 作用 时间复杂度
sdsnew 创建一个给定包含 C 字符串的 SDS O(N),N 为给定 C 字符串的长度
sdsempty 创建一个不包含任何内容的空 SDS O(1)
sdsfree 释放给定的 SDS O(N),N 为被释放的 SDS 的长度
sdslen 返回 SDS 已使用的字节数 可以直接去读取 SDS 的 len 属性,O(1)
sdsavail 返回 SDS 未使用的字节数 可以直接去读取 SDS 的 free 属性,O(1)
sdsdup 创建一个给定 SDS 的副本(copy) O(N),N 为给定 SDS 的长度
sdsclear 清空给定的 SDS 字符串内容 使用惰性空间释放策略,O(1)
sdscat 将给定的 C 字符串拼接到 SDS 字符串的末尾 O(N),N 为拼接 C 字符串的长度
sdscatsds 将给定的 SDS 字符串拼接到另一个 SDS 字符串的末尾 O(N),N 为拼接 SDS 字符串的长度
sdscpy 将给定的 C 字符串复制到 SDS 中,覆盖原来 SDS 中的字符串 O(N),N 为被复制 C 字符串的长度
sdsgrowzero 用空字符串将 SDS 扩展到指定的长度 O(N),N 被扩展的新增字节数
sdsrange 保留 SDS 给定区域的数据,不在区域的数据覆盖或者清除 O(N),N 被保留的字节数
sdstrim 接受一个 SDS 和 C 字符串的参数,从 SDS 中移除所有在 C 字符串中出现过的字符 O(N*N),N 为给定 C 字符串的长度
sdscmp 对比两个 SDS 是否相等 O(N),N 两个 SDS 中 len 较小的值
  • Redis

    Redis 是一个开源的使用 ANSI C 语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value 数据库,并提供多种语言的 API。从 2010 年 3 月 15 日起,Redis 的开发工作由 VMware 主持。从 2013 年 5 月开始,Redis 的开发由 Pivotal 赞助。

    286 引用 • 248 回帖 • 44 关注
  • 数据结构
    88 引用 • 115 回帖 • 4 关注

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
SimpleBin
改变自己晴空万里,埋怨别人天昏地暗。 西安

推荐标签 标签

  • Ubuntu

    Ubuntu(友帮拓、优般图、乌班图)是一个以桌面应用为主的 Linux 操作系统,其名称来自非洲南部祖鲁语或豪萨语的“ubuntu”一词,意思是“人性”、“我的存在是因为大家的存在”,是非洲传统的一种价值观,类似华人社会的“仁爱”思想。Ubuntu 的目标在于为一般用户提供一个最新的、同时又相当稳定的主要由自由软件构建而成的操作系统。

    126 引用 • 169 回帖
  • Thymeleaf

    Thymeleaf 是一款用于渲染 XML/XHTML/HTML5 内容的模板引擎。类似 Velocity、 FreeMarker 等,它也可以轻易的与 Spring 等 Web 框架进行集成作为 Web 应用的模板引擎。与其它模板引擎相比,Thymeleaf 最大的特点是能够直接在浏览器中打开并正确显示模板页面,而不需要启动整个 Web 应用。

    11 引用 • 19 回帖 • 364 关注
  • SendCloud

    SendCloud 由搜狐武汉研发中心孵化的项目,是致力于为开发者提供高质量的触发邮件服务的云端邮件发送平台,为开发者提供便利的 API 接口来调用服务,让邮件准确迅速到达用户收件箱并获得强大的追踪数据。

    2 引用 • 8 回帖 • 486 关注
  • 导航

    各种网址链接、内容导航。

    42 引用 • 175 回帖
  • CentOS

    CentOS(Community Enterprise Operating System)是 Linux 发行版之一,它是来自于 Red Hat Enterprise Linux 依照开放源代码规定释出的源代码所编译而成。由于出自同样的源代码,因此有些要求高度稳定的服务器以 CentOS 替代商业版的 Red Hat Enterprise Linux 使用。两者的不同在于 CentOS 并不包含封闭源代码软件。

    238 引用 • 224 回帖
  • Hprose

    Hprose 是一款先进的轻量级、跨语言、跨平台、无侵入式、高性能动态远程对象调用引擎库。它不仅简单易用,而且功能强大。你无需专门学习,只需看上几眼,就能用它轻松构建分布式应用系统。

    9 引用 • 17 回帖 • 612 关注
  • 微软

    微软是一家美国跨国科技公司,也是世界 PC 软件开发的先导,由比尔·盖茨与保罗·艾伦创办于 1975 年,公司总部设立在华盛顿州的雷德蒙德(Redmond,邻近西雅图)。以研发、制造、授权和提供广泛的电脑软件服务业务为主。

    8 引用 • 44 回帖 • 1 关注
  • 星云链

    星云链是一个开源公链,业内简单的将其称为区块链上的谷歌。其实它不仅仅是区块链搜索引擎,一个公链的所有功能,它基本都有,比如你可以用它来开发部署你的去中心化的 APP,你可以在上面编写智能合约,发送交易等等。3 分钟快速接入星云链 (NAS) 测试网

    3 引用 • 16 回帖 • 6 关注
  • LeetCode

    LeetCode(力扣)是一个全球极客挚爱的高质量技术成长平台,想要学习和提升专业能力从这里开始,充足技术干货等你来啃,轻松拿下 Dream Offer!

    209 引用 • 72 回帖
  • OpenShift

    红帽提供的 PaaS 云,支持多种编程语言,为开发人员提供了更为灵活的框架、存储选择。

    14 引用 • 20 回帖 • 632 关注
  • 开源

    Open Source, Open Mind, Open Sight, Open Future!

    407 引用 • 3578 回帖 • 1 关注
  • Ruby

    Ruby 是一种开源的面向对象程序设计的服务器端脚本语言,在 20 世纪 90 年代中期由日本的松本行弘(まつもとゆきひろ/Yukihiro Matsumoto)设计并开发。在 Ruby 社区,松本也被称为马茨(Matz)。

    7 引用 • 31 回帖 • 216 关注
  • OAuth

    OAuth 协议为用户资源的授权提供了一个安全的、开放而又简易的标准。与以往的授权方式不同之处是 oAuth 的授权不会使第三方触及到用户的帐号信息(如用户名与密码),即第三方无需使用用户的用户名与密码就可以申请获得该用户资源的授权,因此 oAuth 是安全的。oAuth 是 Open Authorization 的简写。

    36 引用 • 103 回帖 • 17 关注
  • JSON

    JSON (JavaScript Object Notation)是一种轻量级的数据交换格式。易于人类阅读和编写。同时也易于机器解析和生成。

    52 引用 • 190 回帖
  • 国际化

    i18n(其来源是英文单词 internationalization 的首末字符 i 和 n,18 为中间的字符数)是“国际化”的简称。对程序来说,国际化是指在不修改代码的情况下,能根据不同语言及地区显示相应的界面。

    8 引用 • 26 回帖 • 1 关注
  • PostgreSQL

    PostgreSQL 是一款功能强大的企业级数据库系统,在 BSD 开源许可证下发布。

    22 引用 • 22 回帖 • 1 关注
  • TGIF

    Thank God It's Friday! 感谢老天,总算到星期五啦!

    288 引用 • 4485 回帖 • 663 关注
  • 宕机

    宕机,多指一些网站、游戏、网络应用等服务器一种区别于正常运行的状态,也叫“Down 机”、“当机”或“死机”。宕机状态不仅仅是指服务器“挂掉了”、“死机了”状态,也包括服务器假死、停用、关闭等一些原因而导致出现的不能够正常运行的状态。

    13 引用 • 82 回帖 • 59 关注
  • 友情链接

    确认过眼神后的灵魂连接,站在链在!

    24 引用 • 373 回帖
  • WebClipper

    Web Clipper 是一款浏览器剪藏扩展,它可以帮助你把网页内容剪藏到本地。

    3 引用 • 9 回帖 • 4 关注
  • etcd

    etcd 是一个分布式、高可用的 key-value 数据存储,专门用于在分布式系统中保存关键数据。

    5 引用 • 26 回帖 • 528 关注
  • 服务器

    服务器,也称伺服器,是提供计算服务的设备。由于服务器需要响应服务请求,并进行处理,因此一般来说服务器应具备承担服务并且保障服务的能力。

    125 引用 • 588 回帖
  • C++

    C++ 是在 C 语言的基础上开发的一种通用编程语言,应用广泛。C++ 支持多种编程范式,面向对象编程、泛型编程和过程化编程。

    107 引用 • 153 回帖
  • 创业

    你比 99% 的人都优秀么?

    85 引用 • 1399 回帖 • 1 关注
  • JWT

    JWT(JSON Web Token)是一种用于双方之间传递信息的简洁的、安全的表述性声明规范。JWT 作为一个开放的标准(RFC 7519),定义了一种简洁的,自包含的方法用于通信双方之间以 JSON 的形式安全的传递信息。

    20 引用 • 15 回帖 • 6 关注
  • 架构

    我们平时所说的“架构”主要是指软件架构,这是有关软件整体结构与组件的抽象描述,用于指导软件系统各个方面的设计。另外还有“业务架构”、“网络架构”、“硬件架构”等细分领域。

    142 引用 • 442 回帖 • 1 关注
  • 强迫症

    强迫症(OCD)属于焦虑障碍的一种类型,是一组以强迫思维和强迫行为为主要临床表现的神经精神疾病,其特点为有意识的强迫和反强迫并存,一些毫无意义、甚至违背自己意愿的想法或冲动反反复复侵入患者的日常生活。

    15 引用 • 161 回帖 • 2 关注