Redis- 简单动态字符串

本贴最后更新于 2915 天前,其中的信息可能已经斗转星移

Redis 没有直接使用 C 语言传统的字符串,而自己构建了一种简单动态字符串(Simple Dynamic String)的抽象类型,简称为 SDS。并将 SDS 作为 Redis 的默认字符串表示。

例如:当我们在 redis-client 执行如下的命令时;

> redis 127.0.0.1:6379>set message 'Hello World' > > OK

那么 Redis 将会在数据库中创建一个新的键值对,其中:

  • 键值对的键是一个字符串对象,对象底层的实现是一个保存着字符串“msg”的 SDS。
  • 键值对的值也是一个字符串对象,对象底层的实现是一个保存着字符串“Hello World”的 SDS。

SDS 的定义

每个 sds.h/sdshdr 结构表示一个 SDS 值:

struct sdshdr{ int len; //记录buf中已使用字节的数量等于SDS所保存的字符串的长度 int free; //记录buf中未使用字节的长度 char []buf; //字节数据,保存字符串 }

获取字符串的长度

Redis 获取字符串长度可以通过 SDS 中的 len 属性来获得,时间复杂度为 O(1)。而 C 语言获取字符串需要去遍历 char 数据来叠加获得,时间复杂度为 O(n)。这就保证了在获取字符串长度时不会成为 Redis 的性能瓶颈。

杜绝缓存区溢出

除了获取字符串长度复杂度高之外,C 语言不记录自身字符串长度带来的另一个问题是容易造成缓存区溢出(Buffer Overflow)。SDS 属性 len 可以记录自身字符串的长度,因此当对 SDS 字符串进行拼接时,SDS API 会先去检测 buf 的空间,如果空间不足,SDS 先会扩容 buf 的空间,之后进行拼接。反之,直接去拼接。

减少修改字符串带来的内存重分配次数

  • 空间预分配

空间预分配用于优化 SDS 字符串增长操作,当 SDS 的 API 对 SDS 的字符串进行修改,并且要对 SDS 进行空间扩展的时候,程序不仅会为 SDS 分配修改所必须要的空间,还会为 SDS 分配额外未使用的空间。分配公式主要有 SDS 中的 len 属性的大小决定。当 len 属性值小于 1MB 时,buf 数组的实际长度为 len(修改后的 len 值)*2+1byte,这时 len 和 free 相等,一个字节用于保存空字符。当 len 属性值大于 1MB 时,buf 数组的实际长度为 len(修改后的 len 值)+1MB+1byte,这时 free 的值为 1MB。通过内存预分配策略,Redis 可以减少连续执行字符串增长操作所需要的内存重分配次数。

  • 惰性空间释放

惰性空间释放用于优化 SDS 字符串缩短操作:当 SDS 的 API 需要缩短 SDS 所保存的字符串时,程序并不立即去使用内存重分配来回收字符串缩短后多出来的字节,而是使用 free 属性将这些字节的数量记录起来并等待将来使用。

二进制安全

由于 SDS 是通过 len 属性来判断字符串是否结束的,而不是使用空字符串来判断字符串是否结束的,并且 SDS 的 API 都是二进制安全的,所有的 SDS API 都会以处理二进制的方式来处理 SDS 存放在 buf 数组中的数据,程序不会对数组中的数据进行任何的过滤,限制,假设,数据在写入和读出的时候是一致的。

兼容部分 C 字符串函数

虽然 SDS API 是二进制安全的,但它依然遵循 C 字符串以空字符结尾的惯例。

总结

C 语言字符串 SDS
获取字符串长度的时间复杂度为 O(N) 获取字符串长度的时间复杂度为 O(1)
API 是不安全的,可能会造成缓存区溢出 API 是安全的,不会造成缓存区溢出
修改字符串 N 次必须需要执行 N 次内存重分配 修改字符串 N 次最多需要执行 N 次内存重分配
只能保存文本数据 可以保存文本和二进制数据
可以使用所有的函数 可以使用部分函数

SDS API

函数 作用 时间复杂度
sdsnew 创建一个给定包含 C 字符串的 SDS O(N),N 为给定 C 字符串的长度
sdsempty 创建一个不包含任何内容的空 SDS O(1)
sdsfree 释放给定的 SDS O(N),N 为被释放的 SDS 的长度
sdslen 返回 SDS 已使用的字节数 可以直接去读取 SDS 的 len 属性,O(1)
sdsavail 返回 SDS 未使用的字节数 可以直接去读取 SDS 的 free 属性,O(1)
sdsdup 创建一个给定 SDS 的副本(copy) O(N),N 为给定 SDS 的长度
sdsclear 清空给定的 SDS 字符串内容 使用惰性空间释放策略,O(1)
sdscat 将给定的 C 字符串拼接到 SDS 字符串的末尾 O(N),N 为拼接 C 字符串的长度
sdscatsds 将给定的 SDS 字符串拼接到另一个 SDS 字符串的末尾 O(N),N 为拼接 SDS 字符串的长度
sdscpy 将给定的 C 字符串复制到 SDS 中,覆盖原来 SDS 中的字符串 O(N),N 为被复制 C 字符串的长度
sdsgrowzero 用空字符串将 SDS 扩展到指定的长度 O(N),N 被扩展的新增字节数
sdsrange 保留 SDS 给定区域的数据,不在区域的数据覆盖或者清除 O(N),N 被保留的字节数
sdstrim 接受一个 SDS 和 C 字符串的参数,从 SDS 中移除所有在 C 字符串中出现过的字符 O(N*N),N 为给定 C 字符串的长度
sdscmp 对比两个 SDS 是否相等 O(N),N 两个 SDS 中 len 较小的值
  • Redis

    Redis 是一个开源的使用 ANSI C 语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value 数据库,并提供多种语言的 API。从 2010 年 3 月 15 日起,Redis 的开发工作由 VMware 主持。从 2013 年 5 月开始,Redis 的开发由 Pivotal 赞助。

    286 引用 • 248 回帖
  • 数据结构
    87 引用 • 115 回帖 • 4 关注

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
SimpleBin
改变自己晴空万里,埋怨别人天昏地暗。 西安

推荐标签 标签

  • 链滴

    链滴是一个记录生活的地方。

    记录生活,连接点滴

    171 引用 • 3848 回帖
  • 黑曜石

    黑曜石是一款强大的知识库工具,支持本地 Markdown 文件编辑,支持双向链接和关系图。

    A second brain, for you, forever.

    22 引用 • 210 回帖
  • 禅道

    禅道是一款国产的开源项目管理软件,她的核心管理思想基于敏捷方法 scrum,内置了产品管理和项目管理,同时又根据国内研发现状补充了测试管理、计划管理、发布管理、文档管理、事务管理等功能,在一个软件中就可以将软件研发中的需求、任务、bug、用例、计划、发布等要素有序的跟踪管理起来,完整地覆盖了项目管理的核心流程。

    6 引用 • 15 回帖 • 30 关注
  • Eclipse

    Eclipse 是一个开放源代码的、基于 Java 的可扩展开发平台。就其本身而言,它只是一个框架和一组服务,用于通过插件组件构建开发环境。

    76 引用 • 258 回帖 • 626 关注
  • NetBeans

    NetBeans 是一个始于 1997 年的 Xelfi 计划,本身是捷克布拉格查理大学的数学及物理学院的学生计划。此计划延伸而成立了一家公司进而发展这个商用版本的 NetBeans IDE,直到 1999 年 Sun 买下此公司。Sun 于次年(2000 年)六月将 NetBeans IDE 开源,直到现在 NetBeans 的社群依然持续增长。

    78 引用 • 102 回帖 • 704 关注
  • 阿里巴巴

    阿里巴巴网络技术有限公司(简称:阿里巴巴集团)是以曾担任英语教师的马云为首的 18 人,于 1999 年在中国杭州创立,他们相信互联网能够创造公平的竞争环境,让小企业通过创新与科技扩展业务,并在参与国内或全球市场竞争时处于更有利的位置。

    43 引用 • 221 回帖 • 71 关注
  • Flume

    Flume 是一套分布式的、可靠的,可用于有效地收集、聚合和搬运大量日志数据的服务架构。

    9 引用 • 6 回帖 • 653 关注
  • 学习

    “梦想从学习开始,事业从实践起步” —— 习近平

    172 引用 • 516 回帖
  • CodeMirror
    2 引用 • 17 回帖 • 158 关注
  • VirtualBox

    VirtualBox 是一款开源虚拟机软件,最早由德国 Innotek 公司开发,由 Sun Microsystems 公司出品的软件,使用 Qt 编写,在 Sun 被 Oracle 收购后正式更名成 Oracle VM VirtualBox。

    10 引用 • 2 回帖 • 17 关注
  • GitHub

    GitHub 于 2008 年上线,目前,除了 Git 代码仓库托管及基本的 Web 管理界面以外,还提供了订阅、讨论组、文本渲染、在线文件编辑器、协作图谱(报表)、代码片段分享(Gist)等功能。正因为这些功能所提供的便利,又经过长期的积累,GitHub 的用户活跃度很高,在开源世界里享有深远的声望,并形成了社交化编程文化(Social Coding)。

    210 引用 • 2040 回帖
  • 互联网

    互联网(Internet),又称网际网络,或音译因特网、英特网。互联网始于 1969 年美国的阿帕网,是网络与网络之间所串连成的庞大网络,这些网络以一组通用的协议相连,形成逻辑上的单一巨大国际网络。

    99 引用 • 367 回帖
  • 服务器

    服务器,也称伺服器,是提供计算服务的设备。由于服务器需要响应服务请求,并进行处理,因此一般来说服务器应具备承担服务并且保障服务的能力。

    125 引用 • 585 回帖 • 1 关注
  • golang

    Go 语言是 Google 推出的一种全新的编程语言,可以在不损失应用程序性能的情况下降低代码的复杂性。谷歌首席软件工程师罗布派克(Rob Pike)说:我们之所以开发 Go,是因为过去 10 多年间软件开发的难度令人沮丧。Go 是谷歌 2009 发布的第二款编程语言。

    498 引用 • 1395 回帖 • 250 关注
  • 智能合约

    智能合约(Smart contract)是一种旨在以信息化方式传播、验证或执行合同的计算机协议。智能合约允许在没有第三方的情况下进行可信交易,这些交易可追踪且不可逆转。智能合约概念于 1994 年由 Nick Szabo 首次提出。

    1 引用 • 11 回帖 • 1 关注
  • ReactiveX

    ReactiveX 是一个专注于异步编程与控制可观察数据(或者事件)流的 API。它组合了观察者模式,迭代器模式和函数式编程的优秀思想。

    1 引用 • 2 回帖 • 178 关注
  • H2

    H2 是一个开源的嵌入式数据库引擎,采用 Java 语言编写,不受平台的限制,同时 H2 提供了一个十分方便的 web 控制台用于操作和管理数据库内容。H2 还提供兼容模式,可以兼容一些主流的数据库,因此采用 H2 作为开发期的数据库非常方便。

    11 引用 • 54 回帖 • 667 关注
  • danl
    166 关注
  • BookxNote

    BookxNote 是一款全新的电子书学习工具,助力您的学习与思考,让您的大脑更高效的记忆。

    笔记整理交给我,一心只读圣贤书。

    1 引用 • 1 回帖
  • SpaceVim

    SpaceVim 是一个社区驱动的模块化 vim/neovim 配置集合,以模块的方式组织管理插件以
    及相关配置,为不同的语言开发量身定制了相关的开发模块,该模块提供代码自动补全,
    语法检查、格式化、调试、REPL 等特性。用户仅需载入相关语言的模块即可得到一个开箱
    即用的 Vim-IDE。

    3 引用 • 31 回帖 • 117 关注
  • etcd

    etcd 是一个分布式、高可用的 key-value 数据存储,专门用于在分布式系统中保存关键数据。

    6 引用 • 26 回帖 • 548 关注
  • LeetCode

    LeetCode(力扣)是一个全球极客挚爱的高质量技术成长平台,想要学习和提升专业能力从这里开始,充足技术干货等你来啃,轻松拿下 Dream Offer!

    209 引用 • 72 回帖
  • 锤子科技

    锤子科技(Smartisan)成立于 2012 年 5 月,是一家制造移动互联网终端设备的公司,公司的使命是用完美主义的工匠精神,打造用户体验一流的数码消费类产品(智能手机为主),改善人们的生活质量。

    4 引用 • 31 回帖 • 6 关注
  • 机器学习

    机器学习(Machine Learning)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

    83 引用 • 37 回帖
  • OpenStack

    OpenStack 是一个云操作系统,通过数据中心可控制大型的计算、存储、网络等资源池。所有的管理通过前端界面管理员就可以完成,同样也可以通过 Web 接口让最终用户部署资源。

    10 引用 • 2 关注
  • 区块链

    区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。所谓共识机制是区块链系统中实现不同节点之间建立信任、获取权益的数学算法 。

    92 引用 • 752 回帖
  • 职场

    找到自己的位置,萌新烦恼少。

    127 引用 • 1708 回帖 • 1 关注