登录注册

关于思源同步为啥这么慢的探究

本贴最后更新于 494 天前，其中的信息可能已经时异事殊

太长不看：

扫盘建立快照不够高效，占比 10%
网络条件拉跨，占比 10-100%（假如你家网速正常就 10%，不正常直接断了，影响算 100% 是没问题吧）
同步有锁，必须交替进行，占比 30%
web 上传对小文件极不友好，占比 50%

关于一些前置的讨论可以看看 Issue #12246 · siyuan-note/siyuan ，我在这里研究了下 obsidian 的 livesync 插件与思源同步机制的差异，试图搞清楚，为啥都能使用 S3 作为同步中介，livesync 可以做到实时同步，而思源则有明显的卡顿感。

一个反直觉的观点是，思源的快照机制并不慢，至少不是同步慢的最主要问题。以下是测试出来的快照建立时间于同步时间之间的差异：

日记编辑 0.75s，未同步
主题更新（22 个文件，2m 数据量）0.86s，同步时间 3s
安装插件（650 个文件，20m 数据量）3.36s，同步时间 94s
删除插件（删除 650 个文件，20mb 数据）0.86s，同步时间 14s

以上都是先建立快照，再进行同步的操作，换而言之，同步的时间已经是去除快照建立的时间了，但是还是可以看出相对于快照操作是很慢的。

因此同步慢的的最大根源就是同步加锁……而已吗？

直到今天之前，我都是这个观点，但我忽然想到，同步加锁只是会影响到另一端同步并下载云端内容的速度，理论上不会影响到我这一端上传的速度，或许还要严格评估一下 web io 对于同步速度的影响。因此我直接在本地搭建了一个 docker minio，新开了一个库作为测试。我同时把我主笔记库的数据复制过来了，总共是 800m 的大小，6500 个文件。

我阅读了 dejavu 的代码，发现它里面有对同时上传文件数的限制。我合理的怀疑这就是问题的根源。于是，我拉到本地，进行修改，将同时上传、下载文件数的限制，也是 NewPoolWithFunc 的 poolSize 全拉高了 10 倍，重新打包思源的 kernel，进行测试。以上所有操作都是基于思源是个开源软件，所有，哎，就是能改着玩！

在我进行修改之前，使用本地的 minio 进行全库上传的耗时是 440s，那么，你觉得我修改后的耗时是多少呢？

还是 436s！

这少掉的 4s，完全可以被认为就是一个误差而已，因此可以说，dejavu 里对同时上传文件大小的限制，根本就不是同步慢的原因。

我尝试绕过思源，直接通过 minio 的 webui 上传，时间相差无几。

接着，我做了另一种尝试，使用 restic 进行备份，然后直接通过 webui 上传。备份同样的内容，思源的同步机制总共生成了 13,062 个文件，259 个文件夹，而 restic 则是 48 个文件，261 个文件夹。

最后，restic 的上传时间为 10s。

在查看日志中发现，minio 的同时上传速度哪怕在本地也只能做到每秒 40 左右的文件。

作为测试，我尝试使用官方的上传机制，这次就更慢了，每秒只能上传 16 个文件。而且甚至因为同时上传等待时间过长，还给我返回了 time out 报错。

因此，问题的根源似乎很清楚了：思源扫盘建立快照当然可以进步，但进步空间不大。改善云端同步协作机制、实现无锁同步，以及改变思源的快照分片机制，才是根本解决方案。

那么，古尔丹，代价是什么呢？

代价就是，从此思源的增量下载能力可能大大减弱，可能你下载一个快照，就得把整个库下载回来，因为现在一个数据分块对应了多个实际的文件，你只能一起下载回来再拆分。

这里，我就不得不感慨，省空间换时间，还是省时间换空间，依然、并且永远，是一个值得考虑的问题啊。

思源笔记

思源笔记是一款隐私优先的个人知识管理系统，支持完全离线使用，同时也支持端到端加密同步。

融合块、大纲和双向链接，重构你的思维。
28448 引用 • 119792 回帖

zxhd86 1 年前

10 感谢

3 关注

5 收藏

2 赞同

61 回帖

4.1k 770 21 2.2k 5 5 1.1k

欢迎来到这里！

我们正在构建一个小众社区，大家在这里相互信任，以平等 • 自由 • 奔放的价值观进行分享交流。最终，希望大家能够找到与自己志同道合的伙伴，共同成长。

注册关于

请输入回帖内容 ...

tianzhongs • 1 年前 • 1 赞同 • 2 评论
付费者
目前的优化的话，我能想到的就是类似于 Duplicati（某备份工具），他也是增量备份，他的逻辑是
1. 第一个文件：把元数据的一些映射关系做了信息映射；
2. 别的文件就是加密后的元数据，同样也是进行了分片，但是他多了一个步骤，就是
压缩，我觉得这个压缩很有搞头
1. 每次增量备份，只多备份新的修改的元数据对照和压缩的元数据
他这个备份工具也支持加密，也是一样的，我个人体验同步速度算快的，毕竟他压缩的大小能指定，比如说 650MB（CD 大小），元数据足够大的话，就会有很多的 650MB 的压缩包，上传起来比思源现在的上传小文件肯定会快很多；

然后就是映射关系，他本地也有一个数据库，保存的是映射关系和日志，相当于是缓存，可以删因为云端也有，这种同步的话，除了第一次同步这个日志数据库慢点，其余时间都比思源快很多。

加密上传后的的目录：能看到精简了很多
感觉还是 rsync 简单点,一样可以差异或增量备份

sunk926 • 1 年前

歪个楼，我用的 Kopia，感觉功能和这个软件一样优秀，也是完全开源，但商业化程度更低

Bard • 1 年前
其他回帖
muhanstudio • 1 年前
付费者支持者捐赠者

第一，我觉得你可能对对象存储有什么误解，对象存储的意义就是为了解决个人服务器带宽或者性能不够，然后提供一种按量计费的套餐，它的带宽是直接和腾讯从三大运营商拉过来的专线对等的，我再说的通俗一点，如果你家里宽带有 10000 兆的带宽，那么你下载腾讯 s3 的速度就是一万兆，你个人就算是硬盘提供得了这么大的速度吗？详情见这里，https://doc.fincloud.tencent.cn/tcloud/Storage/COS/845813/uploaddownloadfaq
对象存储的性能和带宽不上限，只按量，远超你自己局域网运行一个 docker 的性能

第二，我说了没有那么好的事情，即自由又稳定，况且，又不是没有解决方案，只需要把附件这种不会频繁变动的内容单独走另一个单独的上传信息通道就好了，而不是放到高频索引里面再扫一遍

第三，你也看了片段了，可以看到，它不是一个简单的索引触发器，更改的内容是由操作写入的，而不是索引对比文件，索引本身没有问题，问题是只有利用操作来写入索引才能让索引具有足够的时效性，这样做，同步的内容是和操作耦合的，而不是只和扫盘索引耦合，“数据分片”这个概念我也提到了，至少 ob 可以直接知道该同步哪一个 md 文件，思源可以在操作后马上知道该同步哪一个 sy 文件吗？倘若能，为什么要去扫盘？难道是因为我改了一个 sy 文件，每一次都要扫库看看我有没有改其他文件吗？那为什么不一直扫，万一我改了其他的文件但是没该文档，岂不是没有办法了，只能等我改文档的时候再帮我检测一下？这个思路倒是可以理解了。我是真的觉得，和用户的操作一块进行，监听哪些文件发生更改，然后没有中间服务商直接同步哪些文件，都比现在快。

第四，我知道你不停的强调建立一个快照或者索引有多快，但是，在我用的过程中，建立快照并不是卡我的原因，原因是这个快照索引本身就是没有时效性的，不可靠的，所以它不是建立完就没事了，他需要下载下来，然后解析，然后一个个核对，我的同步大部分时间就是花在这个核对索引上，一直在校验索引，少则校验 5-6s，多则半分钟，3.10 版本有时候校验索引都会卡死，扫盘建立的索引，终究还是要扫盘去核对

第五，我想表达的意思是，对象存储作为储存器并不是问题，问题是，没有一个很好的《中间件》来作为和对象存储的桥梁，anytype 的中间件，节点原理，即使塞到本体里面一样可以用（它也确实塞进去了），断网后，局域网内客户端是可以互相沟通同步的，每个客户端都具有与储存器之间的完整的中间件，而不是把储存器

同步应该与实时操作耦合，不然，我只能叫他频繁地扫盘备份，第三方备份这样做完全合理，甚至本应该就这么做，大家为了节省流量，或者因为没有同步感知，都会以较为低频的方式用，和 remotely-safe 基本上完全一个原理，但是官方同步，如果只是一个频繁地备份，我觉得至少不能作为一个优势，不说是缺点已经很不错了

muhanstudio • 1 年前

付费者支持者捐赠者

然后就是关于你提供的代码定位，我当然可以跟着你看代码，可以看到，光是监听就写了

        plugin.registerEvent(plugin.app.vault.on("modify", this.watchVaultChange));
        plugin.registerEvent(plugin.app.vault.on("delete", this.watchVaultDelete));
        plugin.registerEvent(plugin.app.vault.on("rename", this.watchVaultRename));
        plugin.registerEvent(plugin.app.vault.on("create", this.watchVaultCreate));
        //@ts-ignore : Internal API
        plugin.registerEvent(plugin.app.vault.on("raw", this.watchVaultRawEvents));

五个，每一个事件不只是一个触发器来触发进行扫盘索引，而是拥有具体的返回对象，例如

   watchVaultChange(file: TAbstractFile, ctx?: any) {
        this.appendQueue([{ type: "CHANGED", file }], ctx);
    }

通过将文件的修改事件封装成一个对象，这个方法能够为后续的处理提供结构化的数据，这至少是一种基本的处理，至少是和操作挂钩了，返回校验也不需要重新牵一发而动全身

其他的我就不细看了，要休息

1 回复

muhanstudio • 1 年前
付费者支持者捐赠者

我想向你描述的很清楚了，包括你现在又说伺服，我一开头表达的很清楚

同步目前最简单粗暴的增本增效的方法就是，直接在服务器上给每个订阅用户运行自己的思源内核实例，在使用官方同步的情况下，客户端后端直接与云端内核通信，离线状态下客户端自己记录距离上一次同步的离线时间戳，每当与云端内核连接，就开始对比数据新鲜度，而冲突解调在云端内核进行

代表我不是不知道伺服可以最快解决，但是你不能作为一个官方订阅，让用户自己伺服吧，所以我直接说了云内核，增本增效。

但是说实话，就做一个最简单的同步，单纯从打开窗口或者后端 api 请求判断哪个 sy 文件发送了改变，上传了哪些文件，删除了哪些文件，禁止 fs，真正的按需同步，也比现在快，大家当然想要如果修改了 3 个字，就只做同步 3 个字的操作，但现在恐怕连修改了 3 个字就只同步这个文档的操作都没做到

这个是想表达，储存器性能根本不是原因，是自己没做足够复杂的中间件处理，最为全世界广泛应用的技术，对象存储已经是最好的云端存储方案了，就好像是，能不能让博尔特再快 5s，这样我看他跑步时间就更短了，有没有可能是自己阈值太高？

然后就是，我也没有把 live 看成是什么标杆，它也是早轮子而已

说白了，你觉得很简单的东西，像 live 做的监听对象，思源加了没有？最后我说这么多，我觉得最核心的还是这个

从去年讨论到现在，关于同步已经讨论了无数多个先进方案了。我的评价是，别自嗨，主要看 D 怎么说

1 回复
查看全部回帖

zxhd86

一个农专人

回帖

1268

帖子

积分

915

关于思源同步为啥这么慢的探究

相关帖子

v3.5.0 希望只读文档下 Callout 图标能和可编辑模式下一样“宽敞”

正则匹配批量替换修改格式

申请退款, 找不到退款链接

标记背景底色能修改吗

如何使笔记本折叠后，记忆之前打开的格式，再次打开时恢复

问题反馈：右边侧边栏最小过宽

如何修改鼠标选中时的文本样式?

欢迎来到这里！

近期热议

推荐标签标签

最新标签

关于思源同步为啥这么慢的探究

相关帖子

v3.5.0 希望只读文档下 Callout 图标能和可编辑模式下一样“宽敞”

正则匹配批量替换修改格式

申请退款, 找不到退款链接

标记背景底色能修改吗

如何使笔记本折叠后，记忆之前打开的格式，再次打开时恢复

问题反馈：右边侧边栏最小过宽

如何修改鼠标选中时的文本样式?

欢迎来到这里！

近期热议

推荐标签 标签

最新标签

推荐标签标签