登录注册

关于思源同步为啥这么慢的探究

本贴最后更新于 494 天前，其中的信息可能已经时异事殊

太长不看：

扫盘建立快照不够高效，占比 10%
网络条件拉跨，占比 10-100%（假如你家网速正常就 10%，不正常直接断了，影响算 100% 是没问题吧）
同步有锁，必须交替进行，占比 30%
web 上传对小文件极不友好，占比 50%

关于一些前置的讨论可以看看 Issue #12246 · siyuan-note/siyuan ，我在这里研究了下 obsidian 的 livesync 插件与思源同步机制的差异，试图搞清楚，为啥都能使用 S3 作为同步中介，livesync 可以做到实时同步，而思源则有明显的卡顿感。

一个反直觉的观点是，思源的快照机制并不慢，至少不是同步慢的最主要问题。以下是测试出来的快照建立时间于同步时间之间的差异：

日记编辑 0.75s，未同步
主题更新（22 个文件，2m 数据量）0.86s，同步时间 3s
安装插件（650 个文件，20m 数据量）3.36s，同步时间 94s
删除插件（删除 650 个文件，20mb 数据）0.86s，同步时间 14s

以上都是先建立快照，再进行同步的操作，换而言之，同步的时间已经是去除快照建立的时间了，但是还是可以看出相对于快照操作是很慢的。

因此同步慢的的最大根源就是同步加锁……而已吗？

直到今天之前，我都是这个观点，但我忽然想到，同步加锁只是会影响到另一端同步并下载云端内容的速度，理论上不会影响到我这一端上传的速度，或许还要严格评估一下 web io 对于同步速度的影响。因此我直接在本地搭建了一个 docker minio，新开了一个库作为测试。我同时把我主笔记库的数据复制过来了，总共是 800m 的大小，6500 个文件。

我阅读了 dejavu 的代码，发现它里面有对同时上传文件数的限制。我合理的怀疑这就是问题的根源。于是，我拉到本地，进行修改，将同时上传、下载文件数的限制，也是 NewPoolWithFunc 的 poolSize 全拉高了 10 倍，重新打包思源的 kernel，进行测试。以上所有操作都是基于思源是个开源软件，所有，哎，就是能改着玩！

在我进行修改之前，使用本地的 minio 进行全库上传的耗时是 440s，那么，你觉得我修改后的耗时是多少呢？

还是 436s！

这少掉的 4s，完全可以被认为就是一个误差而已，因此可以说，dejavu 里对同时上传文件大小的限制，根本就不是同步慢的原因。

我尝试绕过思源，直接通过 minio 的 webui 上传，时间相差无几。

接着，我做了另一种尝试，使用 restic 进行备份，然后直接通过 webui 上传。备份同样的内容，思源的同步机制总共生成了 13,062 个文件，259 个文件夹，而 restic 则是 48 个文件，261 个文件夹。

最后，restic 的上传时间为 10s。

在查看日志中发现，minio 的同时上传速度哪怕在本地也只能做到每秒 40 左右的文件。

作为测试，我尝试使用官方的上传机制，这次就更慢了，每秒只能上传 16 个文件。而且甚至因为同时上传等待时间过长，还给我返回了 time out 报错。

因此，问题的根源似乎很清楚了：思源扫盘建立快照当然可以进步，但进步空间不大。改善云端同步协作机制、实现无锁同步，以及改变思源的快照分片机制，才是根本解决方案。

那么，古尔丹，代价是什么呢？

代价就是，从此思源的增量下载能力可能大大减弱，可能你下载一个快照，就得把整个库下载回来，因为现在一个数据分块对应了多个实际的文件，你只能一起下载回来再拆分。

这里，我就不得不感慨，省空间换时间，还是省时间换空间，依然、并且永远，是一个值得考虑的问题啊。

思源笔记

思源笔记是一款隐私优先的个人知识管理系统，支持完全离线使用，同时也支持端到端加密同步。

融合块、大纲和双向链接，重构你的思维。
28447 引用 • 119791 回帖

zxhd86 1 年前

10 感谢

3 关注

5 收藏

2 赞同

61 回帖

4.1k 770 21 2.2k 5 5 1.1k

欢迎来到这里！

我们正在构建一个小众社区，大家在这里相互信任，以平等 • 自由 • 奔放的价值观进行分享交流。最终，希望大家能够找到与自己志同道合的伙伴，共同成长。

注册关于

请输入回帖内容 ...

muhanstudio • 1 年前
付费者支持者捐赠者

所以现在的问题是，同步的过程切割了太多不必要的小文件吗？平常编辑 sy 也很慢，或许因为这个？那我觉得附件可以走另一个通道，当他只是一个附件时，总有好的解决方法，常见的是走另外上传，显示上传进度条，而不是和 sy 这种小型文件放在一起进行多余的操作

1 回复
其他回帖

sunk926 • 1 年前 • 1 评论

付费者捐赠者

#!/bin/sh
docker stop siyuan 

echo -e "\n\n" >> /root/siyuan/rsync.log
echo Sync started at $(date "+%Y-%m-%d %H:%M:%S")  >> /root/siyuan/rsync.log
mount -t cifs -o username=sun,password=123456 //192.168.8.8/f/ /mnt/windows_share

#rsync -avz --delete --exclude=rsync.log /root/siyuan/ /mnt/windows_share/siyuan >> /root/siyuan/rsync.log 2>&1 || /usr/bin/pwsh /root/siyuan/qqMail.ps siyuanSyncError_192.168.8.8

rsync -avz --delete --exclude=rsync.log /root/siyuan/ /mnt/windows_share/siyuan || /usr/bin/pwsh /root/siyuan/qqMail.ps siyuanSyncError_192.168.8.6

umount /mnt/windows_share
docker start siyuan

这是我之前的 linux 上的同步方案,你可以参考一下,每天晚上自动停止思源服务,自动挂载备份,然后同步,同步出错后发送邮件通知, 还有失败日志. 用了好几年了,几乎没出过问题,就算磁盘满发过几次邮件.你可以修改一下在桌面端使用,原理一样的.

其实现在用的少了,之前还自己搭建 s3,太折腾了,目前就用 cloudflare 了,省事,反正你只要不要往笔记里面塞太多大文件,同步还是能接受的.

sunk926 • 1 年前

zxhd86 • 1 年前
订阅者先知作者

我再说的通俗一点，如果你家里宽带有 10000 兆的带宽，那么你下载腾讯 s3 的速度就是一万兆，你个人就算是硬盘提供得了这么大的速度吗？详情见这里，https://doc.fincloud.tencent.cn/tcloud/Storage/COS/845813/uploaddownloadfaq
对象存储的性能和带宽不上限，只按量，远超你自己局域网运行一个 docker 的性能

对象储存对于少量大文件的带宽确实能跑满，但是大量小文件就不太行了。这个我已经在腾讯云上尝试过了，参照上面的记录，golang 并发上传数设为 640，但是每秒上传文件数他就是有上限的，腾讯云也只能达到每秒 20 个，目前看来，对于小文件，还是 minio 在本地是比较快。

如果你测试出更好的数据，可以跟我说一下怎么写，我也可以改进下 siyuan 这方面的代码。

我说了没有那么好的事情，即自由又稳定，况且，又不是没有解决方案，只需要把附件这种不会频繁变动的内容单独走另一个单独的上传信息通道就好了，而不是放到高频索引里面再扫一遍

可是实际上外部变动主要就是改附件啊，单纯思源本身的笔记文件反而不太会被改，因为其他软件读不懂……

至少 ob 可以直接知道该同步哪一个 md 文件，思源可以在操作后马上知道该同步哪一个 sy 文件吗？倘若能，为什么要去扫盘？难道是因为我改了一个 sy 文件，每一次都要扫库看看我有没有改其他文件吗？那为什么不一直扫，万一我改了其他的文件但是没该文档，岂不是没有办法了，只能等我改文档的时候再帮我检测一下？这个思路倒是可以理解了。我是真的觉得，和用户的操作一块进行，监听哪些文件发生更改，然后没有中间服务商直接同步哪些文件，都比现在快。

我倒是没有否认 ob livesync 建立快照速度更快，更有优越性，只不过 golang 上没有太好可用的包。

我知道你不停的强调建立一个快照或者索引有多快，但是，在我用的过程中，建立快照并不是卡我的原因，原因是这个快照索引本身就是没有时效性的，不可靠的，所以它不是建立完就没事了，他需要下载下来，然后解析，然后一个个核对，我的同步大部分时间就是花在这个核对索引上，一直在校验索引，少则校验 5-6s，多则半分钟，3.10 版本有时候校验索引都会卡死，扫盘建立的索引，终究还是要扫盘去核对

此索引非彼索引啊，这里有两个概念的索引，siyuan sqlite 里的索引和快照 dejavu 使用的文档索引。思源懒得判断文档变化情况选择全部校验一遍来重建 sqlite 确实是懒政情况了，但是这跟同步的索引和快照完全是两回事啊。解决问题终究还是要一个个来的。

局域网内客户端是可以互相沟通同步的，每个客户端都具有与储存器之间的完整的中间件

我觉得对等点本身就是一个服务端了吧……硬要这么说，思源也可以内部塞一个 webdav 或 s3 实现，然后直接通过局域网发现协议互相找到端口，进行同步。但是这种情况下思源自己就成为服务端了，这跟思源作为伺服的区别有多大呢？

1 回复
muhanstudio • 1 年前
付费者支持者捐赠者

我想向你描述的很清楚了，包括你现在又说伺服，我一开头表达的很清楚

同步目前最简单粗暴的增本增效的方法就是，直接在服务器上给每个订阅用户运行自己的思源内核实例，在使用官方同步的情况下，客户端后端直接与云端内核通信，离线状态下客户端自己记录距离上一次同步的离线时间戳，每当与云端内核连接，就开始对比数据新鲜度，而冲突解调在云端内核进行

代表我不是不知道伺服可以最快解决，但是你不能作为一个官方订阅，让用户自己伺服吧，所以我直接说了云内核，增本增效。

但是说实话，就做一个最简单的同步，单纯从打开窗口或者后端 api 请求判断哪个 sy 文件发送了改变，上传了哪些文件，删除了哪些文件，禁止 fs，真正的按需同步，也比现在快，大家当然想要如果修改了 3 个字，就只做同步 3 个字的操作，但现在恐怕连修改了 3 个字就只同步这个文档的操作都没做到

这个是想表达，储存器性能根本不是原因，是自己没做足够复杂的中间件处理，最为全世界广泛应用的技术，对象存储已经是最好的云端存储方案了，就好像是，能不能让博尔特再快 5s，这样我看他跑步时间就更短了，有没有可能是自己阈值太高？

然后就是，我也没有把 live 看成是什么标杆，它也是早轮子而已

说白了，你觉得很简单的东西，像 live 做的监听对象，思源加了没有？最后我说这么多，我觉得最核心的还是这个

从去年讨论到现在，关于同步已经讨论了无数多个先进方案了。我的评价是，别自嗨，主要看 D 怎么说

1 回复
查看全部回帖

zxhd86

一个农专人

回帖

1268

帖子

积分

915

关于思源同步为啥这么慢的探究

相关帖子

正则匹配批量替换修改格式

申请退款, 找不到退款链接

标记背景底色能修改吗

如何使笔记本折叠后，记忆之前打开的格式，再次打开时恢复

问题反馈：右边侧边栏最小过宽

如何修改鼠标选中时的文本样式?

请问文档树中「笔记本」「子文档」的选择器分别是什么？

欢迎来到这里！

近期热议

推荐标签标签

最新标签

关于思源同步为啥这么慢的探究

相关帖子

正则匹配批量替换修改格式

申请退款, 找不到退款链接

标记背景底色能修改吗

如何使笔记本折叠后，记忆之前打开的格式，再次打开时恢复

问题反馈：右边侧边栏最小过宽

如何修改鼠标选中时的文本样式?

请问文档树中「笔记本」「子文档」的选择器分别是什么？

欢迎来到这里！

近期热议

推荐标签 标签

最新标签

推荐标签标签