同步出现了很多重复文件

本贴最后更新于 325 天前,其中的信息可能已经时异事殊

我看那个时间点,应该是断过一次网。

不知道为什么,断网之后,为什么出现了很多同名文件,ID 不一样了。

  • 思源笔记

    思源笔记是一款隐私优先的个人知识管理系统,支持完全离线使用,同时也支持端到端加密同步。

    融合块、大纲和双向链接,重构你的思维。

    23007 引用 • 92542 回帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • 88250 7 评论

    同步过程中断网或者其他意外情况不会造成数据重复或者损坏的。

    重复的文档应该是因为生成了冲突文件,请参考 用户指南 - 数据安全 - 数据可用性保障 - 云端同步 章节。

    目前我正在找,唉,大概多了 500 个文件
    moohadun
    能给增加配置,比如,冲突文件自动生成的,带有【冲突文件】后缀这样吗?不然我也不知道自动生成的冲突文件,区别。
    moohadun
    @moohadun 冲突文档的文档名上默认会添加 Conflicted 的(也就是你所说的“冲突”)
    JeffreyChen
    你们的同步逻辑有问题吧。我发现今中午又产生了 500 个文件。
    moohadun
    @moohadun 同步逻辑没有问题的,请参考用户指南云端同步章节,那里有冲突场景介绍。
    88250
    没有产生同步文件。 没有出现默认 Conflicted 的文件。 你去复现一下,将一个文档移动到另一个文件夹中。是不是会出现新文档
    moohadun
    复现的条件,应该是有很多的文档时,将一个父文档移动到另一个地方,云端同步了,你们的本地数据写的不及时,然后与云端比较不一致导致的 。
    moohadun
  • 88250 1 评论

    我这里使用 500 子文档、2000 子文档的数据集多次移动的同时进行同步测试,无法重现该问题,如果你那里能够稳定重现,请上传系统日志,我看下能否定位问题。

    1 回复
    我上传了。
    moohadun
  • systemlog1.zip

    时间有两个节点:1.31 晚上 19:12-22 分左右。

    2.1 中午,12 点左右

    1 回复
  • 88250 1 评论

    1 月 31 号 19:32 校验索引时发现了 221 个 ID 重复的文档:

    W 2024/01/31 19:32:36 index_fix.go:128: exist more than one tree duplicated [221], reindex it
    

    往前看可以找到是从 Android 端同步过来的:

    I 2024/01/31 19:13:39 siyuan.go:138: downloaded object [siyuan/1642173161657/repo/siyuan-note-wei/indexes/2b2524e142b3371892a71743d9f824a018d675a3]
    I 2024/01/31 19:13:39 sync.go:1592: got cloud latest [device=ec69xd57s31n/android, id=2b2524e142b3371892a71743d9f824a018d675a3, files=8662, size=1.6 GB, created=2024-01-31 18:40:09]
    

    Android 端的这个快照 2b2524e 有 8662 个文件。以 ID 重复的 20240110112136-hmzri1c.sy 为例,可以看到在本地的路径是:/20240110224850-mj5s0a2/20240111162221-s1f6o2h/20240110112136-hmzri1c.sy,但是 Android 端的路径是 /20240110224850-mj5s0a2/20240110112136-hmzri1c.sy,中间少了一层,这种情况下文件路径不同,所以不会自动合并,而是将 Android 的文件下载到本地,导致本地存在了两个一样 ID 的文档。

    继续往前追溯 Android 端同步,可以找到 1 月 30 号的同步:

    I 2024/01/30 09:35:00 sync.go:1592: got cloud latest [device=ec69xd57s31n/android, id=8638d653e54c7863c2a04ab62e4564b2faf74591, files=8412, size=1.6 GB, created=2024-01-30 09:34:58]
    

    这时候 Android 端快照 8638d65 文件数量是 8412,也就是说这段时间内 Android 端增加了 250 个文件,这些文件是其他端同步过去的还是如何新增的,需要 Android 端的日志才能进一步分析了,可能就是这些文件重复导致的问题,请上传 Android 端的日志,谢谢。

    1、安卓日志已经上传;2、你们肯定考虑了同步文件的时候,发生了文档移动的情况(不限于跨文件夹移动);3、可否告知“中间少了一层,这种情况下文件路径不同,所以不会自动合并”这个逻辑是为了哪种场景。4、还有就是我删除多个文件夹后来又出现了。不知道为啥,甚至删不掉,我只能手动清空文件系统
    moohadun
  • 88250

    移动端的这份日志中可以找到快照 2b2524e 生成的时候已经有重复文件了:

    I 2024/01/31 18:40:09 repo.go:595: walk data [files=8662] cost [894.393749ms]
    I 2024/01/31 18:40:09 ref.go:50: got local latest [device=ec69xd57s31n/android, id=8f878d82797dac8e978e35833d6e51067f83bbb7, files=8412, size=1.6 GB, created=2024-01-31 18:39:20]
    I 2024/01/31 18:40:09 ref.go:64: updated local latest to [device=ec69xd57s31n/android, id=2b2524e142b3371892a71743d9f824a018d675a3, files=8662, size=1.6 GB, created=2024-01-31 18:40:09]
    

    往前看可以找到文件 /20240110224850-mj5s0a2/20240111162221-s1f6o2h/20240110112136-hmzri1c.sy 是从云端同步下来的,但是此时本地同时也存在了文件 /20240110224850-mj5s0a2/20240110112136-hmzri1c.sy,所以这两个文件不存在冲突(虽然文件内容一样但是路径不同),也就会被作为不同的两个文件对待:

    I 2024/01/31 18:40:08 sync.go:308: sync merge upsert [7d95d3f1adae4694dadffa6539b88e8e9456bb7f, /20240110224850-mj5s0a2/20240111162221-s1f6o2h/20240110112136-hmzri1c.sy, 2024-01-10 11:22:07]
    ....
    I 2024/01/31 18:40:09 sync.go:419: merge index add [7d95d3f1adae4694dadffa6539b88e8e9456bb7f, /20240110224850-mj5s0a2/20240111162221-s1f6o2h/20240110112136-hmzri1c.sy, 2024-01-10 11:22:07]
    ....
    I 2024/01/31 18:40:09 sync.go:1336: upsert file [598049fc72fdf7c8d2955b47bd4512c05f676902, /20240110224850-mj5s0a2/20240110112136-hmzri1c.sy, 2024-01-10 11:22:07] chunk [9670d894d23a470a0eb384536cb3b690d2650dc0]
    

    最终结果就是产生了重复文档。

    你那边是否手动操作过文件系统(比如复制文件)?另外是否还有其他参与同步的设备,如果有的话请一并提供日志文件。我们得再找找重现步骤,这个问题之前没有人反馈过,请帮助我们尽量跟踪定位到问题,谢谢。

  • systemlog2.zip

    这个日志看看有吗?不是很确定。

    回答:1,没有手动操作过文件系统的。

    疑惑:能否解惑,“中间少了一层,这种情况下文件路径不同,所以不会自动合并"这个逻辑是为了哪种场景。id 相同为啥不能认定为同一个文件嘞,增加判断路径是为了场中场景

    1 回复
  • 88250 2 评论

    这份 macOS 端的日志 1 月 30 号 12 点进行了一次全量下载,文件没有重复,也没有其他异常。

    文件路径不同的话肯定就是不同的文件了。

    我又在 PC 端日志中搜索了下,发现 /20240110224850-mj5s0a2/20240111162221-s1f6o2h/20240110112136-hmzri1c.sy 文件第一次出现是在 1 月 31 号 15 点 16 分:

    I 2024/01/31 15:16:54 sync.go:1336: upsert file [7d95d3f1adae4694dadffa6539b88e8e9456bb7f, /20240110224850-mj5s0a2/20240111162221-s1f6o2h/20240110112136-hmzri1c.sy, 2024-01-10 11:22:07] chunk [9670d894d23a470a0eb384536cb3b690d2650dc0]
    

    这个文件最后的更新时间是 2024-01-10 11:22:07,后面也也只没有变动过,只是云端一直都存在 /20240110224850-mj5s0a2/20240110112136-hmzri1c.sy,所以文件就重复了。

    那我也不懂了。我这个情况出现的还是挺多的。好像最近这几个月都有过,只不过,我这次因为重复的太多了,我才提。会不会是因为我的文档太多了呢
    moohadun
    @moohadun 那就只能继续观察了,麻烦留意重现步骤。我这边在 10000+ 文档的数据集下测试移动文档暂时没有发现重复问题。
    88250
  • @88250 现在同步又出现问题了,这次参与的只有两个终端。场景:将文件夹下 A 的 A1 文件移动到 B 文件夹下,然后打开安卓端,进行同步。然后,文件夹 A 下的 A1 文件没有了。B 文件夹下多了一个新的文件 B1

  • moohadun 1 2 评论
    1 回复
    旧的 ID 信息———((20231119192606-jxpmujz '任务管理'));((20231122104908-bg77jgx '项目管理'))
    moohadun
    新的 ID 信息 任务管理](siyuan://blocks/20240326165050-tsnl9rk);项目管理](siyuan://blocks/20240326165050-vptp2gj)
    moohadun
  • 88250

    找到问题了,是因为移动端下午 16:50 同步时索引校验程序错误修订了重复 ID(这时候同步还未完成,不应该订正数据)

    W 2024/03/26 16:50:50 index_fix.go:242: exist more than one tree with the same id [/storage/emulated/0/Android/data/org.b3log.siyuan/files/siyuan/data/20240110224850-mj5s0a2/20231119192606-jxpmujz.sy], reset it
    

    这个问题下个版本解决 Issue #10761 · siyuan-note/siyuan 感谢反馈!

    1 操作
    88250 在 2024-03-27 09:05:42 更新了该回帖
请输入回帖内容 ...

推荐标签 标签

  • PostgreSQL

    PostgreSQL 是一款功能强大的企业级数据库系统,在 BSD 开源许可证下发布。

    22 引用 • 22 回帖
  • Wide

    Wide 是一款基于 Web 的 Go 语言 IDE。通过浏览器就可以进行 Go 开发,并有代码自动完成、查看表达式、编译反馈、Lint、实时结果输出等功能。

    欢迎访问我们运维的实例: https://wide.b3log.org

    30 引用 • 218 回帖 • 635 关注
  • 脑图

    脑图又叫思维导图,是表达发散性思维的有效图形思维工具 ,它简单却又很有效,是一种实用性的思维工具。

    30 引用 • 96 回帖
  • 运维

    互联网运维工作,以服务为中心,以稳定、安全、高效为三个基本点,确保公司的互联网业务能够 7×24 小时为用户提供高质量的服务。

    149 引用 • 257 回帖
  • SVN

    SVN 是 Subversion 的简称,是一个开放源代码的版本控制系统,相较于 RCS、CVS,它采用了分支管理系统,它的设计目标就是取代 CVS。

    29 引用 • 98 回帖 • 694 关注
  • LaTeX

    LaTeX(音译“拉泰赫”)是一种基于 ΤΕΧ 的排版系统,由美国计算机学家莱斯利·兰伯特(Leslie Lamport)在 20 世纪 80 年代初期开发,利用这种格式,即使使用者没有排版和程序设计的知识也可以充分发挥由 TeX 所提供的强大功能,能在几天,甚至几小时内生成很多具有书籍质量的印刷品。对于生成复杂表格和数学公式,这一点表现得尤为突出。因此它非常适用于生成高印刷质量的科技和数学类文档。

    12 引用 • 54 回帖 • 49 关注
  • Gzip

    gzip (GNU zip)是 GNU 自由软件的文件压缩程序。我们在 Linux 中经常会用到后缀为 .gz 的文件,它们就是 Gzip 格式的。现今已经成为互联网上使用非常普遍的一种数据压缩格式,或者说一种文件格式。

    9 引用 • 12 回帖 • 147 关注
  • IBM

    IBM(国际商业机器公司)或万国商业机器公司,简称 IBM(International Business Machines Corporation),总公司在纽约州阿蒙克市。1911 年托马斯·沃森创立于美国,是全球最大的信息技术和业务解决方案公司,拥有全球雇员 30 多万人,业务遍及 160 多个国家和地区。

    17 引用 • 53 回帖 • 140 关注
  • Kafka

    Kafka 是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。 这种动作(网页浏览,搜索和其他用户的行动)是现代系统中许多功能的基础。 这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。

    36 引用 • 35 回帖
  • 倾城之链
    23 引用 • 66 回帖 • 138 关注
  • OpenStack

    OpenStack 是一个云操作系统,通过数据中心可控制大型的计算、存储、网络等资源池。所有的管理通过前端界面管理员就可以完成,同样也可以通过 Web 接口让最终用户部署资源。

    10 引用 • 1 关注
  • Redis

    Redis 是一个开源的使用 ANSI C 语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value 数据库,并提供多种语言的 API。从 2010 年 3 月 15 日起,Redis 的开发工作由 VMware 主持。从 2013 年 5 月开始,Redis 的开发由 Pivotal 赞助。

    286 引用 • 248 回帖 • 44 关注
  • OkHttp

    OkHttp 是一款 HTTP & HTTP/2 客户端库,专为 Android 和 Java 应用打造。

    16 引用 • 6 回帖 • 76 关注
  • WiFiDog

    WiFiDog 是一套开源的无线热点认证管理工具,主要功能包括:位置相关的内容递送;用户认证和授权;集中式网络监控。

    1 引用 • 7 回帖 • 591 关注
  • Vditor

    Vditor 是一款浏览器端的 Markdown 编辑器,支持所见即所得、即时渲染(类似 Typora)和分屏预览模式。它使用 TypeScript 实现,支持原生 JavaScript、Vue、React 和 Angular。

    354 引用 • 1823 回帖 • 1 关注
  • 单点登录

    单点登录(Single Sign On)是目前比较流行的企业业务整合的解决方案之一。SSO 的定义是在多个应用系统中,用户只需要登录一次就可以访问所有相互信任的应用系统。

    9 引用 • 25 回帖
  • WordPress

    WordPress 是一个使用 PHP 语言开发的博客平台,用户可以在支持 PHP 和 MySQL 数据库的服务器上架设自己的博客。也可以把 WordPress 当作一个内容管理系统(CMS)来使用。WordPress 是一个免费的开源项目,在 GNU 通用公共许可证(GPLv2)下授权发布。

    66 引用 • 114 回帖 • 223 关注
  • SendCloud

    SendCloud 由搜狐武汉研发中心孵化的项目,是致力于为开发者提供高质量的触发邮件服务的云端邮件发送平台,为开发者提供便利的 API 接口来调用服务,让邮件准确迅速到达用户收件箱并获得强大的追踪数据。

    2 引用 • 8 回帖 • 486 关注
  • 深度学习

    深度学习(Deep Learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。

    53 引用 • 40 回帖 • 2 关注
  • Python

    Python 是一种面向对象、直译式电脑编程语言,具有近二十年的发展历史,成熟且稳定。它包含了一组完善而且容易理解的标准库,能够轻松完成很多常见的任务。它的语法简捷和清晰,尽量使用无异义的英语单词,与其它大多数程序设计语言使用大括号不一样,它使用缩进来定义语句块。

    545 引用 • 672 回帖
  • GAE

    Google App Engine(GAE)是 Google 管理的数据中心中用于 WEB 应用程序的开发和托管的平台。2008 年 4 月 发布第一个测试版本。目前支持 Python、Java 和 Go 开发部署。全球已有数十万的开发者在其上开发了众多的应用。

    14 引用 • 42 回帖 • 780 关注
  • 心情

    心是产生任何想法的源泉,心本体会陷入到对自己本体不能理解的状态中,因为心能产生任何想法,不能分出对错,不能分出自己。

    59 引用 • 369 回帖
  • Scala

    Scala 是一门多范式的编程语言,集成面向对象编程和函数式编程的各种特性。

    13 引用 • 11 回帖 • 138 关注
  • 域名

    域名(Domain Name),简称域名、网域,是由一串用点分隔的名字组成的 Internet 上某一台计算机或计算机组的名称,用于在数据传输时标识计算机的电子方位(有时也指地理位置)。

    43 引用 • 208 回帖
  • Openfire

    Openfire 是开源的、基于可拓展通讯和表示协议 (XMPP)、采用 Java 编程语言开发的实时协作服务器。Openfire 的效率很高,单台服务器可支持上万并发用户。

    6 引用 • 7 回帖 • 101 关注
  • 电影

    这是一个不能说的秘密。

    121 引用 • 604 回帖 • 1 关注
  • SQLite

    SQLite 是一个进程内的库,实现了自给自足的、无服务器的、零配置的、事务性的 SQL 数据库引擎。SQLite 是全世界使用最为广泛的数据库引擎。

    5 引用 • 7 回帖 • 1 关注