同步出现了很多重复文件

本贴最后更新于 295 天前,其中的信息可能已经时异事殊

我看那个时间点,应该是断过一次网。

不知道为什么,断网之后,为什么出现了很多同名文件,ID 不一样了。

  • 思源笔记

    思源笔记是一款隐私优先的个人知识管理系统,支持完全离线使用,同时也支持端到端加密同步。

    融合块、大纲和双向链接,重构你的思维。

    22351 引用 • 89431 回帖 • 1 关注

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • moohadun 1 2 评论
    1 回复
    旧的 ID 信息———((20231119192606-jxpmujz '任务管理'));((20231122104908-bg77jgx '项目管理'))
    moohadun
    新的 ID 信息 任务管理](siyuan://blocks/20240326165050-tsnl9rk);项目管理](siyuan://blocks/20240326165050-vptp2gj)
    moohadun
  • 其他回帖
  • 88250 2 评论

    这份 macOS 端的日志 1 月 30 号 12 点进行了一次全量下载,文件没有重复,也没有其他异常。

    文件路径不同的话肯定就是不同的文件了。

    我又在 PC 端日志中搜索了下,发现 /20240110224850-mj5s0a2/20240111162221-s1f6o2h/20240110112136-hmzri1c.sy 文件第一次出现是在 1 月 31 号 15 点 16 分:

    I 2024/01/31 15:16:54 sync.go:1336: upsert file [7d95d3f1adae4694dadffa6539b88e8e9456bb7f, /20240110224850-mj5s0a2/20240111162221-s1f6o2h/20240110112136-hmzri1c.sy, 2024-01-10 11:22:07] chunk [9670d894d23a470a0eb384536cb3b690d2650dc0]
    

    这个文件最后的更新时间是 2024-01-10 11:22:07,后面也也只没有变动过,只是云端一直都存在 /20240110224850-mj5s0a2/20240110112136-hmzri1c.sy,所以文件就重复了。

    那我也不懂了。我这个情况出现的还是挺多的。好像最近这几个月都有过,只不过,我这次因为重复的太多了,我才提。会不会是因为我的文档太多了呢
    moohadun
    @moohadun 那就只能继续观察了,麻烦留意重现步骤。我这边在 10000+ 文档的数据集下测试移动文档暂时没有发现重复问题。
    88250
  • 88250

    移动端的这份日志中可以找到快照 2b2524e 生成的时候已经有重复文件了:

    I 2024/01/31 18:40:09 repo.go:595: walk data [files=8662] cost [894.393749ms]
    I 2024/01/31 18:40:09 ref.go:50: got local latest [device=ec69xd57s31n/android, id=8f878d82797dac8e978e35833d6e51067f83bbb7, files=8412, size=1.6 GB, created=2024-01-31 18:39:20]
    I 2024/01/31 18:40:09 ref.go:64: updated local latest to [device=ec69xd57s31n/android, id=2b2524e142b3371892a71743d9f824a018d675a3, files=8662, size=1.6 GB, created=2024-01-31 18:40:09]
    

    往前看可以找到文件 /20240110224850-mj5s0a2/20240111162221-s1f6o2h/20240110112136-hmzri1c.sy 是从云端同步下来的,但是此时本地同时也存在了文件 /20240110224850-mj5s0a2/20240110112136-hmzri1c.sy,所以这两个文件不存在冲突(虽然文件内容一样但是路径不同),也就会被作为不同的两个文件对待:

    I 2024/01/31 18:40:08 sync.go:308: sync merge upsert [7d95d3f1adae4694dadffa6539b88e8e9456bb7f, /20240110224850-mj5s0a2/20240111162221-s1f6o2h/20240110112136-hmzri1c.sy, 2024-01-10 11:22:07]
    ....
    I 2024/01/31 18:40:09 sync.go:419: merge index add [7d95d3f1adae4694dadffa6539b88e8e9456bb7f, /20240110224850-mj5s0a2/20240111162221-s1f6o2h/20240110112136-hmzri1c.sy, 2024-01-10 11:22:07]
    ....
    I 2024/01/31 18:40:09 sync.go:1336: upsert file [598049fc72fdf7c8d2955b47bd4512c05f676902, /20240110224850-mj5s0a2/20240110112136-hmzri1c.sy, 2024-01-10 11:22:07] chunk [9670d894d23a470a0eb384536cb3b690d2650dc0]
    

    最终结果就是产生了重复文档。

    你那边是否手动操作过文件系统(比如复制文件)?另外是否还有其他参与同步的设备,如果有的话请一并提供日志文件。我们得再找找重现步骤,这个问题之前没有人反馈过,请帮助我们尽量跟踪定位到问题,谢谢。

  • 88250 1 评论

    1 月 31 号 19:32 校验索引时发现了 221 个 ID 重复的文档:

    W 2024/01/31 19:32:36 index_fix.go:128: exist more than one tree duplicated [221], reindex it
    

    往前看可以找到是从 Android 端同步过来的:

    I 2024/01/31 19:13:39 siyuan.go:138: downloaded object [siyuan/1642173161657/repo/siyuan-note-wei/indexes/2b2524e142b3371892a71743d9f824a018d675a3]
    I 2024/01/31 19:13:39 sync.go:1592: got cloud latest [device=ec69xd57s31n/android, id=2b2524e142b3371892a71743d9f824a018d675a3, files=8662, size=1.6 GB, created=2024-01-31 18:40:09]
    

    Android 端的这个快照 2b2524e 有 8662 个文件。以 ID 重复的 20240110112136-hmzri1c.sy 为例,可以看到在本地的路径是:/20240110224850-mj5s0a2/20240111162221-s1f6o2h/20240110112136-hmzri1c.sy,但是 Android 端的路径是 /20240110224850-mj5s0a2/20240110112136-hmzri1c.sy,中间少了一层,这种情况下文件路径不同,所以不会自动合并,而是将 Android 的文件下载到本地,导致本地存在了两个一样 ID 的文档。

    继续往前追溯 Android 端同步,可以找到 1 月 30 号的同步:

    I 2024/01/30 09:35:00 sync.go:1592: got cloud latest [device=ec69xd57s31n/android, id=8638d653e54c7863c2a04ab62e4564b2faf74591, files=8412, size=1.6 GB, created=2024-01-30 09:34:58]
    

    这时候 Android 端快照 8638d65 文件数量是 8412,也就是说这段时间内 Android 端增加了 250 个文件,这些文件是其他端同步过去的还是如何新增的,需要 Android 端的日志才能进一步分析了,可能就是这些文件重复导致的问题,请上传 Android 端的日志,谢谢。

    1、安卓日志已经上传;2、你们肯定考虑了同步文件的时候,发生了文档移动的情况(不限于跨文件夹移动);3、可否告知“中间少了一层,这种情况下文件路径不同,所以不会自动合并”这个逻辑是为了哪种场景。4、还有就是我删除多个文件夹后来又出现了。不知道为啥,甚至删不掉,我只能手动清空文件系统
    moohadun
  • 查看全部回帖

推荐标签 标签

  • TensorFlow

    TensorFlow 是一个采用数据流图(data flow graphs),用于数值计算的开源软件库。节点(Nodes)在图中表示数学操作,图中的线(edges)则表示在节点间相互联系的多维数据数组,即张量(tensor)。

    20 引用 • 19 回帖
  • wolai

    我来 wolai:不仅仅是未来的云端笔记!

    2 引用 • 14 回帖
  • Ubuntu

    Ubuntu(友帮拓、优般图、乌班图)是一个以桌面应用为主的 Linux 操作系统,其名称来自非洲南部祖鲁语或豪萨语的“ubuntu”一词,意思是“人性”、“我的存在是因为大家的存在”,是非洲传统的一种价值观,类似华人社会的“仁爱”思想。Ubuntu 的目标在于为一般用户提供一个最新的、同时又相当稳定的主要由自由软件构建而成的操作系统。

    125 引用 • 169 回帖 • 1 关注
  • InfluxDB

    InfluxDB 是一个开源的没有外部依赖的时间序列数据库。适用于记录度量,事件及实时分析。

    2 引用 • 72 关注
  • Ruby

    Ruby 是一种开源的面向对象程序设计的服务器端脚本语言,在 20 世纪 90 年代中期由日本的松本行弘(まつもとゆきひろ/Yukihiro Matsumoto)设计并开发。在 Ruby 社区,松本也被称为马茨(Matz)。

    7 引用 • 31 回帖 • 210 关注
  • Openfire

    Openfire 是开源的、基于可拓展通讯和表示协议 (XMPP)、采用 Java 编程语言开发的实时协作服务器。Openfire 的效率很高,单台服务器可支持上万并发用户。

    6 引用 • 7 回帖 • 94 关注
  • JavaScript

    JavaScript 一种动态类型、弱类型、基于原型的直译式脚本语言,内置支持类型。它的解释器被称为 JavaScript 引擎,为浏览器的一部分,广泛用于客户端的脚本语言,最早是在 HTML 网页上使用,用来给 HTML 网页增加动态功能。

    729 引用 • 1327 回帖
  • Vim

    Vim 是类 UNIX 系统文本编辑器 Vi 的加强版本,加入了更多特性来帮助编辑源代码。Vim 的部分增强功能包括文件比较(vimdiff)、语法高亮、全面的帮助系统、本地脚本(Vimscript)和便于选择的可视化模式。

    29 引用 • 66 回帖
  • BAE

    百度应用引擎(Baidu App Engine)提供了 PHP、Java、Python 的执行环境,以及云存储、消息服务、云数据库等全面的云服务。它可以让开发者实现自动地部署和管理应用,并且提供动态扩容和负载均衡的运行环境,让开发者不用考虑高成本的运维工作,只需专注于业务逻辑,大大降低了开发者学习和迁移的成本。

    19 引用 • 75 回帖 • 641 关注
  • 安装

    你若安好,便是晴天。

    132 引用 • 1184 回帖
  • 知乎

    知乎是网络问答社区,连接各行各业的用户。用户分享着彼此的知识、经验和见解,为中文互联网源源不断地提供多种多样的信息。

    10 引用 • 66 回帖
  • 钉钉

    钉钉,专为中国企业打造的免费沟通协同多端平台, 阿里巴巴出品。

    15 引用 • 67 回帖 • 340 关注
  • 安全

    安全永远都不是一个小问题。

    199 引用 • 816 回帖 • 1 关注
  • 面试

    面试造航母,上班拧螺丝。多面试,少加班。

    325 引用 • 1395 回帖
  • OkHttp

    OkHttp 是一款 HTTP & HTTP/2 客户端库,专为 Android 和 Java 应用打造。

    16 引用 • 6 回帖 • 62 关注
  • Dubbo

    Dubbo 是一个分布式服务框架,致力于提供高性能和透明化的 RPC 远程服务调用方案,是 [阿里巴巴] SOA 服务化治理方案的核心框架,每天为 2,000+ 个服务提供 3,000,000,000+ 次访问量支持,并被广泛应用于阿里巴巴集团的各成员站点。

    60 引用 • 82 回帖 • 595 关注
  • uTools

    uTools 是一个极简、插件化、跨平台的现代桌面软件。通过自由选配丰富的插件,打造你得心应手的工具集合。

    6 引用 • 14 回帖 • 2 关注
  • Bootstrap

    Bootstrap 是 Twitter 推出的一个用于前端开发的开源工具包。它由 Twitter 的设计师 Mark Otto 和 Jacob Thornton 合作开发,是一个 CSS / HTML 框架。

    18 引用 • 33 回帖 • 660 关注
  • TextBundle

    TextBundle 文件格式旨在应用程序之间交换 Markdown 或 Fountain 之类的纯文本文件时,提供更无缝的用户体验。

    1 引用 • 2 回帖 • 48 关注
  • ZooKeeper

    ZooKeeper 是一个分布式的,开放源码的分布式应用程序协调服务,是 Google 的 Chubby 一个开源的实现,是 Hadoop 和 HBase 的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。

    59 引用 • 29 回帖 • 4 关注
  • 负能量

    上帝为你关上了一扇门,然后就去睡觉了....努力不一定能成功,但不努力一定很轻松 (° ー °〃)

    88 引用 • 1235 回帖 • 411 关注
  • Netty

    Netty 是一个基于 NIO 的客户端-服务器编程框架,使用 Netty 可以让你快速、简单地开发出一个可维护、高性能的网络应用,例如实现了某种协议的客户、服务端应用。

    49 引用 • 33 回帖 • 21 关注
  • 宕机

    宕机,多指一些网站、游戏、网络应用等服务器一种区别于正常运行的状态,也叫“Down 机”、“当机”或“死机”。宕机状态不仅仅是指服务器“挂掉了”、“死机了”状态,也包括服务器假死、停用、关闭等一些原因而导致出现的不能够正常运行的状态。

    13 引用 • 82 回帖 • 52 关注
  • Windows

    Microsoft Windows 是美国微软公司研发的一套操作系统,它问世于 1985 年,起初仅仅是 Microsoft-DOS 模拟环境,后续的系统版本由于微软不断的更新升级,不但易用,也慢慢的成为家家户户人们最喜爱的操作系统。

    222 引用 • 473 回帖
  • 百度

    百度(Nasdaq:BIDU)是全球最大的中文搜索引擎、最大的中文网站。2000 年 1 月由李彦宏创立于北京中关村,致力于向人们提供“简单,可依赖”的信息获取方式。“百度”二字源于中国宋朝词人辛弃疾的《青玉案·元夕》词句“众里寻他千百度”,象征着百度对中文信息检索技术的执著追求。

    63 引用 • 785 回帖 • 177 关注
  • 数据库

    据说 99% 的性能瓶颈都在数据库。

    342 引用 • 708 回帖
  • 酷鸟浏览器

    安全 · 稳定 · 快速
    为跨境从业人员提供专业的跨境浏览器

    3 引用 • 59 回帖 • 26 关注