我看那个时间点,应该是断过一次网。
不知道为什么,断网之后,为什么出现了很多同名文件,ID 不一样了。
我看那个时间点,应该是断过一次网。
不知道为什么,断网之后,为什么出现了很多同名文件,ID 不一样了。
同步过程中断网或者其他意外情况不会造成数据重复或者损坏的。
重复的文档应该是因为生成了冲突文件,请参考 用户指南 - 数据安全 - 数据可用性保障 - 云端同步 章节。
1 月 31 号 19:32 校验索引时发现了 221 个 ID 重复的文档:
W 2024/01/31 19:32:36 index_fix.go:128: exist more than one tree duplicated [221], reindex it
往前看可以找到是从 Android 端同步过来的:
I 2024/01/31 19:13:39 siyuan.go:138: downloaded object [siyuan/1642173161657/repo/siyuan-note-wei/indexes/2b2524e142b3371892a71743d9f824a018d675a3]
I 2024/01/31 19:13:39 sync.go:1592: got cloud latest [device=ec69xd57s31n/android, id=2b2524e142b3371892a71743d9f824a018d675a3, files=8662, size=1.6 GB, created=2024-01-31 18:40:09]
Android 端的这个快照 2b2524e
有 8662 个文件。以 ID 重复的 20240110112136-hmzri1c.sy
为例,可以看到在本地的路径是:/20240110224850-mj5s0a2/20240111162221-s1f6o2h/20240110112136-hmzri1c.sy
,但是 Android 端的路径是 /20240110224850-mj5s0a2/20240110112136-hmzri1c.sy
,中间少了一层,这种情况下文件路径不同,所以不会自动合并,而是将 Android 的文件下载到本地,导致本地存在了两个一样 ID 的文档。
继续往前追溯 Android 端同步,可以找到 1 月 30 号的同步:
I 2024/01/30 09:35:00 sync.go:1592: got cloud latest [device=ec69xd57s31n/android, id=8638d653e54c7863c2a04ab62e4564b2faf74591, files=8412, size=1.6 GB, created=2024-01-30 09:34:58]
这时候 Android 端快照 8638d65
文件数量是 8412,也就是说这段时间内 Android 端增加了 250 个文件,这些文件是其他端同步过去的还是如何新增的,需要 Android 端的日志才能进一步分析了,可能就是这些文件重复导致的问题,请上传 Android 端的日志,谢谢。
移动端的这份日志中可以找到快照 2b2524e
生成的时候已经有重复文件了:
I 2024/01/31 18:40:09 repo.go:595: walk data [files=8662] cost [894.393749ms]
I 2024/01/31 18:40:09 ref.go:50: got local latest [device=ec69xd57s31n/android, id=8f878d82797dac8e978e35833d6e51067f83bbb7, files=8412, size=1.6 GB, created=2024-01-31 18:39:20]
I 2024/01/31 18:40:09 ref.go:64: updated local latest to [device=ec69xd57s31n/android, id=2b2524e142b3371892a71743d9f824a018d675a3, files=8662, size=1.6 GB, created=2024-01-31 18:40:09]
往前看可以找到文件 /20240110224850-mj5s0a2/20240111162221-s1f6o2h/20240110112136-hmzri1c.sy
是从云端同步下来的,但是此时本地同时也存在了文件 /20240110224850-mj5s0a2/20240110112136-hmzri1c.sy
,所以这两个文件不存在冲突(虽然文件内容一样但是路径不同),也就会被作为不同的两个文件对待:
I 2024/01/31 18:40:08 sync.go:308: sync merge upsert [7d95d3f1adae4694dadffa6539b88e8e9456bb7f, /20240110224850-mj5s0a2/20240111162221-s1f6o2h/20240110112136-hmzri1c.sy, 2024-01-10 11:22:07]
....
I 2024/01/31 18:40:09 sync.go:419: merge index add [7d95d3f1adae4694dadffa6539b88e8e9456bb7f, /20240110224850-mj5s0a2/20240111162221-s1f6o2h/20240110112136-hmzri1c.sy, 2024-01-10 11:22:07]
....
I 2024/01/31 18:40:09 sync.go:1336: upsert file [598049fc72fdf7c8d2955b47bd4512c05f676902, /20240110224850-mj5s0a2/20240110112136-hmzri1c.sy, 2024-01-10 11:22:07] chunk [9670d894d23a470a0eb384536cb3b690d2650dc0]
最终结果就是产生了重复文档。
你那边是否手动操作过文件系统(比如复制文件)?另外是否还有其他参与同步的设备,如果有的话请一并提供日志文件。我们得再找找重现步骤,这个问题之前没有人反馈过,请帮助我们尽量跟踪定位到问题,谢谢。
这个日志看看有吗?不是很确定。
回答:1,没有手动操作过文件系统的。
疑惑:能否解惑,“中间少了一层,这种情况下文件路径不同,所以不会自动合并"这个逻辑是为了哪种场景。id 相同为啥不能认定为同一个文件嘞,增加判断路径是为了场中场景
这份 macOS 端的日志 1 月 30 号 12 点进行了一次全量下载,文件没有重复,也没有其他异常。
文件路径不同的话肯定就是不同的文件了。
我又在 PC 端日志中搜索了下,发现 /20240110224850-mj5s0a2/20240111162221-s1f6o2h/20240110112136-hmzri1c.sy
文件第一次出现是在 1 月 31 号 15 点 16 分:
I 2024/01/31 15:16:54 sync.go:1336: upsert file [7d95d3f1adae4694dadffa6539b88e8e9456bb7f, /20240110224850-mj5s0a2/20240111162221-s1f6o2h/20240110112136-hmzri1c.sy, 2024-01-10 11:22:07] chunk [9670d894d23a470a0eb384536cb3b690d2650dc0]
这个文件最后的更新时间是 2024-01-10 11:22:07,后面也也只没有变动过,只是云端一直都存在 /20240110224850-mj5s0a2/20240110112136-hmzri1c.sy
,所以文件就重复了。
找到问题了,是因为移动端下午 16:50 同步时索引校验程序错误修订了重复 ID(这时候同步还未完成,不应该订正数据)
W 2024/03/26 16:50:50 index_fix.go:242: exist more than one tree with the same id [/storage/emulated/0/Android/data/org.b3log.siyuan/files/siyuan/data/20240110224850-mj5s0a2/20231119192606-jxpmujz.sy], reset it
这个问题下个版本解决 Issue #10761 · siyuan-note/siyuan 感谢反馈!
CSDN (Chinese Software Developer Network) 创立于 1999 年,是中国的 IT 社区和服务平台,为中国的软件开发者和 IT 从业者提供知识传播、职业发展、软件开发等全生命周期服务,满足他们在职业发展中学习及共享知识和信息、建立职业发展社交圈、通过软件开发实现技术商业化等刚性需求。
用爱发电 (Programming With Love) 是一个以开源精神为核心的民间开源爱好者技术组织,“用爱发电”象征开源与贡献精神,加入组织,代表你将遵守组织的“个人开源爱好者”的各项条款。申请加入:用爱发电组织邀请帖。
用爱发电组织官网:https://programmingwithlove.stackoverflow.wiki/
Spark 是 UC Berkeley AMP lab 所开源的类 Hadoop MapReduce 的通用并行框架。Spark 拥有 Hadoop MapReduce 所具有的优点;但不同于 MapReduce 的是 Job 中间输出结果可以保存在内存中,从而不再需要读写 HDFS,因此 Spark 能更好地适用于数据挖掘与机器学习等需要迭代的 MapReduce 的算法。
有点意思就行了
各种网址链接、内容导航。
Cloud Foundry 是 VMware 推出的业界第一个开源 PaaS 云平台,它支持多种框架、语言、运行时环境、云平台及应用服务,使开发人员能够在几秒钟内进行应用程序的部署和扩展,无需担心任何基础架构的问题。
机器学习(Machine Learning)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。
Git 是 Linux Torvalds 为了帮助管理 Linux 内核开发而开发的一个开放源码的版本控制软件。
Eclipse 是一个开放源代码的、基于 Java 的可扩展开发平台。就其本身而言,它只是一个框架和一组服务,用于通过插件组件构建开发环境。
jsoup 是一款 Java 的 HTML 解析器,可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的 API,可通过 DOM,CSS 以及类似于 jQuery 的操作方法来取出和操作数据。
Web Clipper 是一款浏览器剪藏扩展,它可以帮助你把网页内容剪藏到本地。
jQuery 是一套跨浏览器的 JavaScript 库,强化 HTML 与 JavaScript 之间的操作。由 John Resig 在 2006 年 1 月的 BarCamp NYC 上释出第一个版本。全球约有 28% 的网站使用 jQuery,是非常受欢迎的 JavaScript 库。
SQLite 是一个进程内的库,实现了自给自足的、无服务器的、零配置的、事务性的 SQL 数据库引擎。SQLite 是全世界使用最为广泛的数据库引擎。
禅道是一款国产的开源项目管理软件,她的核心管理思想基于敏捷方法 scrum,内置了产品管理和项目管理,同时又根据国内研发现状补充了测试管理、计划管理、发布管理、文档管理、事务管理等功能,在一个软件中就可以将软件研发中的需求、任务、bug、用例、计划、发布等要素有序的跟踪管理起来,完整地覆盖了项目管理的核心流程。
宕机,多指一些网站、游戏、网络应用等服务器一种区别于正常运行的状态,也叫“Down 机”、“当机”或“死机”。宕机状态不仅仅是指服务器“挂掉了”、“死机了”状态,也包括服务器假死、停用、关闭等一些原因而导致出现的不能够正常运行的状态。
大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
CAP 指的是在一个分布式系统中, Consistency(一致性)、 Availability(可用性)、Partition tolerance(分区容错性),三者不可兼得。
FreeMarker 是一款好用且功能强大的 Java 模版引擎。
ActiveMQ 是 Apache 旗下的一款开源消息总线系统,它完整实现了 JMS 规范,是一个企业级的消息中间件。
LeetCode(力扣)是一个全球极客挚爱的高质量技术成长平台,想要学习和提升专业能力从这里开始,充足技术干货等你来啃,轻松拿下 Dream Offer!
InfluxDB 是一个开源的没有外部依赖的时间序列数据库。适用于记录度量,事件及实时分析。
红帽提供的 PaaS 云,支持多种编程语言,为开发人员提供了更为灵活的框架、存储选择。
NetBeans 是一个始于 1997 年的 Xelfi 计划,本身是捷克布拉格查理大学的数学及物理学院的学生计划。此计划延伸而成立了一家公司进而发展这个商用版本的 NetBeans IDE,直到 1999 年 Sun 买下此公司。Sun 于次年(2000 年)六月将 NetBeans IDE 开源,直到现在 NetBeans 的社群依然持续增长。
JVM(Java Virtual Machine)Java 虚拟机是一个微型操作系统,有自己的硬件构架体系,还有相应的指令系统。能够识别 Java 独特的 .class 文件(字节码),能够将这些文件中的信息读取出来,使得 Java 程序只需要生成 Java 虚拟机上的字节码后就能在不同操作系统平台上进行运行。
欢迎来到这里!
我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。
注册 关于