列表块“一炮三响”问题现状和改进提议

现状

众所周知，一个列表块至少包含了三个块。例如 * foo 的列表块实际的语法树结构和对应的 Markdown 为：

列表块容器 * foo
列表项块容器 * foo
段落块 foo

其对应的数据库表行数据为：

类型	markdown	content
l	* foo	foo
i	* foo	foo
p	foo	foo

问题

这就导致在数据库上查询 foo 时，会同时命中三行，也就是“一炮三响”问题。当存在子列表时该问题尤为突出，表现为所有子列表上重复一次。例如：

* foo
  * bar

其对应的数据库表行数据为：

类型	markdown	content
l	* foo * bar	foobar
i	* foo * bar	foobar
p	foo	foo
l	* bar	bar
i	* bar	bar
p	bar	bar

当搜索 bar 时，会命中 5 行作为结果集。

之前的改进

在搜索时加入了类型过滤，可以设置为过滤容器块，这样上述示例的搜索结果将减少为 1 行，即段落块 bar。

新改进提议

考虑在列表块和列表项块上的 markdown 和 content 字段上仅存储第一个块级子节点内容：

类型	markdown	content
l	* foo	foo
i	* foo	foo
p	foo	foo
l	* bar	bar
i	* bar	bar
p	bar	bar

搜索 bar 时命中三行，即仅在当前列表块“一炮三响”。这个改进逻辑也匹配引用容器块时自动渲染锚文本改进 #3126 和列表项折叠，除第一个子块外其余子块都隐藏 #3142。

更进一步

容器块上的 markdown 和 content 字段完全留空，搜索时仅命中叶子块。

影响范围

对通过子级搜索父级的逻辑会产生影响，比如想搜索同时包含分散在列表项上的某些关键字的父级列表就比较困难，但实现复杂度应该低于之前去重子级的复杂度
已有的一些查询逻辑可能会冗余（为了排除父级），但应该不会产生副作用

将数据添加到数据库过程中存在的一点小问题

如图：触发场景-文档或其它块菜单内添加到数据库这一功能。 [图片] 反馈问题：编辑字段内的选项时，按 enter 后无法像直接在数据库表格内编辑一样实时反馈到界面，需关闭编辑框再打开才能够看见。 [图片]

作为一个新手，如何学习思源笔记的源码呢？

想学习思源笔记的项目源码，请教一下大佬们，我自己有 go 语言基础，以及一点前端开发的知识。我如果想要深入学习思源笔记的设计，应该从何开始呢？我看到思源笔记经过 4 年左右的发展，数百个 PR 已经变成一个非常庞大的系统了。对于一个新手来说，有没有一些循序渐进的学习方式？比如从哪一个功能点着手？同时如何对思源笔记 ..

恐龙也能懂的在 siyuan 上使用 ChatGPT 教程

本文旨在用最简化的方法使得多数人不明就里也能跟着操作完成在 SiYuan 中的大语言模型（LLM）API 调用。大致操作步骤如下，可以直接跳转感兴趣的部分。 [链接] [链接] [链接] 注册基座平台账号，获取 API key 笔者在这推荐两个大模型基座网站，国内的 AGICTO 和国外的 Deepbricks。网址如 ..

docker 部署服务器版思源笔记后，使用 cloudreve 的 webdav 进行同步，手机上的思源笔记 app 可以正常同步，服务端无法同步

一台服务器本地部署了 cloudreve，开启了 webdav，同时用 docker 部署了思源笔记；手机和平板上装了 app。手机和平板可以正常同步，但是服务端同步时会提示：同步失败，锁定云端失败。安卓端链接配置的是域名:端口/dav/ 服务端链接配置的是 [链接] 查看 cloudreve 和思源的日志后发现， ..

导入大量笔记后无法完成同步，建议自定义自动同步时间间隔

使用站内大佬提供的方法批量迁移为知笔记数据到思源后（3000 多条），思源一直卡在同步状态，数小时都无法结束同步。后来将同步方式改为手动同步后，用了 40 多秒就完成了同步。猜测现在默认自动同步间隔为 30s，如果同步需要的时间大于 30s，则永远无法完成同步。

欢迎来到这里！

我们正在构建一个小众社区，大家在这里相互信任，以平等 • 自由 • 奔放的价值观进行分享交流。最终，希望大家能够找到与自己志同道合的伙伴，共同成长。

关于

13 回帖

列表块“一炮三响”问题现状和改进提议

注册关于

请输入回帖内容 ...

leolee • 3 年前 • 1 • 2 赞同
订阅者捐赠者恶龙

笔记内容比较多的时候更容易发生的问题是有些内容永远不会被看到而不是一些内容过多的重复出现我觉得可能相对偏宽松的命中范围可能比过于范围过于狭小的反馈更有利于笔记的常青

因为检索需要本身就是因为我们不可能准确记住内容的所在位置而产生,从一个更加宽泛的检索结果去做减法往往比从狭窄的检索结果做加法容易,因为在前面一种情况下我们能看到自己要减去的是一些什么内容,而在后面一种情况下可能连想清楚可能有哪些内容没有覆盖都很难.
其他回帖
leolee • 3 年前
订阅者捐赠者恶龙

例如类似 select * from blocks where content like "%foo%" and depth = "0" 直接匹配到叶子块
然后 select * from blocks where content like "%foo%" and depth = "1" 匹配只有一层子块的容器块
建表的时候文件结构应该已经遍历过了所以加上深度字段应该不会消耗太多的资源吧
类似的也可以加上宽度字段应该也可以增强检索能力这个不用管爷爷辈的只管有多少个子块可能会更好弄一点?
fangly • 3 年前 • 1
订阅者先知

在数据库改进了之后，想要在上面这个图中搜索同时包含 CNN 模型和 RNN 模型的块，要写非常非常复杂的 sql 讨论各种情况。

知道块长什么样的话，那用非常复杂的 sql 肯定能搜出来，但现实使用过程中，我根本无法知道我笔记中“同时包含 CNN 模型和 RNN 模型”的块是长什么样的，我只知道肯定有容器块包含了它们，而改进后的数据库无法对容器块进行搜索。

原先的数据库设计下，对于这个场景，虽然可能会有重复，但至少保证我能搜索到所有可能有用的块，最后无非是在 sql 查询结果中看到重复的内容跳过不看，但我用 sql 本来就是在挑选后续可能有用的块，有重复内容其实无所谓，看到重复内容，花 1 秒钟识别出是重复的，跳过就好。

个人觉得，“搜不到”比“有重复”带来的问题更加严重，一个是功能上的缺失，一个是体验上稍微麻烦点。

2 操作
fangly 在 2021-10-15 00:40:46 更新了该回帖

fangly 在 2021-10-15 00:31:13 更新了该回帖
leolee • 3 年前
订阅者捐赠者恶龙

容器块增加一个深度字段不知道能不能解决问题但是我也不知道这个好不好加 ......

这样通过 sql 查询的时候能够直接指定深度或者通过深度排序截断过滤不需要的结果
查看全部回帖

现状

问题