恐龙工具箱提取元素至文档的功能,提取标注不全(已解决)

是不是我文档过长的缘故,标记内容只提取了 67 组标记,再往后的标记并没被提取出来。(没 github 号,谁帮 @ 作者一下)


已解决

是我自己设置的问题,具体参考插件作者的回复。

图片.png

  • 思源笔记

    思源笔记是一款隐私优先的个人知识管理系统,支持完全离线使用,同时也支持端到端加密同步。

    融合块、大纲和双向链接,重构你的思维。

    26304 引用 • 109362 回帖
  • Q&A

    提问之前请先看《提问的智慧》,好的问题比好的答案更有价值。

    10114 引用 • 45948 回帖 • 63 关注
3 操作
MasterYS 在 2025-06-24 09:15:27 更新了该帖
MasterYS 在 2025-06-24 09:15:01 更新了该帖
JeffreyChen 在 2025-05-05 18:52:53 更新了该帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • J 佬有时间看看能复现嘛。我这只能提取出 71 个块
    MasterYS
  • wilsons 1 评论

    是不是我文档过长的缘故

    有可能,往下滚动试试,可能后面的内容是动态加载的,还没显示出来,所以提取不出来。

    我确定我滚动出来了,不是加载没完成的原因
    MasterYS
  • hqweay 8 评论 via iPhone

    噢抱歉影响体验了。好像是只考虑了段落块内的标注,我瞧瞧。

    1 回复
    没关系,客气了您嘞。应该不是段落内的问题,是提取长度的问题,我的标记就是段落内的,提取不全。如果我把文档拆分成 2 个,各自提取一次,再合并,就提取全了
    MasterYS
    又发现新问题了,就是如果被标记的文本同时被加粗了,也是不能提取的
    MasterYS
    大佬,加粗同时标记的提取问题解决了。但是提取标记不全的问题,还是存在,是不是控制了提取的内容长度导致的啊,解决有望嘛?
    MasterYS
    @MasterYS 咦,你用的哪个操作选项?(「提取元素至新文档」那个菜单下具体哪一个选项)另外保存后,重建索引下试试呢。
    hqweay
    @hqweay 我四个选项(提取标注和备注(含上下文) 提取标注和备注(无上下文) 提取标注(无上下文) 提取标注(含上下文))都试了,都倒出不全,必须要把单个文档拆分成多个短文档,分别提取。我楼上有一个文档的源文件,你可以试试
    MasterYS
    @MasterYS 有点奇怪,前阵子就试过,刚才也再试了下。复现不了,代码逻辑上感觉也不会。= =插件、思源都是最新版吗?重建索引试过吗?还不行的话,得缓缓我研究下。可以用用其它方式,比如嵌入块查询标注,或者 脚注插件 可以一边标注一边提取到文档。
    hqweay
    @hqweay 你的意思是你那边用恐龙工具箱提取我上传的文档内的标记是正常的?能提取全吗?我这只能提取到 71 条。后面的都不行。你说的嵌入块查询代码我不会写,所以没研究过,还是觉得你的方便。脚注插件我知道,要标价完在点击脚注,多了一步也没你这个方便
    MasterYS
    @hqweay 我都是最新版的,重建索引也试了,都不行
    MasterYS
  • 你新建工作空间装这个插件,然后把不行的这个文档导入试试行不行

    1 回复
    他不是一个文档不行,是所有标记过多的长文档都不行。只能切割成多个短文档分别提取
    MasterYS
  • MasterYS

    图片.png

    还是不可以,全新空间,就装了一个插件,还是只提取了 71 个块,感觉是提取的时候被限制了,是 limit 500 类似这种的限制嘛?

  • MasterYS

    我想到了一种可能性,你看有时间要不要排查下,是我在用书签 + 插件的时候想到的。就是“系统默认的查询结果”限制

    比如:sql 查询代码如果是这样的

    select * from blocks where type='d' and (tag is null or tag = '');

    查询出来的结果只返回 64 条就不显示了,如果要加载更多或者全部

    代码要改成

    select * from blocks where type='d' and (tag is null or tag = '') ORDER BY updated DESC LIMIT 500;

    我遇到这个问题的时候,还专门问了下豆包,下面是他的回复

    在数据库或应用系统中,查询结果是否需要显式添加`LIMIT`参数才能获取更多数据,通常与以下因素有关: ### 1. **系统默认的查询结果限制** - 许多数据库或应用(如 Notion、某些笔记系统的数据库接口)为了**性能优化**,会对未指定`LIMIT`的查询设置**默认返回行数限制**(例如默认返回 100 条或 500 条)。 - **举例**:当数据量较大时,若查询语句不加`LIMIT`,系统可能自动限制返回前 N 条结果;而显式添加`LIMIT 500`或更大值时,会覆盖默认限制,返回更多数据。 ### 2. **查询场景与性能权衡** - **无`LIMIT`的查询**:如果数据量小(如只有几十条记录),系统可能直接返回全部结果,因为不会对性能造成压力。 - **有`LIMIT`的查询**:当数据量很大时,不加`LIMIT`可能导致查询耗时过长或占用过多资源,因此系统强制要求或建议添加`LIMIT`,避免全量数据加载。 ### 3. **前端展示与分页机制** - 即使数据库返回全部结果,前端界面可能受限于展示能力(如表格行数、页面渲染效率),只能显示部分数据。此时,`LIMIT`可用于控制前端展示的数量。 - 若前端有分页功能,未指定`LIMIT`时可能只显示第一页数据,而显式设置`LIMIT`可配合分页参数获取更多页。 ### 4. **不同系统的实现差异** - 不同数据库或应用对`LIMIT`的处理规则不同: - 有些系统(如 MySQL)允许无`LIMIT`的查询返回全部结果,但建议大型查询添加`LIMIT`。 - 有些笔记系统的数据库接口可能强制要求`LIMIT`,或在无`LIMIT`时默认返回少量数据(如 20 条),以避免性能问题。 ### 总结:何时需要添加`LIMIT`? - **当数据量可能较大时**:显式添加`LIMIT`(如`LIMIT 1000`)可确保获取更多结果,避免被默认限制截断。 - **当需要精确控制返回行数时**:例如只查最新的 N 条记录,或配合分页参数(如`LIMIT 50 OFFSET 100`)。 - **当系统默认限制导致结果不全时**:通过`LIMIT`覆盖默认设置,例如用`LIMIT 99999`获取接近全部的数据(若系统允许)。 如果需要返回全部结果,且确认数据量较小或系统支持,可不加`LIMIT`;否则建议显式设置较大的`LIMIT`值,或结合分页查询。

    本人纯小白啊,只是猜测

  • @hqweay SQL 最后加个很大的 LIMIT 就行:

    image.png

请输入回帖内容 ...

推荐标签 标签

  • golang

    Go 语言是 Google 推出的一种全新的编程语言,可以在不损失应用程序性能的情况下降低代码的复杂性。谷歌首席软件工程师罗布派克(Rob Pike)说:我们之所以开发 Go,是因为过去 10 多年间软件开发的难度令人沮丧。Go 是谷歌 2009 发布的第二款编程语言。

    500 引用 • 1396 回帖 • 251 关注
  • 学习

    “梦想从学习开始,事业从实践起步” —— 习近平

    172 引用 • 540 回帖
  • RESTful

    一种软件架构设计风格而不是标准,提供了一组设计原则和约束条件,主要用于客户端和服务器交互类的软件。基于这个风格设计的软件可以更简洁,更有层次,更易于实现缓存等机制。

    30 引用 • 114 回帖 • 6 关注
  • Firefox

    Mozilla Firefox 中文俗称“火狐”(正式缩写为 Fx 或 fx,非正式缩写为 FF),是一个开源的网页浏览器,使用 Gecko 排版引擎,支持多种操作系统,如 Windows、OSX 及 Linux 等。

    7 引用 • 30 回帖 • 376 关注
  • IDEA

    IDEA 全称 IntelliJ IDEA,是一款 Java 语言开发的集成环境,在业界被公认为最好的 Java 开发工具之一。IDEA 是 JetBrains 公司的产品,这家公司总部位于捷克共和国的首都布拉格,开发人员以严谨著称的东欧程序员为主。

    181 引用 • 400 回帖
  • 浅吟主题

    Jeffrey Chen 制作的思源笔记主题,项目仓库:https://github.com/TCOTC/Whisper

    1 引用 • 31 回帖
  • Ruby

    Ruby 是一种开源的面向对象程序设计的服务器端脚本语言,在 20 世纪 90 年代中期由日本的松本行弘(まつもとゆきひろ/Yukihiro Matsumoto)设计并开发。在 Ruby 社区,松本也被称为马茨(Matz)。

    7 引用 • 31 回帖 • 265 关注
  • InfluxDB

    InfluxDB 是一个开源的没有外部依赖的时间序列数据库。适用于记录度量,事件及实时分析。

    2 引用 • 104 关注
  • 服务

    提供一个服务绝不仅仅是简单的把硬件和软件累加在一起,它包括了服务的可靠性、服务的标准化、以及对服务的监控、维护、技术支持等。

    41 引用 • 24 回帖 • 1 关注
  • Jenkins

    Jenkins 是一套开源的持续集成工具。它提供了非常丰富的插件,让构建、部署、自动化集成项目变得简单易用。

    54 引用 • 37 回帖
  • C++

    C++ 是在 C 语言的基础上开发的一种通用编程语言,应用广泛。C++ 支持多种编程范式,面向对象编程、泛型编程和过程化编程。

    108 引用 • 153 回帖
  • 持续集成

    持续集成(Continuous Integration)是一种软件开发实践,即团队开发成员经常集成他们的工作,通过每个成员每天至少集成一次,也就意味着每天可能会发生多次集成。每次集成都通过自动化的构建(包括编译,发布,自动化测试)来验证,从而尽早地发现集成错误。

    15 引用 • 7 回帖
  • FFmpeg

    FFmpeg 是一套可以用来记录、转换数字音频、视频,并能将其转化为流的开源计算机程序。

    23 引用 • 32 回帖 • 8 关注
  • 链滴

    链滴是一个记录生活的地方。

    记录生活,连接点滴

    182 引用 • 3882 回帖
  • jQuery

    jQuery 是一套跨浏览器的 JavaScript 库,强化 HTML 与 JavaScript 之间的操作。由 John Resig 在 2006 年 1 月的 BarCamp NYC 上释出第一个版本。全球约有 28% 的网站使用 jQuery,是非常受欢迎的 JavaScript 库。

    63 引用 • 134 回帖 • 735 关注
  • Logseq

    Logseq 是一个隐私优先、开源的知识库工具。

    Logseq is a joyful, open-source outliner that works on top of local plain-text Markdown and Org-mode files. Use it to write, organize and share your thoughts, keep your to-do list, and build your own digital garden.

    7 引用 • 69 回帖 • 5 关注
  • 酷鸟浏览器

    安全 · 稳定 · 快速
    为跨境从业人员提供专业的跨境浏览器

    3 引用 • 59 回帖 • 50 关注
  • 印象笔记
    3 引用 • 16 回帖 • 2 关注
  • Bug

    Bug 本意是指臭虫、缺陷、损坏、犯贫、窃听器、小虫等。现在人们把在程序中一些缺陷或问题统称为 bug(漏洞)。

    76 引用 • 1742 回帖 • 6 关注
  • Webswing

    Webswing 是一个能将任何 Swing 应用通过纯 HTML5 运行在浏览器中的 Web 服务器,详细介绍请看 将 Java Swing 应用变成 Web 应用

    1 引用 • 15 回帖 • 643 关注
  • 前端

    前端技术一般分为前端设计和前端开发,前端设计可以理解为网站的视觉设计,前端开发则是网站的前台代码实现,包括 HTML、CSS 以及 JavaScript 等。

    246 引用 • 1338 回帖 • 1 关注
  • Rust

    Rust 是一门赋予每个人构建可靠且高效软件能力的语言。Rust 由 Mozilla 开发,最早发布于 2014 年 9 月。

    59 引用 • 22 回帖 • 5 关注
  • Pipe

    Pipe 是一款小而美的开源博客平台。Pipe 有着非常活跃的社区,可将文章作为帖子推送到社区,来自社区的回帖将作为博客评论进行联动(具体细节请浏览 B3log 构思 - 分布式社区网络)。

    这是一种全新的网络社区体验,让热爱记录和分享的你不再感到孤单!

    134 引用 • 1127 回帖 • 108 关注
  • 禅道

    禅道是一款国产的开源项目管理软件,她的核心管理思想基于敏捷方法 scrum,内置了产品管理和项目管理,同时又根据国内研发现状补充了测试管理、计划管理、发布管理、文档管理、事务管理等功能,在一个软件中就可以将软件研发中的需求、任务、bug、用例、计划、发布等要素有序的跟踪管理起来,完整地覆盖了项目管理的核心流程。

    10 引用 • 15 回帖
  • 游戏

    沉迷游戏伤身,强撸灰飞烟灭。

    187 引用 • 832 回帖
  • HBase

    HBase 是一个分布式的、面向列的开源数据库,该技术来源于 Fay Chang 所撰写的 Google 论文 “Bigtable:一个结构化数据的分布式存储系统”。就像 Bigtable 利用了 Google 文件系统所提供的分布式数据存储一样,HBase 在 Hadoop 之上提供了类似于 Bigtable 的能力。

    17 引用 • 6 回帖 • 70 关注
  • Laravel

    Laravel 是一套简洁、优雅的 PHP Web 开发框架。它采用 MVC 设计,是一款崇尚开发效率的全栈框架。

    19 引用 • 23 回帖 • 739 关注