恐龙工具箱提取元素至文档的功能,提取标注不全(已解决)

本贴最后更新于 181 天前,其中的信息可能已经物是人非

是不是我文档过长的缘故,标记内容只提取了 67 组标记,再往后的标记并没被提取出来。(没 github 号,谁帮 @ 作者一下)


已解决

是我自己设置的问题,具体参考插件作者的回复。

图片.png

  • 思源笔记

    思源笔记是一款隐私优先的个人知识管理系统,支持完全离线使用,同时也支持端到端加密同步。

    融合块、大纲和双向链接,重构你的思维。

    28446 引用 • 119772 回帖
  • Q&A

    提问之前请先看《提问的智慧》,好的问题比好的答案更有价值。

    11155 引用 • 50655 回帖 • 52 关注
3 操作
MasterYS 在 2025-06-24 09:15:27 更新了该帖
MasterYS 在 2025-06-24 09:15:01 更新了该帖
JeffreyChen 在 2025-05-05 18:52:53 更新了该帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • MasterYS

    我想到了一种可能性,你看有时间要不要排查下,是我在用书签 + 插件的时候想到的。就是“系统默认的查询结果”限制

    比如:sql 查询代码如果是这样的

    select * from blocks
    where type='d' and 
    (tag is null or tag = '');
    

    查询出来的结果只返回 64 条就不显示了,如果要加载更多或者全部

    代码要改成

    select * from blocks
    where type='d' and 
    (tag is null or tag = '')
    ORDER BY updated DESC 
    LIMIT 500;
    

    我遇到这个问题的时候,还专门问了下豆包,下面是他的回复

    在数据库或应用系统中,查询结果是否需要显式添加`LIMIT`参数才能获取更多数据,通常与以下因素有关: ### 1. **系统默认的查询结果限制** - 许多数据库或应用(如 Notion、某些笔记系统的数据库接口)为了**性能优化**,会对未指定`LIMIT`的查询设置**默认返回行数限制**(例如默认返回 100 条或 500 条)。 - **举例**:当数据量较大时,若查询语句不加`LIMIT`,系统可能自动限制返回前 N 条结果;而显式添加`LIMIT 500`或更大值时,会覆盖默认限制,返回更多数据。 ### 2. **查询场景与性能权衡** - **无`LIMIT`的查询**:如果数据量小(如只有几十条记录),系统可能直接返回全部结果,因为不会对性能造成压力。 - **有`LIMIT`的查询**:当数据量很大时,不加`LIMIT`可能导致查询耗时过长或占用过多资源,因此系统强制要求或建议添加`LIMIT`,避免全量数据加载。 ### 3. **前端展示与分页机制** - 即使数据库返回全部结果,前端界面可能受限于展示能力(如表格行数、页面渲染效率),只能显示部分数据。此时,`LIMIT`可用于控制前端展示的数量。 - 若前端有分页功能,未指定`LIMIT`时可能只显示第一页数据,而显式设置`LIMIT`可配合分页参数获取更多页。 ### 4. **不同系统的实现差异** - 不同数据库或应用对`LIMIT`的处理规则不同: - 有些系统(如 MySQL)允许无`LIMIT`的查询返回全部结果,但建议大型查询添加`LIMIT`。 - 有些笔记系统的数据库接口可能强制要求`LIMIT`,或在无`LIMIT`时默认返回少量数据(如 20 条),以避免性能问题。 ### 总结:何时需要添加`LIMIT`? - **当数据量可能较大时**:显式添加`LIMIT`(如`LIMIT 1000`)可确保获取更多结果,避免被默认限制截断。 - **当需要精确控制返回行数时**:例如只查最新的 N 条记录,或配合分页参数(如`LIMIT 50 OFFSET 100`)。 - **当系统默认限制导致结果不全时**:通过`LIMIT`覆盖默认设置,例如用`LIMIT 99999`获取接近全部的数据(若系统允许)。 如果需要返回全部结果,且确认数据量较小或系统支持,可不加`LIMIT`;否则建议显式设置较大的`LIMIT`值,或结合分页查询。

    本人纯小白啊,只是猜测

  • 其他回帖
  • hqweay 8 评论

    噢抱歉影响体验了。好像是只考虑了段落块内的标注,我瞧瞧。

    1 回复
    没关系,客气了您嘞。应该不是段落内的问题,是提取长度的问题,我的标记就是段落内的,提取不全。如果我把文档拆分成 2 个,各自提取一次,再合并,就提取全了
    MasterYS
    又发现新问题了,就是如果被标记的文本同时被加粗了,也是不能提取的
    MasterYS
    大佬,加粗同时标记的提取问题解决了。但是提取标记不全的问题,还是存在,是不是控制了提取的内容长度导致的啊,解决有望嘛?
    MasterYS
    @MasterYS 咦,你用的哪个操作选项?(「提取元素至新文档」那个菜单下具体哪一个选项)另外保存后,重建索引下试试呢。
    hqweay
    @hqweay 我四个选项(提取标注和备注(含上下文) 提取标注和备注(无上下文) 提取标注(无上下文) 提取标注(含上下文))都试了,都倒出不全,必须要把单个文档拆分成多个短文档,分别提取。我楼上有一个文档的源文件,你可以试试
    MasterYS
    @MasterYS 有点奇怪,前阵子就试过,刚才也再试了下。复现不了,代码逻辑上感觉也不会。= =插件、思源都是最新版吗?重建索引试过吗?还不行的话,得缓缓我研究下。可以用用其它方式,比如嵌入块查询标注,或者 脚注插件 可以一边标注一边提取到文档。
    hqweay
    @hqweay 你的意思是你那边用恐龙工具箱提取我上传的文档内的标记是正常的?能提取全吗?我这只能提取到 71 条。后面的都不行。你说的嵌入块查询代码我不会写,所以没研究过,还是觉得你的方便。脚注插件我知道,要标价完在点击脚注,多了一步也没你这个方便
    MasterYS
    @hqweay 我都是最新版的,重建索引也试了,都不行
    MasterYS
  • wilsons 1 评论

    是不是我文档过长的缘故

    有可能,往下滚动试试,可能后面的内容是动态加载的,还没显示出来,所以提取不出来。

    我确定我滚动出来了,不是加载没完成的原因
    MasterYS
  • 查看全部回帖

推荐标签 标签

  • RabbitMQ

    RabbitMQ 是一个开源的 AMQP 实现,服务器端用 Erlang 语言编写,支持多种语言客户端,如:Python、Ruby、.NET、Java、C、PHP、ActionScript 等。用于在分布式系统中存储转发消息,在易用性、扩展性、高可用性等方面表现不俗。

    49 引用 • 60 回帖 • 342 关注
  • WebComponents

    Web Components 是 W3C 定义的标准,它给了前端开发者扩展浏览器标签的能力,可以方便地定制可复用组件,更好的进行模块化开发,解放了前端开发者的生产力。

    1 引用 • 18 关注
  • IDEA

    IDEA 全称 IntelliJ IDEA,是一款 Java 语言开发的集成环境,在业界被公认为最好的 Java 开发工具之一。IDEA 是 JetBrains 公司的产品,这家公司总部位于捷克共和国的首都布拉格,开发人员以严谨著称的东欧程序员为主。

    182 引用 • 400 回帖
  • Visio
    1 引用 • 2 回帖
  • Sillot

    Insights(注意当前设置 master 为默认分支)

    汐洛彖夲肜矩阵(Sillot T☳Converbenk Matrix),致力于服务智慧新彖乄,具有彖乄驱动、极致优雅、开发者友好的特点。其中汐洛绞架(Sillot-Gibbet)基于自思源笔记(siyuan-note),前身是思源笔记汐洛版(更早是思源笔记汐洛分支),是智慧新录乄终端(多端融合,移动端优先)。

    主仓库地址:Hi-Windom/Sillot

    文档地址:sillot.db.sc.cn

    注意事项:

    1. ⚠️ 汐洛仍在早期开发阶段,尚不稳定
    2. ⚠️ 汐洛并非面向普通用户设计,使用前请了解风险
    3. ⚠️ 汐洛绞架基于思源笔记,开发者尽最大努力与思源笔记保持兼容,但无法实现 100% 兼容
    29 引用 • 25 回帖 • 152 关注
  • 创业

    你比 99% 的人都优秀么?

    81 引用 • 1396 回帖 • 1 关注
  • PWA

    PWA(Progressive Web App)是 Google 在 2015 年提出、2016 年 6 月开始推广的项目。它结合了一系列现代 Web 技术,在网页应用中实现和原生应用相近的用户体验。

    14 引用 • 69 回帖 • 186 关注
  • GitLab

    GitLab 是利用 Ruby 一个开源的版本管理系统,实现一个自托管的 Git 项目仓库,可通过 Web 界面操作公开或私有项目。

    46 引用 • 72 回帖
  • Linux

    Linux 是一套免费使用和自由传播的类 Unix 操作系统,是一个基于 POSIX 和 Unix 的多用户、多任务、支持多线程和多 CPU 的操作系统。它能运行主要的 Unix 工具软件、应用程序和网络协议,并支持 32 位和 64 位硬件。Linux 继承了 Unix 以网络为核心的设计思想,是一个性能稳定的多用户网络操作系统。

    960 引用 • 946 回帖
  • 心情

    心是产生任何想法的源泉,心本体会陷入到对自己本体不能理解的状态中,因为心能产生任何想法,不能分出对错,不能分出自己。

    59 引用 • 369 回帖 • 2 关注
  • 数据库

    据说 99% 的性能瓶颈都在数据库。

    348 引用 • 765 回帖 • 1 关注
  • 持续集成

    持续集成(Continuous Integration)是一种软件开发实践,即团队开发成员经常集成他们的工作,通过每个成员每天至少集成一次,也就意味着每天可能会发生多次集成。每次集成都通过自动化的构建(包括编译,发布,自动化测试)来验证,从而尽早地发现集成错误。

    15 引用 • 7 回帖
  • WordPress

    WordPress 是一个使用 PHP 语言开发的博客平台,用户可以在支持 PHP 和 MySQL 数据库的服务器上架设自己的博客。也可以把 WordPress 当作一个内容管理系统(CMS)来使用。WordPress 是一个免费的开源项目,在 GNU 通用公共许可证(GPLv2)下授权发布。

    46 引用 • 114 回帖 • 139 关注
  • golang

    Go 语言是 Google 推出的一种全新的编程语言,可以在不损失应用程序性能的情况下降低代码的复杂性。谷歌首席软件工程师罗布派克(Rob Pike)说:我们之所以开发 Go,是因为过去 10 多年间软件开发的难度令人沮丧。Go 是谷歌 2009 发布的第二款编程语言。

    502 引用 • 1397 回帖 • 240 关注
  • WiFiDog

    WiFiDog 是一套开源的无线热点认证管理工具,主要功能包括:位置相关的内容递送;用户认证和授权;集中式网络监控。

    1 引用 • 7 回帖 • 633 关注
  • H2

    H2 是一个开源的嵌入式数据库引擎,采用 Java 语言编写,不受平台的限制,同时 H2 提供了一个十分方便的 web 控制台用于操作和管理数据库内容。H2 还提供兼容模式,可以兼容一些主流的数据库,因此采用 H2 作为开发期的数据库非常方便。

    11 引用 • 54 回帖 • 691 关注
  • Rust

    Rust 是一门赋予每个人构建可靠且高效软件能力的语言。Rust 由 Mozilla 开发,最早发布于 2014 年 9 月。

    60 引用 • 22 回帖 • 2 关注
  • 强迫症

    强迫症(OCD)属于焦虑障碍的一种类型,是一组以强迫思维和强迫行为为主要临床表现的神经精神疾病,其特点为有意识的强迫和反强迫并存,一些毫无意义、甚至违背自己意愿的想法或冲动反反复复侵入患者的日常生活。

    15 引用 • 161 回帖 • 1 关注
  • ZooKeeper

    ZooKeeper 是一个分布式的,开放源码的分布式应用程序协调服务,是 Google 的 Chubby 一个开源的实现,是 Hadoop 和 HBase 的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。

    61 引用 • 29 回帖 • 14 关注
  • Hadoop

    Hadoop 是由 Apache 基金会所开发的一个分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。

    95 引用 • 122 回帖 • 634 关注
  • V2Ray
    1 引用 • 15 回帖 • 4 关注
  • JVM

    JVM(Java Virtual Machine)Java 虚拟机是一个微型操作系统,有自己的硬件构架体系,还有相应的指令系统。能够识别 Java 独特的 .class 文件(字节码),能够将这些文件中的信息读取出来,使得 Java 程序只需要生成 Java 虚拟机上的字节码后就能在不同操作系统平台上进行运行。

    180 引用 • 120 回帖 • 1 关注
  • AWS
    11 引用 • 28 回帖 • 2 关注
  • VirtualBox

    VirtualBox 是一款开源虚拟机软件,最早由德国 Innotek 公司开发,由 Sun Microsystems 公司出品的软件,使用 Qt 编写,在 Sun 被 Oracle 收购后正式更名成 Oracle VM VirtualBox。

    10 引用 • 2 回帖 • 14 关注
  • 电影

    这是一个不能说的秘密。

    125 引用 • 610 回帖
  • CSS

    CSS(Cascading Style Sheet)“层叠样式表”是用于控制网页样式并允许将样式信息与网页内容分离的一种标记性语言。

    200 引用 • 545 回帖
  • NetBeans

    NetBeans 是一个始于 1997 年的 Xelfi 计划,本身是捷克布拉格查理大学的数学及物理学院的学生计划。此计划延伸而成立了一家公司进而发展这个商用版本的 NetBeans IDE,直到 1999 年 Sun 买下此公司。Sun 于次年(2000 年)六月将 NetBeans IDE 开源,直到现在 NetBeans 的社群依然持续增长。

    78 引用 • 102 回帖 • 724 关注