恐龙工具箱提取元素至文档的功能,提取标注不全(已解决)

是不是我文档过长的缘故,标记内容只提取了 67 组标记,再往后的标记并没被提取出来。(没 github 号,谁帮 @ 作者一下)


已解决

是我自己设置的问题,具体参考插件作者的回复。

图片.png

  • 思源笔记

    思源笔记是一款隐私优先的个人知识管理系统,支持完全离线使用,同时也支持端到端加密同步。

    融合块、大纲和双向链接,重构你的思维。

    26049 引用 • 108133 回帖
  • Q&A

    提问之前请先看《提问的智慧》,好的问题比好的答案更有价值。

    10005 引用 • 45479 回帖 • 73 关注
3 操作
MasterYS 在 2025-06-24 09:15:27 更新了该帖
MasterYS 在 2025-06-24 09:15:01 更新了该帖
JeffreyChen 在 2025-05-05 18:52:53 更新了该帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • J 佬有时间看看能复现嘛。我这只能提取出 71 个块
    MasterYS
  • wilsons 1 评论

    是不是我文档过长的缘故

    有可能,往下滚动试试,可能后面的内容是动态加载的,还没显示出来,所以提取不出来。

    我确定我滚动出来了,不是加载没完成的原因
    MasterYS
  • hqweay 8 评论 via iPhone

    噢抱歉影响体验了。好像是只考虑了段落块内的标注,我瞧瞧。

    1 回复
    没关系,客气了您嘞。应该不是段落内的问题,是提取长度的问题,我的标记就是段落内的,提取不全。如果我把文档拆分成 2 个,各自提取一次,再合并,就提取全了
    MasterYS
    又发现新问题了,就是如果被标记的文本同时被加粗了,也是不能提取的
    MasterYS
    大佬,加粗同时标记的提取问题解决了。但是提取标记不全的问题,还是存在,是不是控制了提取的内容长度导致的啊,解决有望嘛?
    MasterYS
    @MasterYS 咦,你用的哪个操作选项?(「提取元素至新文档」那个菜单下具体哪一个选项)另外保存后,重建索引下试试呢。
    hqweay
    @hqweay 我四个选项(提取标注和备注(含上下文) 提取标注和备注(无上下文) 提取标注(无上下文) 提取标注(含上下文))都试了,都倒出不全,必须要把单个文档拆分成多个短文档,分别提取。我楼上有一个文档的源文件,你可以试试
    MasterYS
    @MasterYS 有点奇怪,前阵子就试过,刚才也再试了下。复现不了,代码逻辑上感觉也不会。= =插件、思源都是最新版吗?重建索引试过吗?还不行的话,得缓缓我研究下。可以用用其它方式,比如嵌入块查询标注,或者 脚注插件 可以一边标注一边提取到文档。
    hqweay
    @hqweay 你的意思是你那边用恐龙工具箱提取我上传的文档内的标记是正常的?能提取全吗?我这只能提取到 71 条。后面的都不行。你说的嵌入块查询代码我不会写,所以没研究过,还是觉得你的方便。脚注插件我知道,要标价完在点击脚注,多了一步也没你这个方便
    MasterYS
    @hqweay 我都是最新版的,重建索引也试了,都不行
    MasterYS
  • 你新建工作空间装这个插件,然后把不行的这个文档导入试试行不行

    1 回复
    他不是一个文档不行,是所有标记过多的长文档都不行。只能切割成多个短文档分别提取
    MasterYS
  • MasterYS

    图片.png

    还是不可以,全新空间,就装了一个插件,还是只提取了 71 个块,感觉是提取的时候被限制了,是 limit 500 类似这种的限制嘛?

  • MasterYS

    我想到了一种可能性,你看有时间要不要排查下,是我在用书签 + 插件的时候想到的。就是“系统默认的查询结果”限制

    比如:sql 查询代码如果是这样的

    select * from blocks where type='d' and (tag is null or tag = '');

    查询出来的结果只返回 64 条就不显示了,如果要加载更多或者全部

    代码要改成

    select * from blocks where type='d' and (tag is null or tag = '') ORDER BY updated DESC LIMIT 500;

    我遇到这个问题的时候,还专门问了下豆包,下面是他的回复

    在数据库或应用系统中,查询结果是否需要显式添加`LIMIT`参数才能获取更多数据,通常与以下因素有关: ### 1. **系统默认的查询结果限制** - 许多数据库或应用(如 Notion、某些笔记系统的数据库接口)为了**性能优化**,会对未指定`LIMIT`的查询设置**默认返回行数限制**(例如默认返回 100 条或 500 条)。 - **举例**:当数据量较大时,若查询语句不加`LIMIT`,系统可能自动限制返回前 N 条结果;而显式添加`LIMIT 500`或更大值时,会覆盖默认限制,返回更多数据。 ### 2. **查询场景与性能权衡** - **无`LIMIT`的查询**:如果数据量小(如只有几十条记录),系统可能直接返回全部结果,因为不会对性能造成压力。 - **有`LIMIT`的查询**:当数据量很大时,不加`LIMIT`可能导致查询耗时过长或占用过多资源,因此系统强制要求或建议添加`LIMIT`,避免全量数据加载。 ### 3. **前端展示与分页机制** - 即使数据库返回全部结果,前端界面可能受限于展示能力(如表格行数、页面渲染效率),只能显示部分数据。此时,`LIMIT`可用于控制前端展示的数量。 - 若前端有分页功能,未指定`LIMIT`时可能只显示第一页数据,而显式设置`LIMIT`可配合分页参数获取更多页。 ### 4. **不同系统的实现差异** - 不同数据库或应用对`LIMIT`的处理规则不同: - 有些系统(如 MySQL)允许无`LIMIT`的查询返回全部结果,但建议大型查询添加`LIMIT`。 - 有些笔记系统的数据库接口可能强制要求`LIMIT`,或在无`LIMIT`时默认返回少量数据(如 20 条),以避免性能问题。 ### 总结:何时需要添加`LIMIT`? - **当数据量可能较大时**:显式添加`LIMIT`(如`LIMIT 1000`)可确保获取更多结果,避免被默认限制截断。 - **当需要精确控制返回行数时**:例如只查最新的 N 条记录,或配合分页参数(如`LIMIT 50 OFFSET 100`)。 - **当系统默认限制导致结果不全时**:通过`LIMIT`覆盖默认设置,例如用`LIMIT 99999`获取接近全部的数据(若系统允许)。 如果需要返回全部结果,且确认数据量较小或系统支持,可不加`LIMIT`;否则建议显式设置较大的`LIMIT`值,或结合分页查询。

    本人纯小白啊,只是猜测

请输入回帖内容 ...

推荐标签 标签

  • Solo

    Solo 是一款小而美的开源博客系统,专为程序员设计。Solo 有着非常活跃的社区,可将文章作为帖子推送到社区,来自社区的回帖将作为博客评论进行联动(具体细节请浏览 B3log 构思 - 分布式社区网络)。

    这是一种全新的网络社区体验,让热爱记录和分享的你不再感到孤单!

    1443 引用 • 10082 回帖 • 497 关注
  • 深度学习

    深度学习(Deep Learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。

    43 引用 • 44 回帖
  • 一些有用的避坑指南。

    69 引用 • 93 回帖
  • JavaScript

    JavaScript 一种动态类型、弱类型、基于原型的直译式脚本语言,内置支持类型。它的解释器被称为 JavaScript 引擎,为浏览器的一部分,广泛用于客户端的脚本语言,最早是在 HTML 网页上使用,用来给 HTML 网页增加动态功能。

    730 引用 • 1282 回帖 • 5 关注
  • OpenResty

    OpenResty 是一个基于 NGINX 与 Lua 的高性能 Web 平台,其内部集成了大量精良的 Lua 库、第三方模块以及大多数的依赖项。用于方便地搭建能够处理超高并发、扩展性极高的动态 Web 应用、Web 服务和动态网关。

    17 引用 • 51 关注
  • 996
    13 引用 • 200 回帖 • 4 关注
  • Node.js

    Node.js 是一个基于 Chrome JavaScript 运行时建立的平台, 用于方便地搭建响应速度快、易于扩展的网络应用。Node.js 使用事件驱动, 非阻塞 I/O 模型而得以轻量和高效。

    139 引用 • 269 回帖 • 1 关注
  • 正则表达式

    正则表达式(Regular Expression)使用单个字符串来描述、匹配一系列遵循某个句法规则的字符串。

    31 引用 • 94 回帖
  • 安全

    安全永远都不是一个小问题。

    199 引用 • 818 回帖
  • Visio
    1 引用 • 2 回帖
  • Python

    Python 是一种面向对象、直译式电脑编程语言,具有近二十年的发展历史,成熟且稳定。它包含了一组完善而且容易理解的标准库,能够轻松完成很多常见的任务。它的语法简捷和清晰,尽量使用无异义的英语单词,与其它大多数程序设计语言使用大括号不一样,它使用缩进来定义语句块。

    554 引用 • 675 回帖
  • RIP

    愿逝者安息!

    8 引用 • 92 回帖 • 406 关注
  • webpack

    webpack 是一个用于前端开发的模块加载器和打包工具,它能把各种资源,例如 JS、CSS(less/sass)、图片等都作为模块来使用和处理。

    42 引用 • 130 回帖 • 252 关注
  • 思源笔记

    思源笔记是一款隐私优先的个人知识管理系统,支持完全离线使用,同时也支持端到端加密同步。

    融合块、大纲和双向链接,重构你的思维。

    26049 引用 • 108132 回帖
  • Mobi.css

    Mobi.css is a lightweight, flexible CSS framework that focus on mobile.

    1 引用 • 6 回帖 • 766 关注
  • Angular

    AngularAngularJS 的新版本。

    26 引用 • 66 回帖 • 560 关注
  • JRebel

    JRebel 是一款 Java 虚拟机插件,它使得 Java 程序员能在不进行重部署的情况下,即时看到代码的改变对一个应用程序带来的影响。

    26 引用 • 78 回帖 • 675 关注
  • 笔记

    好记性不如烂笔头。

    310 引用 • 794 回帖
  • 区块链

    区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。所谓共识机制是区块链系统中实现不同节点之间建立信任、获取权益的数学算法 。

    92 引用 • 752 回帖
  • AWS
    11 引用 • 28 回帖 • 7 关注
  • Q&A

    提问之前请先看《提问的智慧》,好的问题比好的答案更有价值。

    10005 引用 • 45479 回帖 • 73 关注
  • IPFS

    IPFS(InterPlanetary File System,星际文件系统)是永久的、去中心化保存和共享文件的方法,这是一种内容可寻址、版本化、点对点超媒体的分布式协议。请浏览 IPFS 入门笔记了解更多细节。

    20 引用 • 245 回帖 • 234 关注
  • 微信

    腾讯公司 2011 年 1 月 21 日推出的一款手机通讯软件。用户可以通过摇一摇、搜索号码、扫描二维码等添加好友和关注公众平台,同时可以将自己看到的精彩内容分享到微信朋友圈。

    133 引用 • 796 回帖
  • flomo

    flomo 是新一代 「卡片笔记」 ,专注在碎片化时代,促进你的记录,帮你积累更多知识资产。

    6 引用 • 143 回帖
  • 互联网

    互联网(Internet),又称网际网络,或音译因特网、英特网。互联网始于 1969 年美国的阿帕网,是网络与网络之间所串连成的庞大网络,这些网络以一组通用的协议相连,形成逻辑上的单一巨大国际网络。

    98 引用 • 367 回帖
  • 博客

    记录并分享人生的经历。

    273 引用 • 2388 回帖 • 3 关注
  • 爬虫

    网络爬虫(Spider、Crawler),是一种按照一定的规则,自动地抓取万维网信息的程序。

    106 引用 • 275 回帖