恐龙工具箱提取元素至文档的功能,提取标注不全(已解决)

是不是我文档过长的缘故,标记内容只提取了 67 组标记,再往后的标记并没被提取出来。(没 github 号,谁帮 @ 作者一下)


已解决

是我自己设置的问题,具体参考插件作者的回复。

图片.png

  • 思源笔记

    思源笔记是一款隐私优先的个人知识管理系统,支持完全离线使用,同时也支持端到端加密同步。

    融合块、大纲和双向链接,重构你的思维。

    26693 引用 • 111160 回帖
  • Q&A

    提问之前请先看《提问的智慧》,好的问题比好的答案更有价值。

    10300 引用 • 46779 回帖 • 61 关注
3 操作
MasterYS 在 2025-06-24 09:15:27 更新了该帖
MasterYS 在 2025-06-24 09:15:01 更新了该帖
JeffreyChen 在 2025-05-05 18:52:53 更新了该帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • J 佬有时间看看能复现嘛。我这只能提取出 71 个块
    MasterYS
  • wilsons 1 评论

    是不是我文档过长的缘故

    有可能,往下滚动试试,可能后面的内容是动态加载的,还没显示出来,所以提取不出来。

    我确定我滚动出来了,不是加载没完成的原因
    MasterYS
  • hqweay 8 评论 via iPhone

    噢抱歉影响体验了。好像是只考虑了段落块内的标注,我瞧瞧。

    1 回复
    没关系,客气了您嘞。应该不是段落内的问题,是提取长度的问题,我的标记就是段落内的,提取不全。如果我把文档拆分成 2 个,各自提取一次,再合并,就提取全了
    MasterYS
    又发现新问题了,就是如果被标记的文本同时被加粗了,也是不能提取的
    MasterYS
    大佬,加粗同时标记的提取问题解决了。但是提取标记不全的问题,还是存在,是不是控制了提取的内容长度导致的啊,解决有望嘛?
    MasterYS
    @MasterYS 咦,你用的哪个操作选项?(「提取元素至新文档」那个菜单下具体哪一个选项)另外保存后,重建索引下试试呢。
    hqweay
    @hqweay 我四个选项(提取标注和备注(含上下文) 提取标注和备注(无上下文) 提取标注(无上下文) 提取标注(含上下文))都试了,都倒出不全,必须要把单个文档拆分成多个短文档,分别提取。我楼上有一个文档的源文件,你可以试试
    MasterYS
    @MasterYS 有点奇怪,前阵子就试过,刚才也再试了下。复现不了,代码逻辑上感觉也不会。= =插件、思源都是最新版吗?重建索引试过吗?还不行的话,得缓缓我研究下。可以用用其它方式,比如嵌入块查询标注,或者 脚注插件 可以一边标注一边提取到文档。
    hqweay
    @hqweay 你的意思是你那边用恐龙工具箱提取我上传的文档内的标记是正常的?能提取全吗?我这只能提取到 71 条。后面的都不行。你说的嵌入块查询代码我不会写,所以没研究过,还是觉得你的方便。脚注插件我知道,要标价完在点击脚注,多了一步也没你这个方便
    MasterYS
    @hqweay 我都是最新版的,重建索引也试了,都不行
    MasterYS
  • 你新建工作空间装这个插件,然后把不行的这个文档导入试试行不行

    1 回复
    他不是一个文档不行,是所有标记过多的长文档都不行。只能切割成多个短文档分别提取
    MasterYS
  • MasterYS

    图片.png

    还是不可以,全新空间,就装了一个插件,还是只提取了 71 个块,感觉是提取的时候被限制了,是 limit 500 类似这种的限制嘛?

  • MasterYS

    我想到了一种可能性,你看有时间要不要排查下,是我在用书签 + 插件的时候想到的。就是“系统默认的查询结果”限制

    比如:sql 查询代码如果是这样的

    select * from blocks where type='d' and (tag is null or tag = '');

    查询出来的结果只返回 64 条就不显示了,如果要加载更多或者全部

    代码要改成

    select * from blocks where type='d' and (tag is null or tag = '') ORDER BY updated DESC LIMIT 500;

    我遇到这个问题的时候,还专门问了下豆包,下面是他的回复

    在数据库或应用系统中,查询结果是否需要显式添加`LIMIT`参数才能获取更多数据,通常与以下因素有关: ### 1. **系统默认的查询结果限制** - 许多数据库或应用(如 Notion、某些笔记系统的数据库接口)为了**性能优化**,会对未指定`LIMIT`的查询设置**默认返回行数限制**(例如默认返回 100 条或 500 条)。 - **举例**:当数据量较大时,若查询语句不加`LIMIT`,系统可能自动限制返回前 N 条结果;而显式添加`LIMIT 500`或更大值时,会覆盖默认限制,返回更多数据。 ### 2. **查询场景与性能权衡** - **无`LIMIT`的查询**:如果数据量小(如只有几十条记录),系统可能直接返回全部结果,因为不会对性能造成压力。 - **有`LIMIT`的查询**:当数据量很大时,不加`LIMIT`可能导致查询耗时过长或占用过多资源,因此系统强制要求或建议添加`LIMIT`,避免全量数据加载。 ### 3. **前端展示与分页机制** - 即使数据库返回全部结果,前端界面可能受限于展示能力(如表格行数、页面渲染效率),只能显示部分数据。此时,`LIMIT`可用于控制前端展示的数量。 - 若前端有分页功能,未指定`LIMIT`时可能只显示第一页数据,而显式设置`LIMIT`可配合分页参数获取更多页。 ### 4. **不同系统的实现差异** - 不同数据库或应用对`LIMIT`的处理规则不同: - 有些系统(如 MySQL)允许无`LIMIT`的查询返回全部结果,但建议大型查询添加`LIMIT`。 - 有些笔记系统的数据库接口可能强制要求`LIMIT`,或在无`LIMIT`时默认返回少量数据(如 20 条),以避免性能问题。 ### 总结:何时需要添加`LIMIT`? - **当数据量可能较大时**:显式添加`LIMIT`(如`LIMIT 1000`)可确保获取更多结果,避免被默认限制截断。 - **当需要精确控制返回行数时**:例如只查最新的 N 条记录,或配合分页参数(如`LIMIT 50 OFFSET 100`)。 - **当系统默认限制导致结果不全时**:通过`LIMIT`覆盖默认设置,例如用`LIMIT 99999`获取接近全部的数据(若系统允许)。 如果需要返回全部结果,且确认数据量较小或系统支持,可不加`LIMIT`;否则建议显式设置较大的`LIMIT`值,或结合分页查询。

    本人纯小白啊,只是猜测

  • @hqweay SQL 最后加个很大的 LIMIT 就行:

    image.png

请输入回帖内容 ...

推荐标签 标签

  • BAE

    百度应用引擎(Baidu App Engine)提供了 PHP、Java、Python 的执行环境,以及云存储、消息服务、云数据库等全面的云服务。它可以让开发者实现自动地部署和管理应用,并且提供动态扩容和负载均衡的运行环境,让开发者不用考虑高成本的运维工作,只需专注于业务逻辑,大大降低了开发者学习和迁移的成本。

    19 引用 • 75 回帖 • 685 关注
  • Visio
    1 引用 • 2 回帖 • 1 关注
  • NGINX

    NGINX 是一个高性能的 HTTP 和反向代理服务器,也是一个 IMAP/POP3/SMTP 代理服务器。 NGINX 是由 Igor Sysoev 为俄罗斯访问量第二的 Rambler.ru 站点开发的,第一个公开版本 0.1.0 发布于 2004 年 10 月 4 日。

    315 引用 • 547 回帖
  • BookxNote

    BookxNote 是一款全新的电子书学习工具,助力您的学习与思考,让您的大脑更高效的记忆。

    笔记整理交给我,一心只读圣贤书。

    1 引用 • 1 回帖 • 4 关注
  • Docker

    Docker 是一个开源的应用容器引擎,让开发者可以打包他们的应用以及依赖包到一个可移植的容器中,然后发布到任何流行的操作系统上。容器完全使用沙箱机制,几乎没有性能开销,可以很容易地在机器和数据中心中运行。

    498 引用 • 934 回帖
  • 以太坊

    以太坊(Ethereum)并不是一个机构,而是一款能够在区块链上实现智能合约、开源的底层系统。以太坊是一个平台和一种编程语言 Solidity,使开发人员能够建立和发布下一代去中心化应用。 以太坊可以用来编程、分散、担保和交易任何事物:投票、域名、金融交易所、众筹、公司管理、合同和知识产权等等。

    34 引用 • 367 回帖
  • OpenStack

    OpenStack 是一个云操作系统,通过数据中心可控制大型的计算、存储、网络等资源池。所有的管理通过前端界面管理员就可以完成,同样也可以通过 Web 接口让最终用户部署资源。

    10 引用 • 5 关注
  • BND

    BND(Baidu Netdisk Downloader)是一款图形界面的百度网盘不限速下载器,支持 Windows、Linux 和 Mac,详细介绍请看这里

    107 引用 • 1281 回帖 • 40 关注
  • Unity

    Unity 是由 Unity Technologies 开发的一个让开发者可以轻松创建诸如 2D、3D 多平台的综合型游戏开发工具,是一个全面整合的专业游戏引擎。

    25 引用 • 7 回帖 • 117 关注
  • HHKB

    HHKB 是富士通的 Happy Hacking 系列电容键盘。电容键盘即无接点静电电容式键盘(Capacitive Keyboard)。

    5 引用 • 74 回帖 • 523 关注
  • 钉钉

    钉钉,专为中国企业打造的免费沟通协同多端平台, 阿里巴巴出品。

    15 引用 • 67 回帖 • 260 关注
  • SSL

    SSL(Secure Sockets Layer 安全套接层),及其继任者传输层安全(Transport Layer Security,TLS)是为网络通信提供安全及数据完整性的一种安全协议。TLS 与 SSL 在传输层对网络连接进行加密。

    70 引用 • 193 回帖 • 412 关注
  • 友情链接

    确认过眼神后的灵魂连接,站在链在!

    24 引用 • 373 回帖 • 2 关注
  • 新人

    让我们欢迎这对新人。哦,不好意思说错了,让我们欢迎这位新人!
    新手上路,请谨慎驾驶!

    52 引用 • 228 回帖
  • Sym

    Sym 是一款用 Java 实现的现代化社区(论坛/BBS/社交网络/博客)系统平台。

    下一代的社区系统,为未来而构建

    524 引用 • 4601 回帖 • 709 关注
  • 周末

    星期六到星期天晚,实行五天工作制后,指每周的最后两天。再过几年可能就是三天了。

    14 引用 • 297 回帖
  • CongSec

    本标签主要用于分享网络空间安全专业的学习笔记

    1 引用 • 1 回帖 • 40 关注
  • Flume

    Flume 是一套分布式的、可靠的,可用于有效地收集、聚合和搬运大量日志数据的服务架构。

    9 引用 • 6 回帖 • 662 关注
  • Python

    Python 是一种面向对象、直译式电脑编程语言,具有近二十年的发展历史,成熟且稳定。它包含了一组完善而且容易理解的标准库,能够轻松完成很多常见的任务。它的语法简捷和清晰,尽量使用无异义的英语单词,与其它大多数程序设计语言使用大括号不一样,它使用缩进来定义语句块。

    554 引用 • 675 回帖
  • Angular

    AngularAngularJS 的新版本。

    26 引用 • 66 回帖 • 562 关注
  • Hibernate

    Hibernate 是一个开放源代码的对象关系映射框架,它对 JDBC 进行了非常轻量级的对象封装,使得 Java 程序员可以随心所欲的使用对象编程思维来操纵数据库。

    39 引用 • 103 回帖 • 727 关注
  • SpaceVim

    SpaceVim 是一个社区驱动的模块化 vim/neovim 配置集合,以模块的方式组织管理插件以
    及相关配置,为不同的语言开发量身定制了相关的开发模块,该模块提供代码自动补全,
    语法检查、格式化、调试、REPL 等特性。用户仅需载入相关语言的模块即可得到一个开箱
    即用的 Vim-IDE。

    3 引用 • 31 回帖 • 114 关注
  • TextBundle

    TextBundle 文件格式旨在应用程序之间交换 Markdown 或 Fountain 之类的纯文本文件时,提供更无缝的用户体验。

    1 引用 • 2 回帖 • 81 关注
  • 数据库

    据说 99% 的性能瓶颈都在数据库。

    346 引用 • 760 回帖
  • C

    C 语言是一门通用计算机编程语言,应用广泛。C 语言的设计目标是提供一种能以简易的方式编译、处理低级存储器、产生少量的机器码以及不需要任何运行环境支持便能运行的编程语言。

    86 引用 • 165 回帖
  • V2Ray
    1 引用 • 15 回帖 • 4 关注
  • 架构

    我们平时所说的“架构”主要是指软件架构,这是有关软件整体结构与组件的抽象描述,用于指导软件系统各个方面的设计。另外还有“业务架构”、“网络架构”、“硬件架构”等细分领域。

    142 引用 • 442 回帖