有打算对 PDF 文件进行索引以及查询支持么?

本贴最后更新于 334 天前,其中的信息可能已经时移世异

一个看起来有点超出「笔记应用」范围的小想法。

【UPDATE】: 思源笔记目前就是支持查询文档内容的,需要去到文档内容搜索的 tab。

思源笔记未来可能支持对 PDF 文件进行内容索引和查询么?

拿我用得比较多的一个文档管理应用 DevonThink 举例,它有一个比较厉害的能力,就是会对导入的 PDF、TXT、EPUB 之类的包含的文字内容进行索引,然后进行一些查询:

准确率很高,速度也比较快。

现在思源笔记内通过「⌘-p」进行查询,只能查询文本笔记的内容,进不去 PDF 里面。

如果这个查询能够进入到文字形 PDF 内进行搜索,搜索功能会变得非常好用~

  • 思源笔记

    思源笔记是一款隐私优先的个人知识管理系统,支持完全离线使用,同时也支持端到端加密同步。

    融合块、大纲和双向链接,重构你的思维。

    25450 引用 • 105270 回帖
3 操作
ringx 在 2024-06-11 17:58:18 更新了该帖
ringx 在 2024-06-11 17:40:29 更新了该帖
ringx 在 2024-06-11 17:40:12 更新了该帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • 88250 1

    用户指南 - 搜索资源文件内容

    3 回复
  • ringx via macOS

    原来是需要到文档内容搜索里面搜的,厉害啊!

  • ringx via macOS

    搜索到的结果列表,该怎么打开对应的文件呢?单击、双击、右键好像都没反应。

  • ringx via macOS

    看来思源笔记对 PDF 支持很好啊,作者你可以看看这个么:

    PDF 阅读器可以支持后退 ← 和前进 → 么?

    给 PDF 阅读器增加一下前进后退的支持,文档中一些目录的跳转之后现在回不去跳转前的页面。

    1 回复
  • 88250

    稍后我问下 @Vanessa

    1 回复
  • ringx via macOS

    好的好的,主要是两个问题:

    1. 进行文档内容搜索之后,该怎么打开搜索到的文档。
    2. 打开 PDF 文件,文件内的跳转有没有办法返回。

    这俩是目前用思源笔记看 PDF 会遇到一些障碍的问题。

    1 回复
  • 88250 2 评论
    1. 只能在搜索结果中双击打开文件位置,无法支持内部打开并跳转到搜索结果
    2. @Vanessa
    1 回复
    @Vanessa 对。我感觉这个应该有不少人会遇到障碍吧,PDF 文件内经常会有一些跳转链接的,比如点击目录跳转到对应页面。但是目前没办法返回。
    ringx
  • ringx 1 via macOS

    不是很明白「只能在搜索结果中双击打开文件位置」是什么意思,点击搜索结果好像没什么反应。

    click.gif

    2 回复
  • 88250

    我测试了下,好像是因为包含 ' 的问题,先记录 Issue #11693 · siyuan-note/siyuan

    目前可以换个不包含 ' 的关键字试试看。

    1 回复
  • 双击应该能打开的才对

    1 回复
  • ringx via macOS

    应该不是 ' 的问题,我试过很多,都不能打开的。(我试过 firefox,chrome 都不行,应该不是浏览器的问题)

  • ringx via macOS

    @88250 我明白了,我在客户端试了下,是通过打开「文件管理器」,定位到文件的方式。

    不过这个比较奇怪啊,为啥会是这样的行为,是不能直接在笔记应用中打开对应文件么?

    是不是因为笔记现在只支持 PDF,但是搜索的文档有可能是其他格式?

    1 回复
  • @88250 话说这个双击之后只能打开文件所在目录,不能在思源里打开,感觉怪怪的。

    需求:

    1. 能定位到引用资源的块
    2. 能在思源内打开资源文件
    1 回复
  • 88250

    是的,有的文件类型不支持内部打开,所以暂时统一为打开文件管理器。

    1 回复
  • 88250

    暂时只能这样了。

  • ringx 1 赞同 via macOS

    可以做个 if else 判断,支持的文件类型就在笔记本内打开。

    不然我搜索出来的内容没法阅读,好像没啥意义啊。😂

    并且搜索结果那里不是两栏么,支持的文件,比如「PDF」,最好可以直接在下面预览内容。不过这个应该会有点难度,因为涉及到了和 PDF 文件的交互?

    目前在下面显示纯文本的关键字,好像用处也不大,几乎没有可读性。


    最好能在右上角放一个「文字」和「预览」切换的按钮,有 txt 的内容,也方便拷贝。

    截屏 2024061123.20.29.png

    1 回复
    2 操作
    ringx 在 2024-06-12 00:46:24 更新了该回帖
    ringx 在 2024-06-12 00:31:57 更新了该回帖
  • 88250

    暂时还是统一外部打开吧,等后面需求多了再考虑,谢谢。

    1 回复
  • ringx 1 1 赞同 via macOS

    好的,了解。可以记一下以后有空改善改善。

    主要是在 web 端是没有文件管理器可以打开的,未来支持就地打开文档了就没问题了。

请输入回帖内容 ...

推荐标签 标签

  • sts
    2 引用 • 2 回帖 • 230 关注
  • Linux

    Linux 是一套免费使用和自由传播的类 Unix 操作系统,是一个基于 POSIX 和 Unix 的多用户、多任务、支持多线程和多 CPU 的操作系统。它能运行主要的 Unix 工具软件、应用程序和网络协议,并支持 32 位和 64 位硬件。Linux 继承了 Unix 以网络为核心的设计思想,是一个性能稳定的多用户网络操作系统。

    952 引用 • 944 回帖
  • BND

    BND(Baidu Netdisk Downloader)是一款图形界面的百度网盘不限速下载器,支持 Windows、Linux 和 Mac,详细介绍请看这里

    107 引用 • 1281 回帖 • 32 关注
  • AWS
    11 引用 • 28 回帖 • 8 关注
  • AngularJS

    AngularJS 诞生于 2009 年,由 Misko Hevery 等人创建,后为 Google 所收购。是一款优秀的前端 JS 框架,已经被用于 Google 的多款产品当中。AngularJS 有着诸多特性,最为核心的是:MVC、模块化、自动化双向数据绑定、语义化标签、依赖注入等。2.0 版本后已经改名为 Angular。

    12 引用 • 50 回帖 • 509 关注
  • Hibernate

    Hibernate 是一个开放源代码的对象关系映射框架,它对 JDBC 进行了非常轻量级的对象封装,使得 Java 程序员可以随心所欲的使用对象编程思维来操纵数据库。

    39 引用 • 103 回帖 • 725 关注
  • Maven

    Maven 是基于项目对象模型(POM)、通过一小段描述信息来管理项目的构建、报告和文档的软件项目管理工具。

    188 引用 • 319 回帖 • 250 关注
  • Pipe

    Pipe 是一款小而美的开源博客平台。Pipe 有着非常活跃的社区,可将文章作为帖子推送到社区,来自社区的回帖将作为博客评论进行联动(具体细节请浏览 B3log 构思 - 分布式社区网络)。

    这是一种全新的网络社区体验,让热爱记录和分享的你不再感到孤单!

    133 引用 • 1124 回帖 • 109 关注
  • Vue.js

    Vue.js(读音 /vju ː/,类似于 view)是一个构建数据驱动的 Web 界面库。Vue.js 的目标是通过尽可能简单的 API 实现响应的数据绑定和组合的视图组件。

    268 引用 • 666 回帖
  • Flume

    Flume 是一套分布式的、可靠的,可用于有效地收集、聚合和搬运大量日志数据的服务架构。

    9 引用 • 6 回帖 • 655 关注
  • MySQL

    MySQL 是一个关系型数据库管理系统,由瑞典 MySQL AB 公司开发,目前属于 Oracle 公司。MySQL 是最流行的关系型数据库管理系统之一。

    693 引用 • 537 回帖 • 1 关注
  • 以太坊

    以太坊(Ethereum)并不是一个机构,而是一款能够在区块链上实现智能合约、开源的底层系统。以太坊是一个平台和一种编程语言 Solidity,使开发人员能够建立和发布下一代去中心化应用。 以太坊可以用来编程、分散、担保和交易任何事物:投票、域名、金融交易所、众筹、公司管理、合同和知识产权等等。

    34 引用 • 367 回帖 • 1 关注
  • OnlyOffice
    4 引用 • 22 关注
  • 数据库

    据说 99% 的性能瓶颈都在数据库。

    345 引用 • 747 回帖
  • PHP

    PHP(Hypertext Preprocessor)是一种开源脚本语言。语法吸收了 C 语言、 Java 和 Perl 的特点,主要适用于 Web 开发领域,据说是世界上最好的编程语言。

    181 引用 • 408 回帖 • 483 关注
  • Scala

    Scala 是一门多范式的编程语言,集成面向对象编程和函数式编程的各种特性。

    13 引用 • 11 回帖 • 158 关注
  • CloudFoundry

    Cloud Foundry 是 VMware 推出的业界第一个开源 PaaS 云平台,它支持多种框架、语言、运行时环境、云平台及应用服务,使开发人员能够在几秒钟内进行应用程序的部署和扩展,无需担心任何基础架构的问题。

    5 引用 • 18 回帖 • 181 关注
  • 浅吟主题

    Jeffrey Chen 制作的思源笔记主题,项目仓库:https://github.com/TCOTC/Whisper

    1 引用 • 28 回帖
  • 服务

    提供一个服务绝不仅仅是简单的把硬件和软件累加在一起,它包括了服务的可靠性、服务的标准化、以及对服务的监控、维护、技术支持等。

    41 引用 • 24 回帖 • 2 关注
  • 代码片段

    代码片段分为 CSS 与 JS 两种代码,添加在 [设置 - 外观 - 代码片段] 中,这些代码会在思源笔记加载时自动执行,用于改善笔记的样式或功能。

    用户在该标签下分享代码片段时需在帖子标题前添加 [css] [js] 用于区分代码片段类型。

    167 引用 • 1130 回帖 • 3 关注
  • 酷鸟浏览器

    安全 · 稳定 · 快速
    为跨境从业人员提供专业的跨境浏览器

    3 引用 • 59 回帖 • 47 关注
  • Python

    Python 是一种面向对象、直译式电脑编程语言,具有近二十年的发展历史,成熟且稳定。它包含了一组完善而且容易理解的标准库,能够轻松完成很多常见的任务。它的语法简捷和清晰,尽量使用无异义的英语单词,与其它大多数程序设计语言使用大括号不一样,它使用缩进来定义语句块。

    557 引用 • 675 回帖 • 1 关注
  • V2EX

    V2EX 是创意工作者们的社区。这里目前汇聚了超过 400,000 名主要来自互联网行业、游戏行业和媒体行业的创意工作者。V2EX 希望能够成为创意工作者们的生活和事业的一部分。

    16 引用 • 236 回帖 • 264 关注
  • Sillot

    Insights(注意当前设置 master 为默认分支)

    汐洛彖夲肜矩阵(Sillot T☳Converbenk Matrix),致力于服务智慧新彖乄,具有彖乄驱动、极致优雅、开发者友好的特点。其中汐洛绞架(Sillot-Gibbet)基于自思源笔记(siyuan-note),前身是思源笔记汐洛版(更早是思源笔记汐洛分支),是智慧新录乄终端(多端融合,移动端优先)。

    主仓库地址:Hi-Windom/Sillot

    文档地址:sillot.db.sc.cn

    注意事项:

    1. ⚠️ 汐洛仍在早期开发阶段,尚不稳定
    2. ⚠️ 汐洛并非面向普通用户设计,使用前请了解风险
    3. ⚠️ 汐洛绞架基于思源笔记,开发者尽最大努力与思源笔记保持兼容,但无法实现 100% 兼容
    29 引用 • 25 回帖 • 117 关注
  • 叶归
    8 引用 • 35 回帖 • 17 关注
  • 安全

    安全永远都不是一个小问题。

    203 引用 • 818 回帖 • 2 关注
  • Dubbo

    Dubbo 是一个分布式服务框架,致力于提供高性能和透明化的 RPC 远程服务调用方案,是 [阿里巴巴] SOA 服务化治理方案的核心框架,每天为 2,000+ 个服务提供 3,000,000,000+ 次访问量支持,并被广泛应用于阿里巴巴集团的各成员站点。

    60 引用 • 82 回帖 • 614 关注