有打算对 PDF 文件进行索引以及查询支持么?

一个看起来有点超出「笔记应用」范围的小想法。

【UPDATE】: 思源笔记目前就是支持查询文档内容的,需要去到文档内容搜索的 tab。

思源笔记未来可能支持对 PDF 文件进行内容索引和查询么?

拿我用得比较多的一个文档管理应用 DevonThink 举例,它有一个比较厉害的能力,就是会对导入的 PDF、TXT、EPUB 之类的包含的文字内容进行索引,然后进行一些查询:

准确率很高,速度也比较快。

现在思源笔记内通过「⌘-p」进行查询,只能查询文本笔记的内容,进不去 PDF 里面。

如果这个查询能够进入到文字形 PDF 内进行搜索,搜索功能会变得非常好用~

  • 思源笔记

    思源笔记是一款隐私优先的个人知识管理系统,支持完全离线使用,同时也支持端到端加密同步。

    融合块、大纲和双向链接,重构你的思维。

    22340 引用 • 89396 回帖 • 1 关注
3 操作
ringx 在 2024-06-11 17:58:18 更新了该帖
ringx 在 2024-06-11 17:40:29 更新了该帖
ringx 在 2024-06-11 17:40:12 更新了该帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • 88250 1

    用户指南 - 搜索资源文件内容

    3 回复
  • ringx

    原来是需要到文档内容搜索里面搜的,厉害啊!

  • ringx

    搜索到的结果列表,该怎么打开对应的文件呢?单击、双击、右键好像都没反应。

  • ringx

    看来思源笔记对 PDF 支持很好啊,作者你可以看看这个么:

    PDF 阅读器可以支持后退 ← 和前进 → 么?

    给 PDF 阅读器增加一下前进后退的支持,文档中一些目录的跳转之后现在回不去跳转前的页面。

    1 回复
  • 88250

    稍后我问下 @Vanessa

    1 回复
  • ringx

    好的好的,主要是两个问题:

    1. 进行文档内容搜索之后,该怎么打开搜索到的文档。
    2. 打开 PDF 文件,文件内的跳转有没有办法返回。

    这俩是目前用思源笔记看 PDF 会遇到一些障碍的问题。

    1 回复
  • 88250 2 评论
    1. 只能在搜索结果中双击打开文件位置,无法支持内部打开并跳转到搜索结果
    2. @Vanessa
    1 回复
    @Vanessa 对。我感觉这个应该有不少人会遇到障碍吧,PDF 文件内经常会有一些跳转链接的,比如点击目录跳转到对应页面。但是目前没办法返回。
    ringx
  • ringx 1

    不是很明白「只能在搜索结果中双击打开文件位置」是什么意思,点击搜索结果好像没什么反应。

    click.gif

    2 回复
  • 88250

    我测试了下,好像是因为包含 ' 的问题,先记录 Issue #11693 · siyuan-note/siyuan

    目前可以换个不包含 ' 的关键字试试看。

    1 回复
  • 双击应该能打开的才对

    1 回复
  • ringx

    应该不是 ' 的问题,我试过很多,都不能打开的。(我试过 firefox,chrome 都不行,应该不是浏览器的问题)

  • ringx

    @88250 我明白了,我在客户端试了下,是通过打开「文件管理器」,定位到文件的方式。

    不过这个比较奇怪啊,为啥会是这样的行为,是不能直接在笔记应用中打开对应文件么?

    是不是因为笔记现在只支持 PDF,但是搜索的文档有可能是其他格式?

    1 回复
  • @88250 话说这个双击之后只能打开文件所在目录,不能在思源里打开,感觉怪怪的。

    需求:

    1. 能定位到引用资源的块
    2. 能在思源内打开资源文件
    1 回复
  • 88250

    是的,有的文件类型不支持内部打开,所以暂时统一为打开文件管理器。

    1 回复
  • 88250

    暂时只能这样了。

  • ringx 1 赞同

    可以做个 if else 判断,支持的文件类型就在笔记本内打开。

    不然我搜索出来的内容没法阅读,好像没啥意义啊。😂

    并且搜索结果那里不是两栏么,支持的文件,比如「PDF」,最好可以直接在下面预览内容。不过这个应该会有点难度,因为涉及到了和 PDF 文件的交互?

    目前在下面显示纯文本的关键字,好像用处也不大,几乎没有可读性。


    最好能在右上角放一个「文字」和「预览」切换的按钮,有 txt 的内容,也方便拷贝。

    截屏 2024061123.20.29.png

    1 回复
    2 操作
    ringx 在 2024-06-12 00:46:24 更新了该回帖
    ringx 在 2024-06-12 00:31:57 更新了该回帖
  • 88250

    暂时还是统一外部打开吧,等后面需求多了再考虑,谢谢。

    1 回复
  • ringx 1 1 赞同

    好的,了解。可以记一下以后有空改善改善。

    主要是在 web 端是没有文件管理器可以打开的,未来支持就地打开文档了就没问题了。

请输入回帖内容 ...

推荐标签 标签

  • Flutter

    Flutter 是谷歌的移动 UI 框架,可以快速在 iOS 和 Android 上构建高质量的原生用户界面。 Flutter 可以与现有的代码一起工作,它正在被越来越多的开发者和组织使用,并且 Flutter 是完全免费、开源的。

    39 引用 • 92 回帖 • 1 关注
  • Gitea

    Gitea 是一个开源社区驱动的轻量级代码托管解决方案,后端采用 Go 编写,采用 MIT 许可证。

    4 引用 • 16 回帖 • 5 关注
  • CSS

    CSS(Cascading Style Sheet)“层叠样式表”是用于控制网页样式并允许将样式信息与网页内容分离的一种标记性语言。

    198 引用 • 550 回帖
  • OnlyOffice
    4 引用 • 3 关注
  • 笔记

    好记性不如烂笔头。

    308 引用 • 793 回帖 • 1 关注
  • Log4j

    Log4j 是 Apache 开源的一款使用广泛的 Java 日志组件。

    20 引用 • 18 回帖 • 31 关注
  • Hexo

    Hexo 是一款快速、简洁且高效的博客框架,使用 Node.js 编写。

    21 引用 • 140 回帖 • 1 关注
  • jsDelivr

    jsDelivr 是一个开源的 CDN 服务,可为 npm 包、GitHub 仓库提供免费、快速并且可靠的全球 CDN 加速服务。

    5 引用 • 31 回帖 • 58 关注
  • Angular

    AngularAngularJS 的新版本。

    26 引用 • 66 回帖 • 537 关注
  • RESTful

    一种软件架构设计风格而不是标准,提供了一组设计原则和约束条件,主要用于客户端和服务器交互类的软件。基于这个风格设计的软件可以更简洁,更有层次,更易于实现缓存等机制。

    30 引用 • 114 回帖 • 2 关注
  • Bug

    Bug 本意是指臭虫、缺陷、损坏、犯贫、窃听器、小虫等。现在人们把在程序中一些缺陷或问题统称为 bug(漏洞)。

    75 引用 • 1737 回帖 • 5 关注
  • Windows

    Microsoft Windows 是美国微软公司研发的一套操作系统,它问世于 1985 年,起初仅仅是 Microsoft-DOS 模拟环境,后续的系统版本由于微软不断的更新升级,不但易用,也慢慢的成为家家户户人们最喜爱的操作系统。

    222 引用 • 473 回帖 • 1 关注
  • BAE

    百度应用引擎(Baidu App Engine)提供了 PHP、Java、Python 的执行环境,以及云存储、消息服务、云数据库等全面的云服务。它可以让开发者实现自动地部署和管理应用,并且提供动态扩容和负载均衡的运行环境,让开发者不用考虑高成本的运维工作,只需专注于业务逻辑,大大降低了开发者学习和迁移的成本。

    19 引用 • 75 回帖 • 642 关注
  • 创造

    你创造的作品可能会帮助到很多人,如果是开源项目的话就更赞了!

    179 引用 • 995 回帖
  • CodeMirror
    1 引用 • 2 回帖 • 129 关注
  • MyBatis

    MyBatis 本是 Apache 软件基金会 的一个开源项目 iBatis,2010 年这个项目由 Apache 软件基金会迁移到了 google code,并且改名为 MyBatis ,2013 年 11 月再次迁移到了 GitHub。

    170 引用 • 414 回帖 • 387 关注
  • Electron

    Electron 基于 Chromium 和 Node.js,让你可以使用 HTML、CSS 和 JavaScript 构建应用。它是一个由 GitHub 及众多贡献者组成的活跃社区共同维护的开源项目,兼容 Mac、Windows 和 Linux,它构建的应用可在这三个操作系统上面运行。

    15 引用 • 136 回帖 • 1 关注
  • Python

    Python 是一种面向对象、直译式电脑编程语言,具有近二十年的发展历史,成熟且稳定。它包含了一组完善而且容易理解的标准库,能够轻松完成很多常见的任务。它的语法简捷和清晰,尽量使用无异义的英语单词,与其它大多数程序设计语言使用大括号不一样,它使用缩进来定义语句块。

    543 引用 • 672 回帖 • 1 关注
  • Postman

    Postman 是一款简单好用的 HTTP API 调试工具。

    4 引用 • 3 回帖 • 3 关注
  • Android

    Android 是一种以 Linux 为基础的开放源码操作系统,主要使用于便携设备。2005 年由 Google 收购注资,并拉拢多家制造商组成开放手机联盟开发改良,逐渐扩展到到平板电脑及其他领域上。

    334 引用 • 323 回帖
  • FreeMarker

    FreeMarker 是一款好用且功能强大的 Java 模版引擎。

    23 引用 • 20 回帖 • 463 关注
  • DevOps

    DevOps(Development 和 Operations 的组合词)是一组过程、方法与系统的统称,用于促进开发(应用程序/软件工程)、技术运营和质量保障(QA)部门之间的沟通、协作与整合。

    47 引用 • 25 回帖
  • SQLServer

    SQL Server 是由 [微软] 开发和推广的关系数据库管理系统(DBMS),它最初是由 微软、Sybase 和 Ashton-Tate 三家公司共同开发的,并于 1988 年推出了第一个 OS/2 版本。

    21 引用 • 31 回帖
  • 禅道

    禅道是一款国产的开源项目管理软件,她的核心管理思想基于敏捷方法 scrum,内置了产品管理和项目管理,同时又根据国内研发现状补充了测试管理、计划管理、发布管理、文档管理、事务管理等功能,在一个软件中就可以将软件研发中的需求、任务、bug、用例、计划、发布等要素有序的跟踪管理起来,完整地覆盖了项目管理的核心流程。

    6 引用 • 15 回帖 • 114 关注
  • Swagger

    Swagger 是一款非常流行的 API 开发工具,它遵循 OpenAPI Specification(这是一种通用的、和编程语言无关的 API 描述规范)。Swagger 贯穿整个 API 生命周期,如 API 的设计、编写文档、测试和部署。

    26 引用 • 35 回帖 • 1 关注
  • Pipe

    Pipe 是一款小而美的开源博客平台。Pipe 有着非常活跃的社区,可将文章作为帖子推送到社区,来自社区的回帖将作为博客评论进行联动(具体细节请浏览 B3log 构思 - 分布式社区网络)。

    这是一种全新的网络社区体验,让热爱记录和分享的你不再感到孤单!

    132 引用 • 1114 回帖 • 124 关注
  • Maven

    Maven 是基于项目对象模型(POM)、通过一小段描述信息来管理项目的构建、报告和文档的软件项目管理工具。

    186 引用 • 318 回帖 • 302 关注