思源笔记 Mac 端的 OCR 识别使用疑问

本贴最后更新于 675 天前,其中的信息可能已经东海扬尘

我在看了官方的 OCR 文档介绍后,这里说需要手动安装 Tesseract 并且勾选中文语言包

image.png

因为官网没有提供直接的 mac 端安装包,所以我是通过 brew 安装的 tesseract,测试已经能够正常使用命令

image.png

然后再去他的语言支持仓库获取中文包,放入 tesseract 的 tessdata 文件夹中

image.png

但是重启思源笔记后导出日志发现并没有启动 ocr.go 的相关日志

请问对于 mac 端有没有更加详细的使用方案

  • 思源笔记

    思源笔记是一款隐私优先的个人知识管理系统,支持完全离线使用,同时也支持端到端加密同步。

    融合块、大纲和双向链接,重构你的思维。

    22353 引用 • 89452 回帖
  • Q&A

    提问之前请先看《提问的智慧》,好的问题比好的答案更有价值。

    8119 引用 • 37029 回帖 • 160 关注

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • SilentStone
    作者

    I 2023/01/17 13:54:07 runtime.go:46: kernel is booting:

    • ver [2.7.0]
    • arch [arm64]
    • pid [26197]
    • runtime mode [prod]
    • working directory [/Applications/SiYuan.app/Contents/Resources]
    • read only [false]
    • container [std]
    • database [ver=20220501]
    • workspace directory [/Users/xxx/Documents/思源笔记/SiYuan]
      I 2023/01/17 13:54:07 conf.go:317: user has disabled [Google Analytics]
      I 2023/01/17 13:54:07 runtime.go:91: use network proxy [system]
      I 2023/01/17 13:54:07 serve.go:111: kernel [pid=26197] http server [127.0.0.1:54799] is booting
      I 2023/01/17 13:54:07 conf.go:616: database size [31 MB], tree/block count [568/10229]
      I 2023/01/17 13:54:07 working.go:157: kernel booted
      I 2023/01/17 13:54:07 working.go:396: built-in pandoc [ver=2.19.2, bin=/Users/xxx/Documents/思源笔记/SiYuan/temp/pandoc/bin/pandoc]
      I 2023/01/17 13:54:08 serve.go:124: reverse proxy server [127.0.0.1:6806] is booting
      I 2023/01/17 13:54:53 database.go:98: reinitialized database [/Users/xxx/Documents/思源笔记/SiYuan/temp/siyuan.db]
      I 2023/01/17 13:54:53 index.go:186: rebuilt database for notebook [20221205220353-6ffaoz7] in [0.01s], tree [count=1, size=31 kB]
      I 2023/01/17 13:54:54 index.go:186: rebuilt database for notebook [20221205163122-i4n8hwz] in [0.65s], tree [count=400, size=4.3 MB]
      I 2023/01/17 13:54:54 index.go:186: rebuilt database for notebook [20230109163831-tmng47v] in [0.01s], tree [count=4, size=35 kB]
      I 2023/01/17 13:54:54 index.go:186: rebuilt database for notebook [20221206081605-pcqqz0k] in [0.07s], tree [count=30, size=384 kB]
      I 2023/01/17 13:54:54 index.go:186: rebuilt database for notebook [20221205155615-dbrvp6j] in [0.01s], tree [count=12, size=36 kB]
      I 2023/01/17 13:54:54 index.go:186: rebuilt database for notebook [20221205142854-vj4jac8] in [0.09s], tree [count=40, size=604 kB]
      I 2023/01/17 13:54:54 index.go:186: rebuilt database for notebook [20230111163951-l5lacom] in [0.01s], tree [count=8, size=28 kB]
      I 2023/01/17 13:54:54 index.go:186: rebuilt database for notebook [20230111163956-a7wzh5b] in [0.00s], tree [count=3, size=5.3 kB]
      I 2023/01/17 13:54:54 index.go:186: rebuilt database for notebook [20230115180352-jlkqv7v] in [0.00s], tree [count=3, size=6.5 kB]
      I 2023/01/17 13:54:54 index.go:186: rebuilt database for notebook [20221208011037-4ww2jwd] in [0.04s], tree [count=10, size=81 kB]
      I 2023/01/17 13:54:54 index.go:186: rebuilt database for notebook [20221205200214-pneevtg] in [0.01s], tree [count=2, size=26 kB]
      I 2023/01/17 13:54:54 index.go:186: rebuilt database for notebook [20210808180117-czj9bvb] in [0.17s], tree [count=55, size=1.1 MB]
      I 2023/01/17 13:54:54 index.go:257: resolved refs [1507] in [68ms]
      I 2023/01/17 13:55:07 box.go:80: auto stat [trees=568, blocks=10229, dataSize=126 MB, assetsSize=98 MB]
      I 2023/01/17 13:55:07 disk.go:33: disk usage [total=995 GB, used=498 GB, free=497 GB]
  • 其他回帖
  • 我的也一样识别不了,我是用的 brew install tesseract-langimage.png

  • zendao 1 评论

    请问 macbook 如何设置环境变量,一直弄不好这个。

    Tesseract 安装好了,命令行可以执行,思源笔记里面就是不行,日志里面看不到 ocr

    补充一下:请问下 macos 修改哪个文件设置环境变量,设置哪个目录?谢谢啦
    zendao
  • 查看全部回帖

推荐标签 标签

  • Thymeleaf

    Thymeleaf 是一款用于渲染 XML/XHTML/HTML5 内容的模板引擎。类似 Velocity、 FreeMarker 等,它也可以轻易的与 Spring 等 Web 框架进行集成作为 Web 应用的模板引擎。与其它模板引擎相比,Thymeleaf 最大的特点是能够直接在浏览器中打开并正确显示模板页面,而不需要启动整个 Web 应用。

    11 引用 • 19 回帖 • 355 关注
  • jsoup

    jsoup 是一款 Java 的 HTML 解析器,可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的 API,可通过 DOM,CSS 以及类似于 jQuery 的操作方法来取出和操作数据。

    6 引用 • 1 回帖 • 476 关注
  • TGIF

    Thank God It's Friday! 感谢老天,总算到星期五啦!

    287 引用 • 4484 回帖 • 669 关注
  • TextBundle

    TextBundle 文件格式旨在应用程序之间交换 Markdown 或 Fountain 之类的纯文本文件时,提供更无缝的用户体验。

    1 引用 • 2 回帖 • 49 关注
  • Linux

    Linux 是一套免费使用和自由传播的类 Unix 操作系统,是一个基于 POSIX 和 Unix 的多用户、多任务、支持多线程和多 CPU 的操作系统。它能运行主要的 Unix 工具软件、应用程序和网络协议,并支持 32 位和 64 位硬件。Linux 继承了 Unix 以网络为核心的设计思想,是一个性能稳定的多用户网络操作系统。

    944 引用 • 943 回帖
  • 宕机

    宕机,多指一些网站、游戏、网络应用等服务器一种区别于正常运行的状态,也叫“Down 机”、“当机”或“死机”。宕机状态不仅仅是指服务器“挂掉了”、“死机了”状态,也包括服务器假死、停用、关闭等一些原因而导致出现的不能够正常运行的状态。

    13 引用 • 82 回帖 • 52 关注
  • Rust

    Rust 是一门赋予每个人构建可靠且高效软件能力的语言。Rust 由 Mozilla 开发,最早发布于 2014 年 9 月。

    58 引用 • 22 回帖
  • 阿里巴巴

    阿里巴巴网络技术有限公司(简称:阿里巴巴集团)是以曾担任英语教师的马云为首的 18 人,于 1999 年在中国杭州创立,他们相信互联网能够创造公平的竞争环境,让小企业通过创新与科技扩展业务,并在参与国内或全球市场竞争时处于更有利的位置。

    43 引用 • 221 回帖 • 114 关注
  • 安全

    安全永远都不是一个小问题。

    199 引用 • 816 回帖 • 1 关注
  • GitLab

    GitLab 是利用 Ruby 一个开源的版本管理系统,实现一个自托管的 Git 项目仓库,可通过 Web 界面操作公开或私有项目。

    46 引用 • 72 回帖 • 1 关注
  • 机器学习

    机器学习(Machine Learning)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。

    83 引用 • 37 回帖 • 1 关注
  • VirtualBox

    VirtualBox 是一款开源虚拟机软件,最早由德国 Innotek 公司开发,由 Sun Microsystems 公司出品的软件,使用 Qt 编写,在 Sun 被 Oracle 收购后正式更名成 Oracle VM VirtualBox。

    10 引用 • 2 回帖 • 6 关注
  • API

    应用程序编程接口(Application Programming Interface)是一些预先定义的函数,目的是提供应用程序与开发人员基于某软件或硬件得以访问一组例程的能力,而又无需访问源码,或理解内部工作机制的细节。

    77 引用 • 430 回帖
  • Spring

    Spring 是一个开源框架,是于 2003 年兴起的一个轻量级的 Java 开发框架,由 Rod Johnson 在其著作《Expert One-On-One J2EE Development and Design》中阐述的部分理念和原型衍生而来。它是为了解决企业应用开发的复杂性而创建的。框架的主要优势之一就是其分层架构,分层架构允许使用者选择使用哪一个组件,同时为 JavaEE 应用程序开发提供集成的框架。

    944 引用 • 1459 回帖 • 17 关注
  • GitBook

    GitBook 使您的团队可以轻松编写和维护高质量的文档。 分享知识,提高团队的工作效率,让用户满意。

    3 引用 • 8 回帖 • 4 关注
  • Android

    Android 是一种以 Linux 为基础的开放源码操作系统,主要使用于便携设备。2005 年由 Google 收购注资,并拉拢多家制造商组成开放手机联盟开发改良,逐渐扩展到到平板电脑及其他领域上。

    334 引用 • 323 回帖 • 2 关注
  • GraphQL

    GraphQL 是一个用于 API 的查询语言,是一个使用基于类型系统来执行查询的服务端运行时(类型系统由你的数据定义)。GraphQL 并没有和任何特定数据库或者存储引擎绑定,而是依靠你现有的代码和数据支撑。

    4 引用 • 3 回帖 • 9 关注
  • 程序员

    程序员是从事程序开发、程序维护的专业人员。

    568 引用 • 3532 回帖
  • Hadoop

    Hadoop 是由 Apache 基金会所开发的一个分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。

    86 引用 • 122 回帖 • 625 关注
  • 外包

    有空闲时间是接外包好呢还是学习好呢?

    26 引用 • 232 回帖 • 2 关注
  • Vim

    Vim 是类 UNIX 系统文本编辑器 Vi 的加强版本,加入了更多特性来帮助编辑源代码。Vim 的部分增强功能包括文件比较(vimdiff)、语法高亮、全面的帮助系统、本地脚本(Vimscript)和便于选择的可视化模式。

    29 引用 • 66 回帖
  • 负能量

    上帝为你关上了一扇门,然后就去睡觉了....努力不一定能成功,但不努力一定很轻松 (° ー °〃)

    88 引用 • 1235 回帖 • 412 关注
  • PostgreSQL

    PostgreSQL 是一款功能强大的企业级数据库系统,在 BSD 开源许可证下发布。

    22 引用 • 22 回帖
  • 大数据

    大数据(big data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

    93 引用 • 113 回帖
  • Telegram

    Telegram 是一个非盈利性、基于云端的即时消息服务。它提供了支持各大操作系统平台的开源的客户端,也提供了很多强大的 APIs 给开发者创建自己的客户端和机器人。

    5 引用 • 35 回帖 • 1 关注
  • 房星科技

    房星网,我们不和没有钱的程序员谈理想,我们要让程序员又有理想又有钱。我们有雄厚的房地产行业线下资源,遍布昆明全城的 100 家门店、四千地产经纪人是我们坚实的后盾。

    6 引用 • 141 回帖 • 585 关注
  • 阿里云

    阿里云是阿里巴巴集团旗下公司,是全球领先的云计算及人工智能科技公司。提供云服务器、云数据库、云安全等云计算服务,以及大数据、人工智能服务、精准定制基于场景的行业解决方案。

    89 引用 • 345 回帖