小白配置思源笔记本地 OCR(可能是手把手)

本贴最后更新于 552 天前,其中的信息可能已经时移世异

最近选择换用了思源作为主力笔记软件,惊喜的发现思源居然支持 OCR 功能,但是 OCR 是基于 Tessercat 的方案,安装比较复杂,作为一个小白,记录下来,以备不时之需。

安装 Tessercat

首先,需要前往下载 Tessercat OCR Windows :点击前往(安装包是按照时间顺序排列的,因此翻到最后下载就可)。

下载完成后双击安装,语言选择英语(别的也看不懂)。

请在这里寻找你需要添加识别的语言

大部分人应该都是添加简体中文,这里有两个,我百度了一下,vertical 貌似是竖排的意思

记住自己的安装目录哦,后面还会考的。

配置环境变量

这部分,我是参考下面这篇文章来操作的,会不会有多余的步骤我也看不懂,只能期待有大佬指出了

Tesseract-OCR-02-Tesseract-OCR 的安装与 环境变量配置

在控制面板里找到 [系统属性],不过我就偷懒直接搜 [编辑系统环境变量] 了

点击框红的 [环境变量] 按钮

下面两张图一起看哦,分别在自己的用户变量和系统变量的 Path 里添加你 Tessercat 的安装目录,如果你和我一样没改的话,就直接复制粘贴我的就好了,两个都有添加哦(教程这么写的,如果有多余步骤还请大佬们指正)

C:\Program Files\Tesseract-OCR

随后在系统变量里,新建一个变量名称为:TESSDATA_PREFIX

值为:刚才路径加上 \tessdata

如果你和我一样是默认路径的话,那就是下面的

C:\Program Files\Tesseract-OCR\tessdata

这样的话,OCR 功能就配置好了,重新打开思源笔记,就可以进行 ocr 了。

当然,在这里你也可以参考 思源笔记用户指南 ,对环境变量做进一步配置。

  • 思源笔记

    思源笔记是一款隐私优先的个人知识管理系统,支持完全离线使用,同时也支持端到端加密同步。

    融合块、大纲和双向链接,重构你的思维。

    22340 引用 • 89396 回帖 • 1 关注

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • realysy

    很好!设置了 TESSDATA_PREFIX 环境变量之后 ocr 不乱码了!!我是 msys2 安装的 tesseract 和语言包

  • 其他回帖
  • jpanda

    如果你不使用 brew 工具,也可以使用 macports 进行安装,点击查看官方文档

    使用 macports 的的方法官网中已经给出了,执行下面命令即可:

    sudo port install tesseract
    

    同时,使用 macports 工具也可以直接下载指定的语言模型,有效模型可以在 上查看,或者你也可以参考前面安装语言模型的方法,手动处理模型,这里就不赘述了,再给一个 macports 配置国内源的脚本吧:

    # 将原本的默认源替换成清华源
    sudo sed -i '' 's@^#\{0,1\}rsync://.*$@rsync://mirrors.tuna.tsinghua.edu.cn/macports/release/tarballs/ports.tar [default]@' /opt/local/etc/macports/sources.conf
    # 修改rsync_server和rsync_dir
    sudo sed  -e '
    /^#\{0,1\}rsync_server/c \ 
    rsync_server    mirrors.tuna.tsinghua.edu.cn
    /^#\{0,1\}rsync_dir/c \ 
    rsync_dir    macports/release/tarballs/base.tar' macports.conf
    # 更新源
    sudo port -v selfupdate
    
  • feihuo

    我也是琢磨了很久才成,想着把步骤记录下来,不过我目前手头没有 mac 设备,期待其他大佬了

  • jidenanian

    这个 OCR 能不能不要自动 OCR,需要 OCR 了再针对指定的图片进行 OCR,或者只 OCR 当前打开页面的图片

  • 查看全部回帖

推荐标签 标签

  • jsoup

    jsoup 是一款 Java 的 HTML 解析器,可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的 API,可通过 DOM,CSS 以及类似于 jQuery 的操作方法来取出和操作数据。

    6 引用 • 1 回帖 • 477 关注
  • 面试

    面试造航母,上班拧螺丝。多面试,少加班。

    325 引用 • 1395 回帖
  • Hadoop

    Hadoop 是由 Apache 基金会所开发的一个分布式系统基础架构。用户可以在不了解分布式底层细节的情况下,开发分布式程序。充分利用集群的威力进行高速运算和存储。

    86 引用 • 122 回帖 • 625 关注
  • Lute

    Lute 是一款结构化的 Markdown 引擎,支持 Go 和 JavaScript。

    25 引用 • 191 回帖 • 16 关注
  • 心情

    心是产生任何想法的源泉,心本体会陷入到对自己本体不能理解的状态中,因为心能产生任何想法,不能分出对错,不能分出自己。

    59 引用 • 369 回帖
  • SVN

    SVN 是 Subversion 的简称,是一个开放源代码的版本控制系统,相较于 RCS、CVS,它采用了分支管理系统,它的设计目标就是取代 CVS。

    29 引用 • 98 回帖 • 680 关注
  • SSL

    SSL(Secure Sockets Layer 安全套接层),及其继任者传输层安全(Transport Layer Security,TLS)是为网络通信提供安全及数据完整性的一种安全协议。TLS 与 SSL 在传输层对网络连接进行加密。

    70 引用 • 193 回帖 • 431 关注
  • Ubuntu

    Ubuntu(友帮拓、优般图、乌班图)是一个以桌面应用为主的 Linux 操作系统,其名称来自非洲南部祖鲁语或豪萨语的“ubuntu”一词,意思是“人性”、“我的存在是因为大家的存在”,是非洲传统的一种价值观,类似华人社会的“仁爱”思想。Ubuntu 的目标在于为一般用户提供一个最新的、同时又相当稳定的主要由自由软件构建而成的操作系统。

    125 引用 • 169 回帖 • 1 关注
  • Postman

    Postman 是一款简单好用的 HTTP API 调试工具。

    4 引用 • 3 回帖 • 2 关注
  • 游戏

    沉迷游戏伤身,强撸灰飞烟灭。

    176 引用 • 815 回帖
  • 禅道

    禅道是一款国产的开源项目管理软件,她的核心管理思想基于敏捷方法 scrum,内置了产品管理和项目管理,同时又根据国内研发现状补充了测试管理、计划管理、发布管理、文档管理、事务管理等功能,在一个软件中就可以将软件研发中的需求、任务、bug、用例、计划、发布等要素有序的跟踪管理起来,完整地覆盖了项目管理的核心流程。

    6 引用 • 15 回帖 • 113 关注
  • Ant-Design

    Ant Design 是服务于企业级产品的设计体系,基于确定和自然的设计价值观上的模块化解决方案,让设计者和开发者专注于更好的用户体验。

    17 引用 • 23 回帖
  • Maven

    Maven 是基于项目对象模型(POM)、通过一小段描述信息来管理项目的构建、报告和文档的软件项目管理工具。

    186 引用 • 318 回帖 • 303 关注
  • 百度

    百度(Nasdaq:BIDU)是全球最大的中文搜索引擎、最大的中文网站。2000 年 1 月由李彦宏创立于北京中关村,致力于向人们提供“简单,可依赖”的信息获取方式。“百度”二字源于中国宋朝词人辛弃疾的《青玉案·元夕》词句“众里寻他千百度”,象征着百度对中文信息检索技术的执著追求。

    63 引用 • 785 回帖 • 175 关注
  • 创业

    你比 99% 的人都优秀么?

    84 引用 • 1399 回帖
  • Vditor

    Vditor 是一款浏览器端的 Markdown 编辑器,支持所见即所得、即时渲染(类似 Typora)和分屏预览模式。它使用 TypeScript 实现,支持原生 JavaScript、Vue、React 和 Angular。

    351 引用 • 1814 回帖
  • 程序员

    程序员是从事程序开发、程序维护的专业人员。

    567 引用 • 3532 回帖
  • 资讯

    资讯是用户因为及时地获得它并利用它而能够在相对短的时间内给自己带来价值的信息,资讯有时效性和地域性。

    55 引用 • 85 回帖 • 2 关注
  • Node.js

    Node.js 是一个基于 Chrome JavaScript 运行时建立的平台, 用于方便地搭建响应速度快、易于扩展的网络应用。Node.js 使用事件驱动, 非阻塞 I/O 模型而得以轻量和高效。

    139 引用 • 269 回帖 • 43 关注
  • 开源中国

    开源中国是目前中国最大的开源技术社区。传播开源的理念,推广开源项目,为 IT 开发者提供了一个发现、使用、并交流开源技术的平台。目前开源中国社区已收录超过两万款开源软件。

    7 引用 • 86 回帖
  • Firefox

    Mozilla Firefox 中文俗称“火狐”(正式缩写为 Fx 或 fx,非正式缩写为 FF),是一个开源的网页浏览器,使用 Gecko 排版引擎,支持多种操作系统,如 Windows、OSX 及 Linux 等。

    8 引用 • 30 回帖 • 407 关注
  • Wide

    Wide 是一款基于 Web 的 Go 语言 IDE。通过浏览器就可以进行 Go 开发,并有代码自动完成、查看表达式、编译反馈、Lint、实时结果输出等功能。

    欢迎访问我们运维的实例: https://wide.b3log.org

    30 引用 • 218 回帖 • 628 关注
  • 负能量

    上帝为你关上了一扇门,然后就去睡觉了....努力不一定能成功,但不努力一定很轻松 (° ー °〃)

    88 引用 • 1235 回帖 • 411 关注
  • Rust

    Rust 是一门赋予每个人构建可靠且高效软件能力的语言。Rust 由 Mozilla 开发,最早发布于 2014 年 9 月。

    58 引用 • 22 回帖
  • 深度学习

    深度学习(Deep Learning)是机器学习的分支,是一种试图使用包含复杂结构或由多重非线性变换构成的多个处理层对数据进行高层抽象的算法。

    53 引用 • 40 回帖 • 2 关注
  • 学习

    “梦想从学习开始,事业从实践起步” —— 习近平

    169 引用 • 506 回帖
  • WebClipper

    Web Clipper 是一款浏览器剪藏扩展,它可以帮助你把网页内容剪藏到本地。

    3 引用 • 9 回帖