小白配置思源笔记本地 OCR(可能是手把手)

本贴最后更新于 719 天前,其中的信息可能已经时移世异

最近选择换用了思源作为主力笔记软件,惊喜的发现思源居然支持 OCR 功能,但是 OCR 是基于 Tessercat 的方案,安装比较复杂,作为一个小白,记录下来,以备不时之需。

安装 Tessercat

首先,需要前往下载 Tessercat OCR Windows :点击前往(安装包是按照时间顺序排列的,因此翻到最后下载就可)。

下载完成后双击安装,语言选择英语(别的也看不懂)。

请在这里寻找你需要添加识别的语言

大部分人应该都是添加简体中文,这里有两个,我百度了一下,vertical 貌似是竖排的意思

记住自己的安装目录哦,后面还会考的。

配置环境变量

这部分,我是参考下面这篇文章来操作的,会不会有多余的步骤我也看不懂,只能期待有大佬指出了

Tesseract-OCR-02-Tesseract-OCR 的安装与 环境变量配置

在控制面板里找到 [系统属性],不过我就偷懒直接搜 [编辑系统环境变量] 了

点击框红的 [环境变量] 按钮

下面两张图一起看哦,分别在自己的用户变量和系统变量的 Path 里添加你 Tessercat 的安装目录,如果你和我一样没改的话,就直接复制粘贴我的就好了,两个都有添加哦(教程这么写的,如果有多余步骤还请大佬们指正)

C:\Program Files\Tesseract-OCR

随后在系统变量里,新建一个变量名称为:TESSDATA_PREFIX

值为:刚才路径加上 \tessdata

如果你和我一样是默认路径的话,那就是下面的

C:\Program Files\Tesseract-OCR\tessdata

这样的话,OCR 功能就配置好了,重新打开思源笔记,就可以进行 ocr 了。

当然,在这里你也可以参考 思源笔记用户指南 ,对环境变量做进一步配置。

  • 思源笔记

    思源笔记是一款隐私优先的个人知识管理系统,支持完全离线使用,同时也支持端到端加密同步。

    融合块、大纲和双向链接,重构你的思维。

    25389 引用 • 104913 回帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • 感谢这样好的教程!

    1 回复
  • Momowuwen via macOS

    难得有这么详细的手把手指导教程,对于很多的小白用户太有用了。

    可惜我的是 macos 系统,有没有人能出一个 macos 系统的教程呀?

    3 回复
  • feihuo

    谢谢鼓励

  • feihuo

    我也是琢磨了很久才成,想着把步骤记录下来,不过我目前手头没有 mac 设备,期待其他大佬了

  • 步骤很详细,我提一个小点,这样下载下来的 OCR 数据包是 fast 数据包,也就是相对来说 OCR 速度最快但是不太准确

    如果想要相对更高的识别率,可以在下载完之后去 tessdata 的安装目录把 fast 数据包替换成 best 数据包,识别准确率会有一定程度的上升

    参考来源:三组 tessdata 数据包对比

    image.png

    2 回复
  • 转载请求:请求转载这篇文档到知乎李大嘴 - 知乎 (zhihu.com)

  • feihuo

    感谢大佬补充

  • 感谢!!不然我真的搞不灵!!!

  • jpanda via macOS

    首先我们可以借助于 brew 工具安装 tesseract。

    brew install tesseract

    安装完成后,使用命令可以发现本地还没有语言数据:

    image.png

    我们可以从下面几个地址下载语言模型,下面给出的模型识别速度由快到满,准确率由低到高:

    根据上图的第一行报错,我的模型默认加载目录为/opt/local/share/tessdata/,但你的目录地址大概率和我不一致,如果不想使用该目录,可以自己创建一个目录,然后使用一个名为 TESSDATA_PREFIX 的环境变量指向该目录。

    可以通过执行下面的命令配置该环境变量,注意修改目录地址:

    echo "TESSDATA_PREFIX=你的目录地址">~/.bashrc

    当然,我们也可以同时创建多个目录,将不同的模型放到不同的目录下,并通过 TESSDATA_PREFIX 环境变量进行切换。

    接下来就是下载将模型存放到你的加载目录中去了,这里建议找个多线程下载工具进行下载,我看了下 best 包,该包解压前 1.77GB,当然也可以直接使用 git 命令直接将文件 clone 到对应的目录下。

    如果不需要使用多个模型,建议直接进行下面操作即可:

    首先移除掉模型目录下的所有文件,否则 git 命令会执行失败,这里不提供脚本,是考虑到很多新手低估了 rm 命令的能力,所以建议通过 finder 移除

    # 首先移除掉模型目录下的所有文件,这里不提供脚本,是考虑到很多新手,所以建议通过finder移除 # 切换到模型目录下 cd /opt/local/share/tessdata/ # 然后将模型直接clone到本目录下 sudo git clone --depth=1 https://ghproxy.com/https://github.com/tesseract-ocr/tessdata_best.git .

    如果你不需要多模型,进行到这一步就结束了,你的模型已经可以使用了。

    如果你想要同时保留多个模型,可以通过下面的方式,首先还是新建一个空目录,然后切换到该目录,将不同的模型 clone 到该目录下:

    这里为了加速下载,我使用了 https://ghproxy.com/进行加速。

    sudo git clone --depth=1 https://ghproxy.com/https://github.com/tesseract-ocr/tessdata_fast.git sudo git clone --depth=1 https://ghproxy.com/https://github.com/tesseract-ocr/tessdata.git sudo git clone --depth=1 https://ghproxy.com/https://github.com/tesseract-ocr/tessdata_best.git

    然后你就会在该目录下得到三个模型分别对应的文件夹:

    testdata testdatabest testdatafast

    然后修改环境变量 TESSDATA_PREFIX 的值使其对应一个具体的模型目录,还是以 testdatabest 为例:

    #TESSDATA_PREFIX=你的目录地址/testdatafast #TESSDATA_PREFIX=你的目录地址/testdata TESSDATA_PREFIX=你的目录地址/testdatabest
  • jpanda via macOS

    如果你不使用 brew 工具,也可以使用 macports 进行安装,点击查看官方文档

    使用 macports 的的方法官网中已经给出了,执行下面命令即可:

    sudo port install tesseract

    同时,使用 macports 工具也可以直接下载指定的语言模型,有效模型可以在 上查看,或者你也可以参考前面安装语言模型的方法,手动处理模型,这里就不赘述了,再给一个 macports 配置国内源的脚本吧:

    # 将原本的默认源替换成清华源 sudo sed -i '' 's@^#\{0,1\}rsync://.*$@rsync://mirrors.tuna.tsinghua.edu.cn/macports/release/tarballs/ports.tar [default]@' /opt/local/etc/macports/sources.conf # 修改rsync_server和rsync_dir sudo sed -e ' /^#\{0,1\}rsync_server/c \ rsync_server mirrors.tuna.tsinghua.edu.cn /^#\{0,1\}rsync_dir/c \ rsync_dir macports/release/tarballs/base.tar' macports.conf # 更新源 sudo port -v selfupdate
  • jidenanian

    这个 OCR 能不能不要自动 OCR,需要 OCR 了再针对指定的图片进行 OCR,或者只 OCR 当前打开页面的图片

  • siyuan241

    很棒,成功了

  • 太感谢了。教程做的很详细,运行起来没啥问题咯

  • yw1551 1 评论

    不知道是不是思源新版本的问题,我这装了不行

    现在已经不需要这个了,思源已经内置
    ilovesiyuan
  • daloo

    非常棒的教程,一路操作下来完成的很顺利,就是我的扫描版的 pdf 文字识别不知道从哪里调用 😂

    跟我的版本是 V2.12.2 有关吗

  • realysy

    很好!设置了 TESSDATA_PREFIX 环境变量之后 ocr 不乱码了!!我是 msys2 安装的 tesseract 和语言包

  • Banbanzhi

    小白提问,怎么替换呀,楼主能不能再展开说说

  • 成分感谢!新手致敬!

请输入回帖内容 ...

推荐标签 标签

  • CentOS

    CentOS(Community Enterprise Operating System)是 Linux 发行版之一,它是来自于 Red Hat Enterprise Linux 依照开放源代码规定释出的源代码所编译而成。由于出自同样的源代码,因此有些要求高度稳定的服务器以 CentOS 替代商业版的 Red Hat Enterprise Linux 使用。两者的不同在于 CentOS 并不包含封闭源代码软件。

    239 引用 • 224 回帖
  • iOS

    iOS 是由苹果公司开发的移动操作系统,最早于 2007 年 1 月 9 日的 Macworld 大会上公布这个系统,最初是设计给 iPhone 使用的,后来陆续套用到 iPod touch、iPad 以及 Apple TV 等产品上。iOS 与苹果的 Mac OS X 操作系统一样,属于类 Unix 的商业操作系统。

    89 引用 • 150 回帖 • 1 关注
  • Elasticsearch

    Elasticsearch 是一个基于 Lucene 的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于 RESTful 接口。Elasticsearch 是用 Java 开发的,并作为 Apache 许可条款下的开放源码发布,是当前流行的企业级搜索引擎。设计用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。

    117 引用 • 99 回帖 • 203 关注
  • PWL

    组织简介

    用爱发电 (Programming With Love) 是一个以开源精神为核心的民间开源爱好者技术组织,“用爱发电”象征开源与贡献精神,加入组织,代表你将遵守组织的“个人开源爱好者”的各项条款。申请加入:用爱发电组织邀请帖
    用爱发电组织官网:https://programmingwithlove.stackoverflow.wiki/

    用爱发电组织的核心驱动力:

    • 遵守开源守则,体现开源&贡献精神:以分享为目的,拒绝非法牟利。
    • 自我保护:使用适当的 License 保护自己的原创作品。
    • 尊重他人:不以各种理由、各种漏洞进行未经允许的抄袭、散播、洩露;以礼相待,尊重所有对社区做出贡献的开发者;通过他人的分享习得知识,要留下足迹,表示感谢。
    • 热爱编程、热爱学习:加入组织,热爱编程是首当其要的。我们欢迎热爱讨论、分享、提问的朋友,也同样欢迎默默成就的朋友。
    • 倾听:正确并恳切对待、处理问题与建议,及时修复开源项目的 Bug ,及时与反馈者沟通。不抬杠、不无视、不辱骂。
    • 平视:不诋毁、轻视、嘲讽其他开发者,主动提出建议、施以帮助,以和谐为本。只要他人肯努力,你也可能会被昔日小看的人所超越,所以请保持谦虚。
    • 乐观且活跃:你的努力决定了你的高度。不要放弃,多年后回头俯瞰,才会发现自己已经成就往日所仰望的水平。积极地将项目开源,帮助他人学习、改进,自己也会获得相应的提升、成就与成就感。
    1 引用 • 487 回帖 • 3 关注
  • Dubbo

    Dubbo 是一个分布式服务框架,致力于提供高性能和透明化的 RPC 远程服务调用方案,是 [阿里巴巴] SOA 服务化治理方案的核心框架,每天为 2,000+ 个服务提供 3,000,000,000+ 次访问量支持,并被广泛应用于阿里巴巴集团的各成员站点。

    60 引用 • 82 回帖 • 615 关注
  • 自由行
  • GitBook

    GitBook 使您的团队可以轻松编写和维护高质量的文档。 分享知识,提高团队的工作效率,让用户满意。

    3 引用 • 8 回帖 • 1 关注
  • 大疆创新

    深圳市大疆创新科技有限公司(DJI-Innovations,简称 DJI),成立于 2006 年,是全球领先的无人飞行器控制系统及无人机解决方案的研发和生产商,客户遍布全球 100 多个国家。通过持续的创新,大疆致力于为无人机工业、行业用户以及专业航拍应用提供性能最强、体验最佳的革命性智能飞控产品和解决方案。

    2 引用 • 14 回帖
  • Eclipse

    Eclipse 是一个开放源代码的、基于 Java 的可扩展开发平台。就其本身而言,它只是一个框架和一组服务,用于通过插件组件构建开发环境。

    76 引用 • 258 回帖 • 628 关注
  • 前端

    前端技术一般分为前端设计和前端开发,前端设计可以理解为网站的视觉设计,前端开发则是网站的前台代码实现,包括 HTML、CSS 以及 JavaScript 等。

    245 引用 • 1338 回帖 • 1 关注
  • OpenShift

    红帽提供的 PaaS 云,支持多种编程语言,为开发人员提供了更为灵活的框架、存储选择。

    14 引用 • 20 回帖 • 657 关注
  • Office

    Office 现已更名为 Microsoft 365. Microsoft 365 将高级 Office 应用(如 Word、Excel 和 PowerPoint)与 1 TB 的 OneDrive 云存储空间、高级安全性等结合在一起,可帮助你在任何设备上完成操作。

    5 引用 • 34 回帖
  • 钉钉

    钉钉,专为中国企业打造的免费沟通协同多端平台, 阿里巴巴出品。

    15 引用 • 67 回帖 • 280 关注
  • ZooKeeper

    ZooKeeper 是一个分布式的,开放源码的分布式应用程序协调服务,是 Google 的 Chubby 一个开源的实现,是 Hadoop 和 HBase 的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。

    59 引用 • 29 回帖
  • ReactiveX

    ReactiveX 是一个专注于异步编程与控制可观察数据(或者事件)流的 API。它组合了观察者模式,迭代器模式和函数式编程的优秀思想。

    1 引用 • 2 回帖 • 180 关注
  • 友情链接

    确认过眼神后的灵魂连接,站在链在!

    24 引用 • 373 回帖
  • Wide

    Wide 是一款基于 Web 的 Go 语言 IDE。通过浏览器就可以进行 Go 开发,并有代码自动完成、查看表达式、编译反馈、Lint、实时结果输出等功能。

    欢迎访问我们运维的实例: https://wide.b3log.org

    30 引用 • 218 回帖 • 638 关注
  • 微服务

    微服务架构是一种架构模式,它提倡将单一应用划分成一组小的服务。服务之间互相协调,互相配合,为用户提供最终价值。每个服务运行在独立的进程中。服务于服务之间才用轻量级的通信机制互相沟通。每个服务都围绕着具体业务构建,能够被独立的部署。

    96 引用 • 155 回帖 • 3 关注
  • GitHub

    GitHub 于 2008 年上线,目前,除了 Git 代码仓库托管及基本的 Web 管理界面以外,还提供了订阅、讨论组、文本渲染、在线文件编辑器、协作图谱(报表)、代码片段分享(Gist)等功能。正因为这些功能所提供的便利,又经过长期的积累,GitHub 的用户活跃度很高,在开源世界里享有深远的声望,并形成了社交化编程文化(Social Coding)。

    210 引用 • 2040 回帖
  • WebSocket

    WebSocket 是 HTML5 中定义的一种新协议,它实现了浏览器与服务器之间的全双工通信(full-duplex)。

    48 引用 • 206 回帖 • 291 关注
  • 游戏

    沉迷游戏伤身,强撸灰飞烟灭。

    181 引用 • 821 回帖
  • Google

    Google(Google Inc.,NASDAQ:GOOG)是一家美国上市公司(公有股份公司),于 1998 年 9 月 7 日以私有股份公司的形式创立,设计并管理一个互联网搜索引擎。Google 公司的总部称作“Googleplex”,它位于加利福尼亚山景城。Google 目前被公认为是全球规模最大的搜索引擎,它提供了简单易用的免费服务。不作恶(Don't be evil)是谷歌公司的一项非正式的公司口号。

    49 引用 • 192 回帖
  • Linux

    Linux 是一套免费使用和自由传播的类 Unix 操作系统,是一个基于 POSIX 和 Unix 的多用户、多任务、支持多线程和多 CPU 的操作系统。它能运行主要的 Unix 工具软件、应用程序和网络协议,并支持 32 位和 64 位硬件。Linux 继承了 Unix 以网络为核心的设计思想,是一个性能稳定的多用户网络操作系统。

    952 引用 • 944 回帖
  • 宕机

    宕机,多指一些网站、游戏、网络应用等服务器一种区别于正常运行的状态,也叫“Down 机”、“当机”或“死机”。宕机状态不仅仅是指服务器“挂掉了”、“死机了”状态,也包括服务器假死、停用、关闭等一些原因而导致出现的不能够正常运行的状态。

    13 引用 • 82 回帖 • 77 关注
  • 倾城之链
    23 引用 • 66 回帖 • 166 关注
  • 思源笔记

    思源笔记是一款隐私优先的个人知识管理系统,支持完全离线使用,同时也支持端到端加密同步。

    融合块、大纲和双向链接,重构你的思维。

    25389 引用 • 104912 回帖
  • AngularJS

    AngularJS 诞生于 2009 年,由 Misko Hevery 等人创建,后为 Google 所收购。是一款优秀的前端 JS 框架,已经被用于 Google 的多款产品当中。AngularJS 有着诸多特性,最为核心的是:MVC、模块化、自动化双向数据绑定、语义化标签、依赖注入等。2.0 版本后已经改名为 Angular。

    12 引用 • 50 回帖 • 506 关注