小白配置思源笔记本地 OCR(可能是手把手)

本贴最后更新于 490 天前,其中的信息可能已经时移世异

最近选择换用了思源作为主力笔记软件,惊喜的发现思源居然支持 OCR 功能,但是 OCR 是基于 Tessercat 的方案,安装比较复杂,作为一个小白,记录下来,以备不时之需。

安装 Tessercat

首先,需要前往下载 Tessercat OCR Windows :点击前往(安装包是按照时间顺序排列的,因此翻到最后下载就可)。

下载完成后双击安装,语言选择英语(别的也看不懂)。

请在这里寻找你需要添加识别的语言

大部分人应该都是添加简体中文,这里有两个,我百度了一下,vertical 貌似是竖排的意思

记住自己的安装目录哦,后面还会考的。

配置环境变量

这部分,我是参考下面这篇文章来操作的,会不会有多余的步骤我也看不懂,只能期待有大佬指出了

Tesseract-OCR-02-Tesseract-OCR 的安装与 环境变量配置

在控制面板里找到 [系统属性],不过我就偷懒直接搜 [编辑系统环境变量] 了

点击框红的 [环境变量] 按钮

下面两张图一起看哦,分别在自己的用户变量和系统变量的 Path 里添加你 Tessercat 的安装目录,如果你和我一样没改的话,就直接复制粘贴我的就好了,两个都有添加哦(教程这么写的,如果有多余步骤还请大佬们指正)

C:\Program Files\Tesseract-OCR

随后在系统变量里,新建一个变量名称为:TESSDATA_PREFIX

值为:刚才路径加上 \tessdata

如果你和我一样是默认路径的话,那就是下面的

C:\Program Files\Tesseract-OCR\tessdata

这样的话,OCR 功能就配置好了,重新打开思源笔记,就可以进行 ocr 了。

当然,在这里你也可以参考 思源笔记用户指南 ,对环境变量做进一步配置。

  • 思源笔记

    思源笔记是一款隐私优先的个人知识管理系统,支持完全离线使用,同时也支持端到端加密同步。

    融合块、大纲和双向链接,重构你的思维。

    21070 引用 • 82897 回帖 • 7 关注

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • 感谢这样好的教程!

    1 回复
  • Momowuwen

    难得有这么详细的手把手指导教程,对于很多的小白用户太有用了。

    可惜我的是 macos 系统,有没有人能出一个 macos 系统的教程呀?

    3 回复
  • feihuo

    谢谢鼓励

  • feihuo

    我也是琢磨了很久才成,想着把步骤记录下来,不过我目前手头没有 mac 设备,期待其他大佬了

  • 步骤很详细,我提一个小点,这样下载下来的 OCR 数据包是 fast 数据包,也就是相对来说 OCR 速度最快但是不太准确

    如果想要相对更高的识别率,可以在下载完之后去 tessdata 的安装目录把 fast 数据包替换成 best 数据包,识别准确率会有一定程度的上升

    参考来源:三组 tessdata 数据包对比

    image.png

    2 回复
  • 转载请求:请求转载这篇文档到知乎李大嘴 - 知乎 (zhihu.com)

  • feihuo

    感谢大佬补充

  • 感谢!!不然我真的搞不灵!!!

  • jpanda

    首先我们可以借助于 brew 工具安装 tesseract。

    brew install tesseract
    

    安装完成后,使用命令可以发现本地还没有语言数据:

    image.png

    我们可以从下面几个地址下载语言模型,下面给出的模型识别速度由快到满,准确率由低到高:

    根据上图的第一行报错,我的模型默认加载目录为/opt/local/share/tessdata/,但你的目录地址大概率和我不一致,如果不想使用该目录,可以自己创建一个目录,然后使用一个名为 TESSDATA_PREFIX 的环境变量指向该目录。

    可以通过执行下面的命令配置该环境变量,注意修改目录地址:

    echo "TESSDATA_PREFIX=你的目录地址">~/.bashrc
    

    当然,我们也可以同时创建多个目录,将不同的模型放到不同的目录下,并通过 TESSDATA_PREFIX 环境变量进行切换。

    接下来就是下载将模型存放到你的加载目录中去了,这里建议找个多线程下载工具进行下载,我看了下 best 包,该包解压前 1.77GB,当然也可以直接使用 git 命令直接将文件 clone 到对应的目录下。

    如果不需要使用多个模型,建议直接进行下面操作即可:

    首先移除掉模型目录下的所有文件,否则 git 命令会执行失败,这里不提供脚本,是考虑到很多新手低估了 rm 命令的能力,所以建议通过 finder 移除

    # 首先移除掉模型目录下的所有文件,这里不提供脚本,是考虑到很多新手,所以建议通过finder移除
    # 切换到模型目录下
    cd /opt/local/share/tessdata/
    # 然后将模型直接clone到本目录下
    sudo git clone --depth=1  https://ghproxy.com/https://github.com/tesseract-ocr/tessdata_best.git .
    

    如果你不需要多模型,进行到这一步就结束了,你的模型已经可以使用了。

    如果你想要同时保留多个模型,可以通过下面的方式,首先还是新建一个空目录,然后切换到该目录,将不同的模型 clone 到该目录下:

    这里为了加速下载,我使用了 https://ghproxy.com/进行加速。

    sudo git clone --depth=1  https://ghproxy.com/https://github.com/tesseract-ocr/tessdata_fast.git
    sudo git clone --depth=1  https://ghproxy.com/https://github.com/tesseract-ocr/tessdata.git
    sudo git clone --depth=1  https://ghproxy.com/https://github.com/tesseract-ocr/tessdata_best.git
    
    

    然后你就会在该目录下得到三个模型分别对应的文件夹:

    testdata
    testdatabest
    testdatafast
    

    然后修改环境变量 TESSDATA_PREFIX 的值使其对应一个具体的模型目录,还是以 testdatabest 为例:

    #TESSDATA_PREFIX=你的目录地址/testdatafast
    #TESSDATA_PREFIX=你的目录地址/testdata
    TESSDATA_PREFIX=你的目录地址/testdatabest
    
  • jpanda

    如果你不使用 brew 工具,也可以使用 macports 进行安装,点击查看官方文档

    使用 macports 的的方法官网中已经给出了,执行下面命令即可:

    sudo port install tesseract
    

    同时,使用 macports 工具也可以直接下载指定的语言模型,有效模型可以在 上查看,或者你也可以参考前面安装语言模型的方法,手动处理模型,这里就不赘述了,再给一个 macports 配置国内源的脚本吧:

    # 将原本的默认源替换成清华源
    sudo sed -i '' 's@^#\{0,1\}rsync://.*$@rsync://mirrors.tuna.tsinghua.edu.cn/macports/release/tarballs/ports.tar [default]@' /opt/local/etc/macports/sources.conf
    # 修改rsync_server和rsync_dir
    sudo sed  -e '
    /^#\{0,1\}rsync_server/c \ 
    rsync_server    mirrors.tuna.tsinghua.edu.cn
    /^#\{0,1\}rsync_dir/c \ 
    rsync_dir    macports/release/tarballs/base.tar' macports.conf
    # 更新源
    sudo port -v selfupdate
    
  • jidenanian

    这个 OCR 能不能不要自动 OCR,需要 OCR 了再针对指定的图片进行 OCR,或者只 OCR 当前打开页面的图片

  • siyuan241

    很棒,成功了

  • 太感谢了。教程做的很详细,运行起来没啥问题咯

  • yw1551 1 评论

    不知道是不是思源新版本的问题,我这装了不行

    现在已经不需要这个了,思源已经内置
    ilovesiyuan
  • daloo

    非常棒的教程,一路操作下来完成的很顺利,就是我的扫描版的 pdf 文字识别不知道从哪里调用 😂

    跟我的版本是 V2.12.2 有关吗

  • realysy

    很好!设置了 TESSDATA_PREFIX 环境变量之后 ocr 不乱码了!!我是 msys2 安装的 tesseract 和语言包

  • Banbanzhi

    小白提问,怎么替换呀,楼主能不能再展开说说

请输入回帖内容 ...

推荐标签 标签

  • Sym

    Sym 是一款用 Java 实现的现代化社区(论坛/BBS/社交网络/博客)系统平台。

    下一代的社区系统,为未来而构建

    524 引用 • 4599 回帖 • 700 关注
  • PHP

    PHP(Hypertext Preprocessor)是一种开源脚本语言。语法吸收了 C 语言、 Java 和 Perl 的特点,主要适用于 Web 开发领域,据说是世界上最好的编程语言。

    179 引用 • 407 回帖 • 500 关注
  • Hexo

    Hexo 是一款快速、简洁且高效的博客框架,使用 Node.js 编写。

    21 引用 • 140 回帖 • 5 关注
  • 阿里云

    阿里云是阿里巴巴集团旗下公司,是全球领先的云计算及人工智能科技公司。提供云服务器、云数据库、云安全等云计算服务,以及大数据、人工智能服务、精准定制基于场景的行业解决方案。

    89 引用 • 345 回帖
  • C

    C 语言是一门通用计算机编程语言,应用广泛。C 语言的设计目标是提供一种能以简易的方式编译、处理低级存储器、产生少量的机器码以及不需要任何运行环境支持便能运行的编程语言。

    83 引用 • 165 回帖
  • Spark

    Spark 是 UC Berkeley AMP lab 所开源的类 Hadoop MapReduce 的通用并行框架。Spark 拥有 Hadoop MapReduce 所具有的优点;但不同于 MapReduce 的是 Job 中间输出结果可以保存在内存中,从而不再需要读写 HDFS,因此 Spark 能更好地适用于数据挖掘与机器学习等需要迭代的 MapReduce 的算法。

    74 引用 • 46 回帖 • 561 关注
  • 尊园地产

    昆明尊园房地产经纪有限公司,即:Kunming Zunyuan Property Agency Company Limited(简称“尊园地产”)于 2007 年 6 月开始筹备,2007 年 8 月 18 日正式成立,注册资本 200 万元,公司性质为股份经纪有限公司,主营业务为:代租、代售、代办产权过户、办理银行按揭、担保、抵押、评估等。

    1 引用 • 22 回帖 • 732 关注
  • 运维

    互联网运维工作,以服务为中心,以稳定、安全、高效为三个基本点,确保公司的互联网业务能够 7×24 小时为用户提供高质量的服务。

    148 引用 • 257 回帖
  • Swift

    Swift 是苹果于 2014 年 WWDC(苹果开发者大会)发布的开发语言,可与 Objective-C 共同运行于 Mac OS 和 iOS 平台,用于搭建基于苹果平台的应用程序。

    36 引用 • 37 回帖 • 527 关注
  • DNSPod

    DNSPod 建立于 2006 年 3 月份,是一款免费智能 DNS 产品。 DNSPod 可以为同时有电信、网通、教育网服务器的网站提供智能的解析,让电信用户访问电信的服务器,网通的用户访问网通的服务器,教育网的用户访问教育网的服务器,达到互联互通的效果。

    6 引用 • 26 回帖 • 518 关注
  • CSDN

    CSDN (Chinese Software Developer Network) 创立于 1999 年,是中国的 IT 社区和服务平台,为中国的软件开发者和 IT 从业者提供知识传播、职业发展、软件开发等全生命周期服务,满足他们在职业发展中学习及共享知识和信息、建立职业发展社交圈、通过软件开发实现技术商业化等刚性需求。

    14 引用 • 155 回帖
  • Sublime

    Sublime Text 是一款可以用来写代码、写文章的文本编辑器。支持代码高亮、自动完成,还支持通过插件进行扩展。

    10 引用 • 5 回帖 • 1 关注
  • CAP

    CAP 指的是在一个分布式系统中, Consistency(一致性)、 Availability(可用性)、Partition tolerance(分区容错性),三者不可兼得。

    11 引用 • 5 回帖 • 600 关注
  • 学习

    “梦想从学习开始,事业从实践起步” —— 习近平

    164 引用 • 492 回帖
  • RYMCU

    RYMCU 致力于打造一个即严谨又活泼、专业又不失有趣,为数百万人服务的开源嵌入式知识学习交流平台。

    4 引用 • 6 回帖 • 51 关注
  • Vue.js

    Vue.js(读音 /vju ː/,类似于 view)是一个构建数据驱动的 Web 界面库。Vue.js 的目标是通过尽可能简单的 API 实现响应的数据绑定和组合的视图组件。

    263 引用 • 664 回帖
  • Google

    Google(Google Inc.,NASDAQ:GOOG)是一家美国上市公司(公有股份公司),于 1998 年 9 月 7 日以私有股份公司的形式创立,设计并管理一个互联网搜索引擎。Google 公司的总部称作“Googleplex”,它位于加利福尼亚山景城。Google 目前被公认为是全球规模最大的搜索引擎,它提供了简单易用的免费服务。不作恶(Don't be evil)是谷歌公司的一项非正式的公司口号。

    49 引用 • 192 回帖
  • 脑图

    脑图又叫思维导图,是表达发散性思维的有效图形思维工具 ,它简单却又很有效,是一种实用性的思维工具。

    22 引用 • 70 回帖
  • ZooKeeper

    ZooKeeper 是一个分布式的,开放源码的分布式应用程序协调服务,是 Google 的 Chubby 一个开源的实现,是 Hadoop 和 HBase 的重要组件。它是一个为分布式应用提供一致性服务的软件,提供的功能包括:配置维护、域名服务、分布式同步、组服务等。

    59 引用 • 29 回帖 • 6 关注
  • 小说

    小说是以刻画人物形象为中心,通过完整的故事情节和环境描写来反映社会生活的文学体裁。

    28 引用 • 108 回帖
  • 七牛云

    七牛云是国内领先的企业级公有云服务商,致力于打造以数据为核心的场景化 PaaS 服务。围绕富媒体场景,七牛先后推出了对象存储,融合 CDN 加速,数据通用处理,内容反垃圾服务,以及直播云服务等。

    26 引用 • 222 回帖 • 164 关注
  • 微软

    微软是一家美国跨国科技公司,也是世界 PC 软件开发的先导,由比尔·盖茨与保罗·艾伦创办于 1975 年,公司总部设立在华盛顿州的雷德蒙德(Redmond,邻近西雅图)。以研发、制造、授权和提供广泛的电脑软件服务业务为主。

    8 引用 • 44 回帖
  • 创业

    你比 99% 的人都优秀么?

    83 引用 • 1398 回帖
  • 自由行
    3 关注
  • ActiveMQ

    ActiveMQ 是 Apache 旗下的一款开源消息总线系统,它完整实现了 JMS 规范,是一个企业级的消息中间件。

    19 引用 • 13 回帖 • 660 关注
  • H2

    H2 是一个开源的嵌入式数据库引擎,采用 Java 语言编写,不受平台的限制,同时 H2 提供了一个十分方便的 web 控制台用于操作和管理数据库内容。H2 还提供兼容模式,可以兼容一些主流的数据库,因此采用 H2 作为开发期的数据库非常方便。

    11 引用 • 54 回帖 • 650 关注
  • Caddy

    Caddy 是一款默认自动启用 HTTPS 的 HTTP/2 Web 服务器。

    12 引用 • 54 回帖 • 151 关注