小白配置思源笔记本地 OCR(可能是手把手)

本贴最后更新于 430 天前,其中的信息可能已经时移世异

最近选择换用了思源作为主力笔记软件,惊喜的发现思源居然支持 OCR 功能,但是 OCR 是基于 Tessercat 的方案,安装比较复杂,作为一个小白,记录下来,以备不时之需。

安装 Tessercat

首先,需要前往下载 Tessercat OCR Windows :点击前往(安装包是按照时间顺序排列的,因此翻到最后下载就可)。

下载完成后双击安装,语言选择英语(别的也看不懂)。

请在这里寻找你需要添加识别的语言

大部分人应该都是添加简体中文,这里有两个,我百度了一下,vertical 貌似是竖排的意思

记住自己的安装目录哦,后面还会考的。

配置环境变量

这部分,我是参考下面这篇文章来操作的,会不会有多余的步骤我也看不懂,只能期待有大佬指出了

Tesseract-OCR-02-Tesseract-OCR 的安装与 环境变量配置

在控制面板里找到 [系统属性],不过我就偷懒直接搜 [编辑系统环境变量] 了

点击框红的 [环境变量] 按钮

下面两张图一起看哦,分别在自己的用户变量和系统变量的 Path 里添加你 Tessercat 的安装目录,如果你和我一样没改的话,就直接复制粘贴我的就好了,两个都有添加哦(教程这么写的,如果有多余步骤还请大佬们指正)

C:\Program Files\Tesseract-OCR

随后在系统变量里,新建一个变量名称为:TESSDATA_PREFIX

值为:刚才路径加上 \tessdata

如果你和我一样是默认路径的话,那就是下面的

C:\Program Files\Tesseract-OCR\tessdata

这样的话,OCR 功能就配置好了,重新打开思源笔记,就可以进行 ocr 了。

当然,在这里你也可以参考 思源笔记用户指南 ,对环境变量做进一步配置。

  • 思源笔记

    思源笔记是一款隐私优先的个人知识管理系统,支持完全离线使用,同时也支持端到端加密同步。

    融合块、大纲和双向链接,重构你的思维。

    20156 引用 • 77726 回帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • jpanda

    首先我们可以借助于 brew 工具安装 tesseract。

    brew install tesseract
    

    安装完成后,使用命令可以发现本地还没有语言数据:

    image.png

    我们可以从下面几个地址下载语言模型,下面给出的模型识别速度由快到满,准确率由低到高:

    根据上图的第一行报错,我的模型默认加载目录为/opt/local/share/tessdata/,但你的目录地址大概率和我不一致,如果不想使用该目录,可以自己创建一个目录,然后使用一个名为 TESSDATA_PREFIX 的环境变量指向该目录。

    可以通过执行下面的命令配置该环境变量,注意修改目录地址:

    echo "TESSDATA_PREFIX=你的目录地址">~/.bashrc
    

    当然,我们也可以同时创建多个目录,将不同的模型放到不同的目录下,并通过 TESSDATA_PREFIX 环境变量进行切换。

    接下来就是下载将模型存放到你的加载目录中去了,这里建议找个多线程下载工具进行下载,我看了下 best 包,该包解压前 1.77GB,当然也可以直接使用 git 命令直接将文件 clone 到对应的目录下。

    如果不需要使用多个模型,建议直接进行下面操作即可:

    首先移除掉模型目录下的所有文件,否则 git 命令会执行失败,这里不提供脚本,是考虑到很多新手低估了 rm 命令的能力,所以建议通过 finder 移除

    # 首先移除掉模型目录下的所有文件,这里不提供脚本,是考虑到很多新手,所以建议通过finder移除
    # 切换到模型目录下
    cd /opt/local/share/tessdata/
    # 然后将模型直接clone到本目录下
    sudo git clone --depth=1  https://ghproxy.com/https://github.com/tesseract-ocr/tessdata_best.git .
    

    如果你不需要多模型,进行到这一步就结束了,你的模型已经可以使用了。

    如果你想要同时保留多个模型,可以通过下面的方式,首先还是新建一个空目录,然后切换到该目录,将不同的模型 clone 到该目录下:

    这里为了加速下载,我使用了 https://ghproxy.com/进行加速。

    sudo git clone --depth=1  https://ghproxy.com/https://github.com/tesseract-ocr/tessdata_fast.git
    sudo git clone --depth=1  https://ghproxy.com/https://github.com/tesseract-ocr/tessdata.git
    sudo git clone --depth=1  https://ghproxy.com/https://github.com/tesseract-ocr/tessdata_best.git
    
    

    然后你就会在该目录下得到三个模型分别对应的文件夹:

    testdata
    testdatabest
    testdatafast
    

    然后修改环境变量 TESSDATA_PREFIX 的值使其对应一个具体的模型目录,还是以 testdatabest 为例:

    #TESSDATA_PREFIX=你的目录地址/testdatafast
    #TESSDATA_PREFIX=你的目录地址/testdata
    TESSDATA_PREFIX=你的目录地址/testdatabest
    
  • 其他回帖
  • jidenanian

    这个 OCR 能不能不要自动 OCR,需要 OCR 了再针对指定的图片进行 OCR,或者只 OCR 当前打开页面的图片

  • 步骤很详细,我提一个小点,这样下载下来的 OCR 数据包是 fast 数据包,也就是相对来说 OCR 速度最快但是不太准确

    如果想要相对更高的识别率,可以在下载完之后去 tessdata 的安装目录把 fast 数据包替换成 best 数据包,识别准确率会有一定程度的上升

    参考来源:三组 tessdata 数据包对比

    image.png

    2 回复
  • Momowuwen

    难得有这么详细的手把手指导教程,对于很多的小白用户太有用了。

    可惜我的是 macos 系统,有没有人能出一个 macos 系统的教程呀?

    3 回复
  • 查看全部回帖

推荐标签 标签

  • BookxNote

    BookxNote 是一款全新的电子书学习工具,助力您的学习与思考,让您的大脑更高效的记忆。

    笔记整理交给我,一心只读圣贤书。

    1 引用 • 1 回帖 • 1 关注
  • PWL

    组织简介

    用爱发电 (Programming With Love) 是一个以开源精神为核心的民间开源爱好者技术组织,“用爱发电”象征开源与贡献精神,加入组织,代表你将遵守组织的“个人开源爱好者”的各项条款。申请加入:用爱发电组织邀请帖
    用爱发电组织官网:https://programmingwithlove.stackoverflow.wiki/

    用爱发电组织的核心驱动力:

    • 遵守开源守则,体现开源&贡献精神:以分享为目的,拒绝非法牟利。
    • 自我保护:使用适当的 License 保护自己的原创作品。
    • 尊重他人:不以各种理由、各种漏洞进行未经允许的抄袭、散播、洩露;以礼相待,尊重所有对社区做出贡献的开发者;通过他人的分享习得知识,要留下足迹,表示感谢。
    • 热爱编程、热爱学习:加入组织,热爱编程是首当其要的。我们欢迎热爱讨论、分享、提问的朋友,也同样欢迎默默成就的朋友。
    • 倾听:正确并恳切对待、处理问题与建议,及时修复开源项目的 Bug ,及时与反馈者沟通。不抬杠、不无视、不辱骂。
    • 平视:不诋毁、轻视、嘲讽其他开发者,主动提出建议、施以帮助,以和谐为本。只要他人肯努力,你也可能会被昔日小看的人所超越,所以请保持谦虚。
    • 乐观且活跃:你的努力决定了你的高度。不要放弃,多年后回头俯瞰,才会发现自己已经成就往日所仰望的水平。积极地将项目开源,帮助他人学习、改进,自己也会获得相应的提升、成就与成就感。
    1 引用 • 487 回帖
  • Openfire

    Openfire 是开源的、基于可拓展通讯和表示协议 (XMPP)、采用 Java 编程语言开发的实时协作服务器。Openfire 的效率很高,单台服务器可支持上万并发用户。

    6 引用 • 7 回帖 • 94 关注
  • Postman

    Postman 是一款简单好用的 HTTP API 调试工具。

    4 引用 • 3 回帖 • 5 关注
  • Wide

    Wide 是一款基于 Web 的 Go 语言 IDE。通过浏览器就可以进行 Go 开发,并有代码自动完成、查看表达式、编译反馈、Lint、实时结果输出等功能。

    欢迎访问我们运维的实例: https://wide.b3log.org

    30 引用 • 218 回帖 • 615 关注
  • flomo

    flomo 是新一代 「卡片笔记」 ,专注在碎片化时代,促进你的记录,帮你积累更多知识资产。

    4 引用 • 91 回帖
  • 以太坊

    以太坊(Ethereum)并不是一个机构,而是一款能够在区块链上实现智能合约、开源的底层系统。以太坊是一个平台和一种编程语言 Solidity,使开发人员能够建立和发布下一代去中心化应用。 以太坊可以用来编程、分散、担保和交易任何事物:投票、域名、金融交易所、众筹、公司管理、合同和知识产权等等。

    34 引用 • 367 回帖 • 2 关注
  • webpack

    webpack 是一个用于前端开发的模块加载器和打包工具,它能把各种资源,例如 JS、CSS(less/sass)、图片等都作为模块来使用和处理。

    41 引用 • 130 回帖 • 283 关注
  • frp

    frp 是一个可用于内网穿透的高性能的反向代理应用,支持 TCP、UDP、 HTTP 和 HTTPS 协议。

    16 引用 • 7 回帖 • 2 关注
  • Q&A

    提问之前请先看《提问的智慧》,好的问题比好的答案更有价值。

    7018 引用 • 31717 回帖 • 219 关注
  • JVM

    JVM(Java Virtual Machine)Java 虚拟机是一个微型操作系统,有自己的硬件构架体系,还有相应的指令系统。能够识别 Java 独特的 .class 文件(字节码),能够将这些文件中的信息读取出来,使得 Java 程序只需要生成 Java 虚拟机上的字节码后就能在不同操作系统平台上进行运行。

    180 引用 • 120 回帖 • 1 关注
  • C++

    C++ 是在 C 语言的基础上开发的一种通用编程语言,应用广泛。C++ 支持多种编程范式,面向对象编程、泛型编程和过程化编程。

    106 引用 • 152 回帖
  • RIP

    愿逝者安息!

    8 引用 • 92 回帖 • 321 关注
  • Latke

    Latke 是一款以 JSON 为主的 Java Web 框架。

    70 引用 • 533 回帖 • 734 关注
  • IPFS

    IPFS(InterPlanetary File System,星际文件系统)是永久的、去中心化保存和共享文件的方法,这是一种内容可寻址、版本化、点对点超媒体的分布式协议。请浏览 IPFS 入门笔记了解更多细节。

    20 引用 • 245 回帖 • 239 关注
  • 京东

    京东是中国最大的自营式电商企业,2015 年第一季度在中国自营式 B2C 电商市场的占有率为 56.3%。2014 年 5 月,京东在美国纳斯达克证券交易所正式挂牌上市(股票代码:JD),是中国第一个成功赴美上市的大型综合型电商平台,与腾讯、百度等中国互联网巨头共同跻身全球前十大互联网公司排行榜。

    14 引用 • 102 回帖 • 404 关注
  • Scala

    Scala 是一门多范式的编程语言,集成面向对象编程和函数式编程的各种特性。

    13 引用 • 11 回帖 • 110 关注
  • Markdown

    Markdown 是一种轻量级标记语言,用户可使用纯文本编辑器来排版文档,最终通过 Markdown 引擎将文档转换为所需格式(比如 HTML、PDF 等)。

    165 引用 • 1474 回帖
  • Solo

    Solo 是一款小而美的开源博客系统,专为程序员设计。Solo 有着非常活跃的社区,可将文章作为帖子推送到社区,来自社区的回帖将作为博客评论进行联动(具体细节请浏览 B3log 构思 - 分布式社区网络)。

    这是一种全新的网络社区体验,让热爱记录和分享的你不再感到孤单!

    1427 引用 • 10046 回帖 • 473 关注
  • Ruby

    Ruby 是一种开源的面向对象程序设计的服务器端脚本语言,在 20 世纪 90 年代中期由日本的松本行弘(まつもとゆきひろ/Yukihiro Matsumoto)设计并开发。在 Ruby 社区,松本也被称为马茨(Matz)。

    7 引用 • 31 回帖 • 196 关注
  • Maven

    Maven 是基于项目对象模型(POM)、通过一小段描述信息来管理项目的构建、报告和文档的软件项目管理工具。

    186 引用 • 318 回帖 • 330 关注
  • Kafka

    Kafka 是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。 这种动作(网页浏览,搜索和其他用户的行动)是现代系统中许多功能的基础。 这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。

    35 引用 • 35 回帖
  • 旅游

    希望你我能在旅途中找到人生的下一站。

    86 引用 • 897 回帖 • 1 关注
  • 服务器

    服务器,也称伺服器,是提供计算服务的设备。由于服务器需要响应服务请求,并进行处理,因此一般来说服务器应具备承担服务并且保障服务的能力。

    124 引用 • 580 回帖
  • LeetCode

    LeetCode(力扣)是一个全球极客挚爱的高质量技术成长平台,想要学习和提升专业能力从这里开始,充足技术干货等你来啃,轻松拿下 Dream Offer!

    209 引用 • 72 回帖
  • ReactiveX

    ReactiveX 是一个专注于异步编程与控制可观察数据(或者事件)流的 API。它组合了观察者模式,迭代器模式和函数式编程的优秀思想。

    1 引用 • 2 回帖 • 141 关注
  • WebClipper

    Web Clipper 是一款浏览器剪藏扩展,它可以帮助你把网页内容剪藏到本地。

    3 引用 • 9 回帖 • 3 关注