TesseractOCR 不工作了?

本贴最后更新于 216 天前,其中的信息可能已经时异事殊

4 月就装了 Tesseract 了,然后根据贴子设置好了后,确实正常工作了

但今天看上周的图片时发现 OCR 结果文本中是:

Error opening data file D:\Tools\Tesseract_OCR/tessdata/chi_sim.traineddataPlease make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory.Failed loading language 'chi_sim'Error opening data file D:\Tools\Tesseract_OCR/tessdata/chi_sim_vert.traineddataPlease make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory.Failed loading language 'chi_sim_vert'

然后搜索了一下,发现需要在环境变量中增加 TESSDATA_PREFIX 并将 Tesseract_OCR 路径输入,但印象中 4 月我没有建立这个啊;根据上面要求我增加 TESSDATA_PREFIX 后重启,发现结果文本目前是空的了。

我也尝试删除 ocr-texts.json 后重建,结果重建的 json 文件中图片后面的文字都变成空的了;之前的 ocr-texts.json 中大部分还有文字。也就是说它没有正常工作,但也没有报错。

系统:WIN11

思源笔记:2.11.0

  • 思源笔记

    思源笔记是一款隐私优先的个人知识管理系统,支持完全离线使用,同时也支持端到端加密同步。

    融合块、大纲和双向链接,重构你的思维。

    19811 引用 • 75861 回帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • CuiHS

    查了一下 siyuan.log,发现启动时 tesseract_ocr 的参数有时没有,是丢失了?

    之前正常的是这样:图片.png
    现在的是这样:图片.png

  • 88250

    有可能是你动过 Tesseract OCR 安装的语言吧,可以使用 tesseract --list-langs 命令看看。

    2 回复
  • CuiHS

    查看了一下,应该是没错的:

    图片.png

  • CuiHS

    然后我查看了 siyuan.log,发现在 2.11.0 之前每次的 tesseract-ocr 启动那行后面的 langs=都是正常的,但到 2.11.0 最开始两次启动没问题,之后就出现 langs=是空的了。

    1 回复
  • TesseractOCR 对含有底色的图片进行文字识别时,效果非常非常差,再次重提一下,建议思源笔记引入百度 OCR 等在线 OCR

    1 回复
  • 88250

    再检查一下 PATH 环境变量?我这里刚刚测试正常:

    I 2023/11/30 21:16:50 tesseract.go:166: tesseract-ocr enabled [ver=v5.3.3.20231005, maxSize=2.0 MB, langs=chi_sim+chi_sim_vert+eng+osd]
    
    2 回复
  • CuiHS

    不行,我确认几个环境变量都设置了:

    用户变量和系统变量中均设置了:path 和 TESSDATA_PREFIX ,然后发现非常奇葩的问题:这两个目录中如果在最后加上 \ ,就是 windows 目录的反斜杠,那么启动时 langs=后面就是空的,这个时候 ocr 是没有数据的;如果不加 \ ,则启动时 langs= 是正常的,ocr 时里面的文本会报错说无法打开 tesseract_ocr/tessdata/chi_sim.traineddata (当然打不开了,因为 win 系统用的是反斜杠啊)

    最后的解决办法是:我卸载了目前版本 5.0,然后安装了 5.3 版本,并且将新版本的安装目录修改成 Tesseract-OCR ,然后在环境变量中 path 设置为 Tesseract-OCR ,TESSDATA_PREFIX 变量设置为 Tesseract-OCR\tessdata ;目前就正常了。

  • CuiHS 1

    再次复盘,发现我之前用的 chi_sim.traineddata、chi_sim_vert.traineddata、HanS.traineddata 和 HanS_vert.traineddata 全部都是错误的,正常的应该是 12MB 到 16MB,而我一直用的是 300KB 到 600KB 的。

    之前一直用的是我不知道从哪里下载的 tessdata-best,这次新装 5.3 版后,我是直接让它自己下载的 tessdata 数据,这才对比出现问题,再去下载 tessdata-best 就发现与之前的大小相差很大。

    我不知道为什么之前还能正常 OCR,ocr-texts.json 中的 OCR 内容也差不多都有。

  • CuiHS

    赞同,刚才尝试了百度 AI 的手写 OCR,发现准确性差不多能达到 80% 到 90%,而 Tesseract 对于手写中文完全没用。

  • realysy

    tesseract ocr 我是通过 msys2 安装的,然后加到了 win 的环境变量里面,之后开始用思源笔记发现居然有 ocr,惊喜

请输入回帖内容 ...

推荐标签 标签

  • sts
    2 引用 • 2 回帖 • 164 关注
  • 快应用

    快应用 是基于手机硬件平台的新型应用形态;标准是由主流手机厂商组成的快应用联盟联合制定;快应用标准的诞生将在研发接口、能力接入、开发者服务等层面建设标准平台;以平台化的生态模式对个人开发者和企业开发者全品类开放。

    15 引用 • 127 回帖 • 4 关注
  • BookxNote

    BookxNote 是一款全新的电子书学习工具,助力您的学习与思考,让您的大脑更高效的记忆。

    笔记整理交给我,一心只读圣贤书。

    1 引用 • 1 回帖 • 1 关注
  • Hibernate

    Hibernate 是一个开放源代码的对象关系映射框架,它对 JDBC 进行了非常轻量级的对象封装,使得 Java 程序员可以随心所欲的使用对象编程思维来操纵数据库。

    39 引用 • 103 回帖 • 701 关注
  • Typecho

    Typecho 是一款博客程序,它在 GPLv2 许可证下发行,基于 PHP 构建,可以运行在各种平台上,支持多种数据库(MySQL、PostgreSQL、SQLite)。

    12 引用 • 60 回帖 • 457 关注
  • LeetCode

    LeetCode(力扣)是一个全球极客挚爱的高质量技术成长平台,想要学习和提升专业能力从这里开始,充足技术干货等你来啃,轻松拿下 Dream Offer!

    209 引用 • 72 回帖
  • Ngui

    Ngui 是一个 GUI 的排版显示引擎和跨平台的 GUI 应用程序开发框架,基于
    Node.js / OpenGL。目标是在此基础上开发 GUI 应用程序可拥有开发 WEB 应用般简单与速度同时兼顾 Native 应用程序的性能与体验。

    7 引用 • 9 回帖 • 355 关注
  • Redis

    Redis 是一个开源的使用 ANSI C 语言编写、支持网络、可基于内存亦可持久化的日志型、Key-Value 数据库,并提供多种语言的 API。从 2010 年 3 月 15 日起,Redis 的开发工作由 VMware 主持。从 2013 年 5 月开始,Redis 的开发由 Pivotal 赞助。

    284 引用 • 247 回帖 • 148 关注
  • WiFiDog

    WiFiDog 是一套开源的无线热点认证管理工具,主要功能包括:位置相关的内容递送;用户认证和授权;集中式网络监控。

    1 引用 • 7 回帖 • 553 关注
  • SpaceVim

    SpaceVim 是一个社区驱动的模块化 vim/neovim 配置集合,以模块的方式组织管理插件以
    及相关配置,为不同的语言开发量身定制了相关的开发模块,该模块提供代码自动补全,
    语法检查、格式化、调试、REPL 等特性。用户仅需载入相关语言的模块即可得到一个开箱
    即用的 Vim-IDE。

    3 引用 • 31 回帖 • 82 关注
  • GitHub

    GitHub 于 2008 年上线,目前,除了 Git 代码仓库托管及基本的 Web 管理界面以外,还提供了订阅、讨论组、文本渲染、在线文件编辑器、协作图谱(报表)、代码片段分享(Gist)等功能。正因为这些功能所提供的便利,又经过长期的积累,GitHub 的用户活跃度很高,在开源世界里享有深远的声望,并形成了社交化编程文化(Social Coding)。

    207 引用 • 2031 回帖
  • 宕机

    宕机,多指一些网站、游戏、网络应用等服务器一种区别于正常运行的状态,也叫“Down 机”、“当机”或“死机”。宕机状态不仅仅是指服务器“挂掉了”、“死机了”状态,也包括服务器假死、停用、关闭等一些原因而导致出现的不能够正常运行的状态。

    13 引用 • 82 回帖 • 50 关注
  • golang

    Go 语言是 Google 推出的一种全新的编程语言,可以在不损失应用程序性能的情况下降低代码的复杂性。谷歌首席软件工程师罗布派克(Rob Pike)说:我们之所以开发 Go,是因为过去 10 多年间软件开发的难度令人沮丧。Go 是谷歌 2009 发布的第二款编程语言。

    493 引用 • 1385 回帖 • 341 关注
  • Flutter

    Flutter 是谷歌的移动 UI 框架,可以快速在 iOS 和 Android 上构建高质量的原生用户界面。 Flutter 可以与现有的代码一起工作,它正在被越来越多的开发者和组织使用,并且 Flutter 是完全免费、开源的。

    39 引用 • 92 回帖 • 1 关注
  • 创造

    你创造的作品可能会帮助到很多人,如果是开源项目的话就更赞了!

    175 引用 • 992 回帖 • 1 关注
  • 小薇

    小薇是一个用 Java 写的 QQ 聊天机器人 Web 服务,可以用于社群互动。

    由于 Smart QQ 从 2019 年 1 月 1 日起停止服务,所以该项目也已经停止维护了!

    34 引用 • 467 回帖 • 711 关注
  • JWT

    JWT(JSON Web Token)是一种用于双方之间传递信息的简洁的、安全的表述性声明规范。JWT 作为一个开放的标准(RFC 7519),定义了一种简洁的,自包含的方法用于通信双方之间以 JSON 的形式安全的传递信息。

    20 引用 • 15 回帖 • 19 关注
  • InfluxDB

    InfluxDB 是一个开源的没有外部依赖的时间序列数据库。适用于记录度量,事件及实时分析。

    2 引用 • 59 关注
  • jQuery

    jQuery 是一套跨浏览器的 JavaScript 库,强化 HTML 与 JavaScript 之间的操作。由 John Resig 在 2006 年 1 月的 BarCamp NYC 上释出第一个版本。全球约有 28% 的网站使用 jQuery,是非常受欢迎的 JavaScript 库。

    63 引用 • 134 回帖 • 733 关注
  • IPFS

    IPFS(InterPlanetary File System,星际文件系统)是永久的、去中心化保存和共享文件的方法,这是一种内容可寻址、版本化、点对点超媒体的分布式协议。请浏览 IPFS 入门笔记了解更多细节。

    20 引用 • 245 回帖 • 234 关注
  • 锤子科技

    锤子科技(Smartisan)成立于 2012 年 5 月,是一家制造移动互联网终端设备的公司,公司的使命是用完美主义的工匠精神,打造用户体验一流的数码消费类产品(智能手机为主),改善人们的生活质量。

    4 引用 • 31 回帖 • 4 关注
  • 域名

    域名(Domain Name),简称域名、网域,是由一串用点分隔的名字组成的 Internet 上某一台计算机或计算机组的名称,用于在数据传输时标识计算机的电子方位(有时也指地理位置)。

    43 引用 • 208 回帖 • 2 关注
  • OpenResty

    OpenResty 是一个基于 NGINX 与 Lua 的高性能 Web 平台,其内部集成了大量精良的 Lua 库、第三方模块以及大多数的依赖项。用于方便地搭建能够处理超高并发、扩展性极高的动态 Web 应用、Web 服务和动态网关。

    17 引用 • 41 关注
  • 友情链接

    确认过眼神后的灵魂连接,站在链在!

    24 引用 • 373 回帖 • 2 关注
  • 阿里巴巴

    阿里巴巴网络技术有限公司(简称:阿里巴巴集团)是以曾担任英语教师的马云为首的 18 人,于 1999 年在中国杭州创立,他们相信互联网能够创造公平的竞争环境,让小企业通过创新与科技扩展业务,并在参与国内或全球市场竞争时处于更有利的位置。

    43 引用 • 221 回帖 • 200 关注
  • QQ

    1999 年 2 月腾讯正式推出“腾讯 QQ”,在线用户由 1999 年的 2 人(马化腾和张志东)到现在已经发展到上亿用户了,在线人数超过一亿,是目前使用最广泛的聊天软件之一。

    45 引用 • 557 回帖 • 181 关注
  • frp

    frp 是一个可用于内网穿透的高性能的反向代理应用,支持 TCP、UDP、 HTTP 和 HTTPS 协议。

    16 引用 • 7 回帖 • 1 关注