TesseractOCR 不工作了?

4 月就装了 Tesseract 了,然后根据贴子设置好了后,确实正常工作了

但今天看上周的图片时发现 OCR 结果文本中是:

Error opening data file D:\Tools\Tesseract_OCR/tessdata/chi_sim.traineddataPlease make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory.Failed loading language 'chi_sim'Error opening data file D:\Tools\Tesseract_OCR/tessdata/chi_sim_vert.traineddataPlease make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory.Failed loading language 'chi_sim_vert'

然后搜索了一下,发现需要在环境变量中增加 TESSDATA_PREFIX 并将 Tesseract_OCR 路径输入,但印象中 4 月我没有建立这个啊;根据上面要求我增加 TESSDATA_PREFIX 后重启,发现结果文本目前是空的了。

我也尝试删除 ocr-texts.json 后重建,结果重建的 json 文件中图片后面的文字都变成空的了;之前的 ocr-texts.json 中大部分还有文字。也就是说它没有正常工作,但也没有报错。

系统:WIN11

思源笔记:2.11.0

  • 思源笔记

    思源笔记是一款隐私优先的个人知识管理系统,支持完全离线使用,同时也支持端到端加密同步。

    融合块、大纲和双向链接,重构你的思维。

    18898 引用 • 70787 回帖

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • CuiHS

    查了一下 siyuan.log,发现启动时 tesseract_ocr 的参数有时没有,是丢失了?

    之前正常的是这样:图片.png
    现在的是这样:图片.png

  • 88250

    有可能是你动过 Tesseract OCR 安装的语言吧,可以使用 tesseract --list-langs 命令看看。

    2 回复
  • CuiHS

    查看了一下,应该是没错的:

    图片.png

  • CuiHS

    然后我查看了 siyuan.log,发现在 2.11.0 之前每次的 tesseract-ocr 启动那行后面的 langs=都是正常的,但到 2.11.0 最开始两次启动没问题,之后就出现 langs=是空的了。

    1 回复
  • TesseractOCR 对含有底色的图片进行文字识别时,效果非常非常差,再次重提一下,建议思源笔记引入百度 OCR 等在线 OCR

    1 回复
  • 88250

    再检查一下 PATH 环境变量?我这里刚刚测试正常:

    I 2023/11/30 21:16:50 tesseract.go:166: tesseract-ocr enabled [ver=v5.3.3.20231005, maxSize=2.0 MB, langs=chi_sim+chi_sim_vert+eng+osd]
    
    2 回复
  • CuiHS

    不行,我确认几个环境变量都设置了:

    用户变量和系统变量中均设置了:path 和 TESSDATA_PREFIX ,然后发现非常奇葩的问题:这两个目录中如果在最后加上 \ ,就是 windows 目录的反斜杠,那么启动时 langs=后面就是空的,这个时候 ocr 是没有数据的;如果不加 \ ,则启动时 langs= 是正常的,ocr 时里面的文本会报错说无法打开 tesseract_ocr/tessdata/chi_sim.traineddata (当然打不开了,因为 win 系统用的是反斜杠啊)

    最后的解决办法是:我卸载了目前版本 5.0,然后安装了 5.3 版本,并且将新版本的安装目录修改成 Tesseract-OCR ,然后在环境变量中 path 设置为 Tesseract-OCR ,TESSDATA_PREFIX 变量设置为 Tesseract-OCR\tessdata ;目前就正常了。

  • CuiHS 1

    再次复盘,发现我之前用的 chi_sim.traineddata、chi_sim_vert.traineddata、HanS.traineddata 和 HanS_vert.traineddata 全部都是错误的,正常的应该是 12MB 到 16MB,而我一直用的是 300KB 到 600KB 的。

    之前一直用的是我不知道从哪里下载的 tessdata-best,这次新装 5.3 版后,我是直接让它自己下载的 tessdata 数据,这才对比出现问题,再去下载 tessdata-best 就发现与之前的大小相差很大。

    我不知道为什么之前还能正常 OCR,ocr-texts.json 中的 OCR 内容也差不多都有。

  • CuiHS

    赞同,刚才尝试了百度 AI 的手写 OCR,发现准确性差不多能达到 80% 到 90%,而 Tesseract 对于手写中文完全没用。

  • realysy

    tesseract ocr 我是通过 msys2 安装的,然后加到了 win 的环境变量里面,之后开始用思源笔记发现居然有 ocr,惊喜

请输入回帖内容 ...

推荐标签 标签

  • 禅道

    禅道是一款国产的开源项目管理软件,她的核心管理思想基于敏捷方法 scrum,内置了产品管理和项目管理,同时又根据国内研发现状补充了测试管理、计划管理、发布管理、文档管理、事务管理等功能,在一个软件中就可以将软件研发中的需求、任务、bug、用例、计划、发布等要素有序的跟踪管理起来,完整地覆盖了项目管理的核心流程。

    5 引用 • 15 回帖 • 217 关注
  • Lute

    Lute 是一款结构化的 Markdown 引擎,支持 Go 和 JavaScript。

    25 引用 • 191 回帖 • 20 关注
  • 持续集成

    持续集成(Continuous Integration)是一种软件开发实践,即团队开发成员经常集成他们的工作,通过每个成员每天至少集成一次,也就意味着每天可能会发生多次集成。每次集成都通过自动化的构建(包括编译,发布,自动化测试)来验证,从而尽早地发现集成错误。

    14 引用 • 7 回帖 • 1 关注
  • 服务器

    服务器,也称伺服器,是提供计算服务的设备。由于服务器需要响应服务请求,并进行处理,因此一般来说服务器应具备承担服务并且保障服务的能力。

    124 引用 • 580 回帖
  • 一些有用的避坑指南。

    69 引用 • 93 回帖
  • WordPress

    WordPress 是一个使用 PHP 语言开发的博客平台,用户可以在支持 PHP 和 MySQL 数据库的服务器上架设自己的博客。也可以把 WordPress 当作一个内容管理系统(CMS)来使用。WordPress 是一个免费的开源项目,在 GNU 通用公共许可证(GPLv2)下授权发布。

    45 引用 • 113 回帖 • 303 关注
  • Git

    Git 是 Linux Torvalds 为了帮助管理 Linux 内核开发而开发的一个开放源码的版本控制软件。

    205 引用 • 357 回帖 • 1 关注
  • Kafka

    Kafka 是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者规模的网站中的所有动作流数据。 这种动作(网页浏览,搜索和其他用户的行动)是现代系统中许多功能的基础。 这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。

    35 引用 • 35 回帖 • 6 关注
  • GraphQL

    GraphQL 是一个用于 API 的查询语言,是一个使用基于类型系统来执行查询的服务端运行时(类型系统由你的数据定义)。GraphQL 并没有和任何特定数据库或者存储引擎绑定,而是依靠你现有的代码和数据支撑。

    4 引用 • 3 回帖 • 22 关注
  • NetBeans

    NetBeans 是一个始于 1997 年的 Xelfi 计划,本身是捷克布拉格查理大学的数学及物理学院的学生计划。此计划延伸而成立了一家公司进而发展这个商用版本的 NetBeans IDE,直到 1999 年 Sun 买下此公司。Sun 于次年(2000 年)六月将 NetBeans IDE 开源,直到现在 NetBeans 的社群依然持续增长。

    78 引用 • 102 回帖 • 640 关注
  • 游戏

    沉迷游戏伤身,强撸灰飞烟灭。

    169 引用 • 799 回帖
  • 小薇

    小薇是一个用 Java 写的 QQ 聊天机器人 Web 服务,可以用于社群互动。

    由于 Smart QQ 从 2019 年 1 月 1 日起停止服务,所以该项目也已经停止维护了!

    34 引用 • 467 回帖 • 692 关注
  • Swift

    Swift 是苹果于 2014 年 WWDC(苹果开发者大会)发布的开发语言,可与 Objective-C 共同运行于 Mac OS 和 iOS 平台,用于搭建基于苹果平台的应用程序。

    34 引用 • 37 回帖 • 499 关注
  • Dubbo

    Dubbo 是一个分布式服务框架,致力于提供高性能和透明化的 RPC 远程服务调用方案,是 [阿里巴巴] SOA 服务化治理方案的核心框架,每天为 2,000+ 个服务提供 3,000,000,000+ 次访问量支持,并被广泛应用于阿里巴巴集团的各成员站点。

    60 引用 • 82 回帖 • 612 关注
  • 微信

    腾讯公司 2011 年 1 月 21 日推出的一款手机通讯软件。用户可以通过摇一摇、搜索号码、扫描二维码等添加好友和关注公众平台,同时可以将自己看到的精彩内容分享到微信朋友圈。

    129 引用 • 793 回帖 • 1 关注
  • 星云链

    星云链是一个开源公链,业内简单的将其称为区块链上的谷歌。其实它不仅仅是区块链搜索引擎,一个公链的所有功能,它基本都有,比如你可以用它来开发部署你的去中心化的 APP,你可以在上面编写智能合约,发送交易等等。3 分钟快速接入星云链 (NAS) 测试网

    3 引用 • 16 回帖 • 1 关注
  • 酷鸟浏览器

    安全 · 稳定 · 快速
    为跨境从业人员提供专业的跨境浏览器

    3 引用 • 59 回帖 • 23 关注
  • Quicker

    Quicker 您的指尖工具箱!操作更少,收获更多!

    20 引用 • 74 回帖 • 1 关注
  • Bootstrap

    Bootstrap 是 Twitter 推出的一个用于前端开发的开源工具包。它由 Twitter 的设计师 Mark Otto 和 Jacob Thornton 合作开发,是一个 CSS / HTML 框架。

    18 引用 • 33 回帖 • 685 关注
  • 前端

    前端技术一般分为前端设计和前端开发,前端设计可以理解为网站的视觉设计,前端开发则是网站的前台代码实现,包括 HTML、CSS 以及 JavaScript 等。

    247 引用 • 1347 回帖
  • 爬虫

    网络爬虫(Spider、Crawler),是一种按照一定的规则,自动地抓取万维网信息的程序。

    106 引用 • 275 回帖
  • 创业

    你比 99% 的人都优秀么?

    82 引用 • 1398 回帖 • 1 关注
  • ngrok

    ngrok 是一个反向代理,通过在公共的端点和本地运行的 Web 服务器之间建立一个安全的通道。

    7 引用 • 63 回帖 • 600 关注
  • RIP

    愿逝者安息!

    8 引用 • 92 回帖 • 290 关注
  • Netty

    Netty 是一个基于 NIO 的客户端-服务器编程框架,使用 Netty 可以让你快速、简单地开发出一个可维护、高性能的网络应用,例如实现了某种协议的客户、服务端应用。

    49 引用 • 33 回帖 • 19 关注
  • gRpc
    10 引用 • 8 回帖 • 55 关注
  • 架构

    我们平时所说的“架构”主要是指软件架构,这是有关软件整体结构与组件的抽象描述,用于指导软件系统各个方面的设计。另外还有“业务架构”、“网络架构”、“硬件架构”等细分领域。

    140 引用 • 441 回帖 • 1 关注