TesseractOCR 不工作了?

本贴最后更新于 357 天前,其中的信息可能已经时异事殊

4 月就装了 Tesseract 了,然后根据贴子设置好了后,确实正常工作了

但今天看上周的图片时发现 OCR 结果文本中是:

Error opening data file D:\Tools\Tesseract_OCR/tessdata/chi_sim.traineddataPlease make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory.Failed loading language 'chi_sim'Error opening data file D:\Tools\Tesseract_OCR/tessdata/chi_sim_vert.traineddataPlease make sure the TESSDATA_PREFIX environment variable is set to your "tessdata" directory.Failed loading language 'chi_sim_vert'

然后搜索了一下,发现需要在环境变量中增加 TESSDATA_PREFIX 并将 Tesseract_OCR 路径输入,但印象中 4 月我没有建立这个啊;根据上面要求我增加 TESSDATA_PREFIX 后重启,发现结果文本目前是空的了。

我也尝试删除 ocr-texts.json 后重建,结果重建的 json 文件中图片后面的文字都变成空的了;之前的 ocr-texts.json 中大部分还有文字。也就是说它没有正常工作,但也没有报错。

系统:WIN11

思源笔记:2.11.0

  • 思源笔记

    思源笔记是一款隐私优先的个人知识管理系统,支持完全离线使用,同时也支持端到端加密同步。

    融合块、大纲和双向链接,重构你的思维。

    22340 引用 • 89396 回帖 • 1 关注

相关帖子

欢迎来到这里!

我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。

注册 关于
请输入回帖内容 ...
  • CuiHS

    查了一下 siyuan.log,发现启动时 tesseract_ocr 的参数有时没有,是丢失了?

    之前正常的是这样:图片.png
    现在的是这样:图片.png

  • 88250

    有可能是你动过 Tesseract OCR 安装的语言吧,可以使用 tesseract --list-langs 命令看看。

    2 回复
  • CuiHS

    查看了一下,应该是没错的:

    图片.png

  • CuiHS

    然后我查看了 siyuan.log,发现在 2.11.0 之前每次的 tesseract-ocr 启动那行后面的 langs=都是正常的,但到 2.11.0 最开始两次启动没问题,之后就出现 langs=是空的了。

    1 回复
  • TesseractOCR 对含有底色的图片进行文字识别时,效果非常非常差,再次重提一下,建议思源笔记引入百度 OCR 等在线 OCR

    1 回复
  • 88250

    再检查一下 PATH 环境变量?我这里刚刚测试正常:

    I 2023/11/30 21:16:50 tesseract.go:166: tesseract-ocr enabled [ver=v5.3.3.20231005, maxSize=2.0 MB, langs=chi_sim+chi_sim_vert+eng+osd]
    
    2 回复
  • CuiHS

    不行,我确认几个环境变量都设置了:

    用户变量和系统变量中均设置了:path 和 TESSDATA_PREFIX ,然后发现非常奇葩的问题:这两个目录中如果在最后加上 \ ,就是 windows 目录的反斜杠,那么启动时 langs=后面就是空的,这个时候 ocr 是没有数据的;如果不加 \ ,则启动时 langs= 是正常的,ocr 时里面的文本会报错说无法打开 tesseract_ocr/tessdata/chi_sim.traineddata (当然打不开了,因为 win 系统用的是反斜杠啊)

    最后的解决办法是:我卸载了目前版本 5.0,然后安装了 5.3 版本,并且将新版本的安装目录修改成 Tesseract-OCR ,然后在环境变量中 path 设置为 Tesseract-OCR ,TESSDATA_PREFIX 变量设置为 Tesseract-OCR\tessdata ;目前就正常了。

  • CuiHS 1

    再次复盘,发现我之前用的 chi_sim.traineddata、chi_sim_vert.traineddata、HanS.traineddata 和 HanS_vert.traineddata 全部都是错误的,正常的应该是 12MB 到 16MB,而我一直用的是 300KB 到 600KB 的。

    之前一直用的是我不知道从哪里下载的 tessdata-best,这次新装 5.3 版后,我是直接让它自己下载的 tessdata 数据,这才对比出现问题,再去下载 tessdata-best 就发现与之前的大小相差很大。

    我不知道为什么之前还能正常 OCR,ocr-texts.json 中的 OCR 内容也差不多都有。

  • CuiHS

    赞同,刚才尝试了百度 AI 的手写 OCR,发现准确性差不多能达到 80% 到 90%,而 Tesseract 对于手写中文完全没用。

  • realysy

    tesseract ocr 我是通过 msys2 安装的,然后加到了 win 的环境变量里面,之后开始用思源笔记发现居然有 ocr,惊喜

请输入回帖内容 ...

推荐标签 标签

  • Flutter

    Flutter 是谷歌的移动 UI 框架,可以快速在 iOS 和 Android 上构建高质量的原生用户界面。 Flutter 可以与现有的代码一起工作,它正在被越来越多的开发者和组织使用,并且 Flutter 是完全免费、开源的。

    39 引用 • 92 回帖 • 1 关注
  • Gitea

    Gitea 是一个开源社区驱动的轻量级代码托管解决方案,后端采用 Go 编写,采用 MIT 许可证。

    4 引用 • 16 回帖 • 5 关注
  • CSS

    CSS(Cascading Style Sheet)“层叠样式表”是用于控制网页样式并允许将样式信息与网页内容分离的一种标记性语言。

    198 引用 • 550 回帖
  • OnlyOffice
    4 引用 • 3 关注
  • 笔记

    好记性不如烂笔头。

    308 引用 • 793 回帖 • 1 关注
  • Log4j

    Log4j 是 Apache 开源的一款使用广泛的 Java 日志组件。

    20 引用 • 18 回帖 • 31 关注
  • Hexo

    Hexo 是一款快速、简洁且高效的博客框架,使用 Node.js 编写。

    21 引用 • 140 回帖 • 1 关注
  • jsDelivr

    jsDelivr 是一个开源的 CDN 服务,可为 npm 包、GitHub 仓库提供免费、快速并且可靠的全球 CDN 加速服务。

    5 引用 • 31 回帖 • 58 关注
  • Angular

    AngularAngularJS 的新版本。

    26 引用 • 66 回帖 • 537 关注
  • RESTful

    一种软件架构设计风格而不是标准,提供了一组设计原则和约束条件,主要用于客户端和服务器交互类的软件。基于这个风格设计的软件可以更简洁,更有层次,更易于实现缓存等机制。

    30 引用 • 114 回帖 • 2 关注
  • Bug

    Bug 本意是指臭虫、缺陷、损坏、犯贫、窃听器、小虫等。现在人们把在程序中一些缺陷或问题统称为 bug(漏洞)。

    75 引用 • 1737 回帖 • 5 关注
  • Windows

    Microsoft Windows 是美国微软公司研发的一套操作系统,它问世于 1985 年,起初仅仅是 Microsoft-DOS 模拟环境,后续的系统版本由于微软不断的更新升级,不但易用,也慢慢的成为家家户户人们最喜爱的操作系统。

    222 引用 • 473 回帖 • 1 关注
  • BAE

    百度应用引擎(Baidu App Engine)提供了 PHP、Java、Python 的执行环境,以及云存储、消息服务、云数据库等全面的云服务。它可以让开发者实现自动地部署和管理应用,并且提供动态扩容和负载均衡的运行环境,让开发者不用考虑高成本的运维工作,只需专注于业务逻辑,大大降低了开发者学习和迁移的成本。

    19 引用 • 75 回帖 • 642 关注
  • 创造

    你创造的作品可能会帮助到很多人,如果是开源项目的话就更赞了!

    179 引用 • 995 回帖
  • CodeMirror
    1 引用 • 2 回帖 • 129 关注
  • MyBatis

    MyBatis 本是 Apache 软件基金会 的一个开源项目 iBatis,2010 年这个项目由 Apache 软件基金会迁移到了 google code,并且改名为 MyBatis ,2013 年 11 月再次迁移到了 GitHub。

    170 引用 • 414 回帖 • 387 关注
  • Electron

    Electron 基于 Chromium 和 Node.js,让你可以使用 HTML、CSS 和 JavaScript 构建应用。它是一个由 GitHub 及众多贡献者组成的活跃社区共同维护的开源项目,兼容 Mac、Windows 和 Linux,它构建的应用可在这三个操作系统上面运行。

    15 引用 • 136 回帖 • 1 关注
  • Python

    Python 是一种面向对象、直译式电脑编程语言,具有近二十年的发展历史,成熟且稳定。它包含了一组完善而且容易理解的标准库,能够轻松完成很多常见的任务。它的语法简捷和清晰,尽量使用无异义的英语单词,与其它大多数程序设计语言使用大括号不一样,它使用缩进来定义语句块。

    543 引用 • 672 回帖 • 1 关注
  • Postman

    Postman 是一款简单好用的 HTTP API 调试工具。

    4 引用 • 3 回帖 • 3 关注
  • Android

    Android 是一种以 Linux 为基础的开放源码操作系统,主要使用于便携设备。2005 年由 Google 收购注资,并拉拢多家制造商组成开放手机联盟开发改良,逐渐扩展到到平板电脑及其他领域上。

    334 引用 • 323 回帖
  • FreeMarker

    FreeMarker 是一款好用且功能强大的 Java 模版引擎。

    23 引用 • 20 回帖 • 463 关注
  • DevOps

    DevOps(Development 和 Operations 的组合词)是一组过程、方法与系统的统称,用于促进开发(应用程序/软件工程)、技术运营和质量保障(QA)部门之间的沟通、协作与整合。

    47 引用 • 25 回帖
  • SQLServer

    SQL Server 是由 [微软] 开发和推广的关系数据库管理系统(DBMS),它最初是由 微软、Sybase 和 Ashton-Tate 三家公司共同开发的,并于 1988 年推出了第一个 OS/2 版本。

    21 引用 • 31 回帖
  • 禅道

    禅道是一款国产的开源项目管理软件,她的核心管理思想基于敏捷方法 scrum,内置了产品管理和项目管理,同时又根据国内研发现状补充了测试管理、计划管理、发布管理、文档管理、事务管理等功能,在一个软件中就可以将软件研发中的需求、任务、bug、用例、计划、发布等要素有序的跟踪管理起来,完整地覆盖了项目管理的核心流程。

    6 引用 • 15 回帖 • 114 关注
  • Swagger

    Swagger 是一款非常流行的 API 开发工具,它遵循 OpenAPI Specification(这是一种通用的、和编程语言无关的 API 描述规范)。Swagger 贯穿整个 API 生命周期,如 API 的设计、编写文档、测试和部署。

    26 引用 • 35 回帖 • 1 关注
  • Pipe

    Pipe 是一款小而美的开源博客平台。Pipe 有着非常活跃的社区,可将文章作为帖子推送到社区,来自社区的回帖将作为博客评论进行联动(具体细节请浏览 B3log 构思 - 分布式社区网络)。

    这是一种全新的网络社区体验,让热爱记录和分享的你不再感到孤单!

    132 引用 • 1114 回帖 • 124 关注
  • Maven

    Maven 是基于项目对象模型(POM)、通过一小段描述信息来管理项目的构建、报告和文档的软件项目管理工具。

    186 引用 • 318 回帖 • 302 关注