-
小白配置思源笔记本地 OCR(可能是手把手)
2023-05-31 14:33如果你不使用 brew 工具,也可以使用 macports 进行安装,点击查看官方文档。
使用 macports 的的方法官网中已经给出了,执行下面命令即可:
sudo port install tesseract
同时,使用 macports 工具也可以直接下载指定的语言模型,有效模型可以在 上查看,或者你也可以参考前面安装语言模型的方法,手动处理模型,这里就不赘述了,再给一个 macports 配置国内源的脚本吧:
# 将原本的默认源替换成清华源 sudo sed -i '' 's@^#\{0,1\}rsync://.*$@rsync://mirrors.tuna.tsinghua.edu.cn/macports/release/tarballs/ports.tar [default]@' /opt/local/etc/macports/sources.conf # 修改rsync_server和rsync_dir sudo sed -e ' /^#\{0,1\}rsync_server/c \ rsync_server mirrors.tuna.tsinghua.edu.cn /^#\{0,1\}rsync_dir/c \ rsync_dir macports/release/tarballs/base.tar' macports.conf # 更新源 sudo port -v selfupdate
-
小白配置思源笔记本地 OCR(可能是手把手)
2023-05-31 14:20首先我们可以借助于 brew 工具安装 tesseract。
brew install tesseract
安装完成后,使用命令可以发现本地还没有语言数据:
我们可以从下面几个地址下载语言模型,下面给出的模型识别速度由快到满,准确率由低到高:
- https://github.com/tesseract-ocr/tessdata_fast/
- https://github.com/tesseract-ocr/tessdata
- https://github.com/tesseract-ocr/tessdata_best
根据上图的第一行报错,我的模型默认加载目录为/opt/local/share/tessdata/,但你的目录地址大概率和我不一致,如果不想使用该目录,可以自己创建一个目录,然后使用一个名为
TESSDATA_PREFIX
的环境变量指向该目录。可以通过执行下面的命令配置该环境变量,注意修改目录地址:
echo "TESSDATA_PREFIX=你的目录地址">~/.bashrc
当然,我们也可以同时创建多个目录,将不同的模型放到不同的目录下,并通过
TESSDATA_PREFIX
环境变量进行切换。接下来就是下载将模型存放到你的加载目录中去了,这里建议找个多线程下载工具进行下载,我看了下 best 包,该包解压前 1.77GB,当然也可以直接使用 git 命令直接将文件 clone 到对应的目录下。
如果不需要使用多个模型,建议直接进行下面操作即可:
首先移除掉模型目录下的所有文件,否则 git 命令会执行失败,这里不提供脚本,是考虑到很多新手低估了 rm 命令的能力,所以建议通过 finder 移除
# 首先移除掉模型目录下的所有文件,这里不提供脚本,是考虑到很多新手,所以建议通过finder移除 # 切换到模型目录下 cd /opt/local/share/tessdata/ # 然后将模型直接clone到本目录下 sudo git clone --depth=1 https://ghproxy.com/https://github.com/tesseract-ocr/tessdata_best.git .
如果你不需要多模型,进行到这一步就结束了,你的模型已经可以使用了。
如果你想要同时保留多个模型,可以通过下面的方式,首先还是新建一个空目录,然后切换到该目录,将不同的模型 clone 到该目录下:
这里为了加速下载,我使用了 https://ghproxy.com/进行加速。
sudo git clone --depth=1 https://ghproxy.com/https://github.com/tesseract-ocr/tessdata_fast.git sudo git clone --depth=1 https://ghproxy.com/https://github.com/tesseract-ocr/tessdata.git sudo git clone --depth=1 https://ghproxy.com/https://github.com/tesseract-ocr/tessdata_best.git
然后你就会在该目录下得到三个模型分别对应的文件夹:
testdata testdatabest testdatafast
然后修改环境变量 TESSDATA_PREFIX 的值使其对应一个具体的模型目录,还是以 testdatabest 为例:
#TESSDATA_PREFIX=你的目录地址/testdatafast #TESSDATA_PREFIX=你的目录地址/testdata TESSDATA_PREFIX=你的目录地址/testdatabest