代码
废话不多说,上来先贴代码。
代码原型来自于互联网,时间很久了已经忘了从哪里 copy 的了,侵删。
大致流程
训练的大概思路就是,从验证码服务器拉取验证码图片,人工识别验证码,去背景切片后加入字库。
拉取验证码图片
新建 img
temp
result
train
四个文件夹
运行 downloadImage
方法,验证码会保存到 img
文件夹下
人工识别验证码
分别将文件重命名为验证码内容,对于不能准确确定的验证码,建议删除。
去背景、切片
运行 trainData
方法,temp
文件夹中会出现如下切片
大概看一眼,把类似于 p-10 这种不太准确的删掉,之后将所有文件移入 train
文件夹,完成一轮训练。
验证
以上流程多走几遍,当字库达到一定规模的时候就可以验证一下字库的准确率了
运行 testOCR
方法,在 result
文件夹下可以看到输出结果
可以看到,正确率尚可。
这套字库需要的可以直接拿去使用 train.zip
关于字库的使用,可以参考我的另一篇文章 正方教务系统 Java 免验证码登录抓取成绩
欢迎来到这里!
我们正在构建一个小众社区,大家在这里相互信任,以平等 • 自由 • 奔放的价值观进行分享交流。最终,希望大家能够找到与自己志同道合的伙伴,共同成长。
注册 关于