首先Linux安装tesseract
sudo apt-get install tesseract-ocr
安装tesseract tessdata https://github.com/tesseract-ocr/tessdata 下载对应语言文字学习数据,并保存到/usr/share/tesseract-ocr/tessdata
或 /usr/share/tessdata
位置
Windows用的好好的东西,到Linux出现乱码问题了
默认是只支持英文的识别,还需要额外安装一个中文库进去,在上面下载进去之后,名字带有
chi_sim的就是中文语言了,直接复制进去。
注意:
1.Python文件第一行记得#coding-utf-8以确认编码格式
2.需要安装中文语言,官方的地址在这里https://github.com/tesseract-ocr/tessdata
3.export在退出用户之后就没了
0 条评论