【Ubuntu】tesseract-ocr を使ってみる

ダウンロードはPPAを使うことにする。

参考:tesseract-ocr - Tesseract command line OCR tool : Alexander Pozdnyakov

$ sudo add-apt-repository ppa:alex-p/tesseract-ocr

$ sudo update

$ sudo apt install tesseract-ocr

f:id:matt-note:20180924111232p:plain

バージョン 4.0.0-beta.4 が入った。バージョン3系では、日本語の識字率に問題があるとのこと。なお、重さは 24MBほどだった。

標準では英語用の辞書データしかないとのことなので、日本語のデータをダウンロードする:

$ sudo apt install tesseract-ocr-jpn

縦書きにも対応するには、tesseract-ocr-jpn-vert もダウンロードするとのこと。

 

まずは英文を読ませてみる:

f:id:matt-note:20180924112448p:plain

$ tesseract tesseract_wikipedia.png output

上記コマンドを実行すると、output.txt が作成される:

f:id:matt-note:20180924112625p:plain

文字に関しては問題なし。記号の [1][2] の所は、識別できていない。数字は識別できているが、[ ] といった記号はなかなか難しい模様。こういうのは、前処理で除去しておくのかもしれない。

 

日本語で使ってみる(ふりがなは前もって削除した):

f:id:matt-note:20180924113652p:plain

$ tesseract merosu.png merosu -l jpn txt

f:id:matt-note:20180924113948p:plain

!?

あ、邪悪のところミスってる。

いや、十分これはすごい。

 

参考:

tesseractコマンドの使い方(Tesseract OCR 4.x) | テクノロジーで楽がしたい

Tesseract (software) - Wikipedia

太宰治 走れメロス