共有｜LinuxでgImageReaderを使って画像やPDFからテキストを抽出する #OCR

gImageReaderは、LinuxでTesseract OCRエンジンを使ってイメージやPDFファイルからテキストを抽出するためのGUIツールです。

、もともとHPによって開発され、2006年にオープンソース化されたフロントエンドです。

基本的に、OCRエンジンは、イメージや文書からテキストをスキャンすることができます。デフォルトでは、複数の言語を検出でき、Unicode文字によるスキャンもサポートしています。

しかし、Tesseract自体はGUIを持たないコマンドラインツールです。そのため、gImageReaderはこの問題を解決し、イメージやファイルからテキストを抽出することを可能にします。

私がテスト中に使用した経験とともに、この製品についていくつかの点を強調しましょう。

gImageReaderは、PDFファイルやあらゆる種類のテキストを含むイメージからテキストを抽出する際に便利です。

特徴をリストにまとめると、こんなことができます：

注意：ソフトウェアマネージャからイメージ／ファイルを検出するには、Tesseract Language Packがインストールされている必要があります。

gImageReaderは、FedoraやDebianなどのLinuxディストリビューションのデフォルトリポジトリにあります。

Ubuntuの場合は、PPAを追加してからインストールする必要があります。これを行うには、ターミナルで以下のように入力します：

sudo add-apt-repository ppa:sandromani/gimagereader
sudo apt update
sudo apt install gimagereader

また、openSUSE のビルドサービスからも見つけることができますし、Arch Linux ユーザーは AUR から見つけることができます。

すべてのリポジトリとパッケージへのリンクは GitHubページにあります。

gImageReaderは、イメージからテキストを抽出する必要がある場合に非常に便利なツールです。PDFファイルからテキストを抽出しようとすると、それは非常によく動作します。

スマートフォンで撮影した写真から抽出する場合、検出は近いですが、少し不正確です。スキャン時にファイルから文字を認識する方が良いかもしれません。

そのため、うまく機能するかどうかは自分で試してみる必要があります。Linux Mint 20.1で試してみました。

設定から言語を管理することに関する問題は1つしかなく、すぐに解決することはできませんでした。この問題が発生した場合は、トラブルシューティングを行い、問題を解決する方法について詳しく学ぶ必要があるかもしれません。

それ以外は問題なく動いています。

経由

共有｜LinuxでgImageReaderを使って画像やPDFからテキストを抽出する