TextSnatchは、画像(JPG、PNG)からテキストを抽出し、TesserAct OCRを使用してPDFをスキャンした軽量のPythonツールです。テキスト出力INTXT ORCSVと、OpenCVを使用した基本的な画像のクリーンアップをサポートします。