読者です 読者をやめる 読者になる 読者になる

インターネット

無名サイトのつづき

業務用スキャナを買う -ScandAll Proで作成したPDFをScanSnap OrganizerでバッチOCRさせる際のメモ-

数年前に自炊ブーム当てられてScanSnap S500を買ったのだが、当時は裁断の面倒さや読み込みの遅さ、そして当時満足に持ち歩いPDFを読める電子書籍リーダーがなかったことから熱は冷め、しばらく部屋のオブジェと化していた。

そんな中で、最近にわかに古いカメラ雑誌をブックオフで買ってくるということを始めたのだが、もともと本棚がないこともあり、置き場に困って結局自炊を再開した。すると再開して間もなくS500がぶっ壊れてしまい、仕方ないのでほぼ同型と言えるS510の中古を格安で買ってきたがどちらもカラーの読み込みの遅さはいかんともしがたいので最終的に業務用機であるfi-6140にまで手を出してしまった。ちなみにこの間に閲覧用としてKindle fireを買い足したりもしている。

さて、スキャン速度は大幅向上(カラー300dpi設定時、S500スーパーファインで6枚/分 fi-6140は40枚/分)したり超音波重送検知や紙送りブレーキローラー装備と流石に業務用マシンだけはあるfi-6140なのだが、スキャンソフトであるScandAll Proは個人ユーザー向けのScanSnap Manager/Organizerと比べるとだいぶクセがある。その分だけ弄れる部分が多いというのも確かなのだが、一つ困ったことは、OCR済みPDFが作りづらいという点だった。

OCR済PDFは要するに検索可能PDFという奴なのだが、実はテキスト検索が出来る以上のメリットとして、文章の上にレイアウトに忠実に透明テキストが貼り付けられるという構成上、画面の小さいデバイスで拡大ダブルタップをした時に、その段落の幅に拡大してくれるという機能を実現しているのである。これがされていない(画像として認識されている)PDFで同じ事をするとレイアウトガン無視でただ拡大されるだけなので、非常に読みにくい。比較的画面サイズの小さいデバイスでレイアウトが複雑な雑誌を読みたいというニーズに対しては非常に重要な機能である。全画面が基本の漫画やレイアウトがほぼ全ページ変わらない小説などでは重要度は低いと思われるが、雑誌だとページによって版組が変わるのでこの機能がないと片手読みが出来ないのだ。

で、このOCR処理というのは結構重たい(時間がかかる)処理なのだが、たいていのpdf作成ソフトで実装していながら、「スキャン直後に処理(ScandAll,ScanSnap Manager)」か「完成後のpdfを1ファイルずつ解析(Acrobat Standard)」になる。

当然雑誌のスキャンは物量があるのでバックグランドでバッチ処理したいところなのだが、これが出来るのはどうやらScanSnap付属のScanSnap Organizerだけのようなのだ。しかし、ScanSnapはPDFの作成ソフト情報を読んでいるのでScanSnap以外の別のスキャナやソフトでスキャンしたPDFはOCRさせないように出来ている。この制限は当然同メーカーのfiシリーズでも適用される。

というわけで、スキャンがクソ遅いけどOCRバッチ処理出来るScanSnapを使うか、スキャンは速いがOCRに手間がかかるfiを使うかという選択を迫られていたので、解決方法を探してみた。

結論からというと、下記の手順で可能になる。

・ScandAll Proでスキャン(作成アプリケーションは「ScandAll PRO V1.8.1)になる

CubePDF Utilityで「文書プロパティ」を開いて
PFU ScanSnap Organizer 3.2.12」等に書き換えて保存する

・これらのファイルをScanSnap Organizerで選択してバッチで変換する

この手順を踏むとバッチで解析出来るようになるという話である。

ここまで書いてから気が付いたけど、ScanSnapとfiシリーズ両方持ってるユーザーとかそんなに多くないんじゃないかと思った。まぁもしかしたら困ってる人がいるかもしれないから書き残しておこうと思った次第である。

文章プロパティの書き換えもバッチでやれればもっと楽なんだけどなぁ。