1283 変色した古本の効果的な自炊・デジタルアーカイブ(スキャン+OCR化)方法

今回は,年配の私が「最近」初めて知ったことを,開陳します。

多くの方は既に知っておられることかもしれませんが,
未だ知らないで苦労している方もいるかもしれません。


【貴重な絶版の古本は大事にしたい】
紙がアンバー色に変色した古本を買った場合,
あるいは昔から持っている貴重な古本は,
できるだは早めにアーカイブしたい,ということはありますよね

何故なら,もう絶版になっていて復刻版は見込めない本は相当多くあります。
手になかなか入らないのに,しかも紙が変色してくると,
いつまで保存できるか分からないからです。

大事な古本は,毎度毎度手にとって酷使に耐えるシロモノではありません。
使うときはデジタルデータを使いたいのです。
これ以上は貴重な古本が傷まないように。破損しないように,です。
ひょんなことから直ぐに破れますので。

しかし,変色本は普通にコピーしても,
紙全体が真っ黒くなって読むに耐えなかっくなったり,
逆に背景を白くしようとすると文字が薄くなりすぎたりします。
しかも後者の場合でも,目が粗い?のか,何故か見苦しい。

最も問題なのは,そのようなコピーをスキャンしても,
何故かOCR化に失敗することも多いのです。
新しい本では,100%楽勝なのに,古書では失敗するのです。

酷く醜いPDFになってしまうのでは,後々読む気がしません。
しかも,せっかく時間を掛けてデジタルアーカイブしたのであれば,OCR化して便利に使いたいですよね。


【スキャンはグレースケール256階調で】
私は,かつて,古書も新刊本(紙が純白)と同様に,白黒コピー・白黒スキャンばかりしていました。

しかし,とあるHPサイト様からダウンロードさせていただいた古書のPDFファイルが
カラーでもないのに見た目がとても自然な色調であり,
これをOCR化すると,文字数と位置については,かなり忠実にデジタル文字がレイヤー化されたのです。

    私のかつてのやり方では,
    古文書は,仮にOCRできても,飛び飛びでしか文字がレイヤー化されず,
    これをワープロに転記しても,まったく使い物にならないこともままありました。

    しかしこのもらった文書ではデジタル文字をマウスで選択するとスキャンされた文字の行の真上に綺麗な帯になって選択ができるのです。
    それを,それをワープロにコピペすると,変換ミスはあるものの,読み取れずに抜け落ちる文字はないのです。

それで,古文書スキャンの方法を探しましたが,
グレイスケールスキャンを試したら,ダウンロードさせていただいたものと同様に効果的なOCR化ができました。
見た目も随分綺麗ですので,読みやすいです。

これまで,「グレースケール」って何のためにあるんだろ?と不思議でならなかったのですが,いい年ぶっこいて,これてやっとその効用の一つが分かりました。


【古書のOCRは,認識効率は高くはない】
ただ,古書の場合,旧字体が使われていたりして,
新字体を前提に造られているOCRソフトは,その漢字を誤って認識することもままあります。
旧字体対応OCRが安く手に入るとよいけど。

ただ,それでも本文の全行全文字の数だけデジタル文字データが忠実に乗っかっているので,誤認識した文字があっても,前後の文脈から推測可能性な場合は結構あります。

文字自体が読み取れず,読み取りが飛び飛びになる中,認識できた文字すら誤っている私の従来方式に比べれば天と地ほどの違いがあります。

カテゴリー:弁護士事務所経営

コメントを残す

以下に詳細を記入するか、アイコンをクリックしてログインしてください。

WordPress.com ロゴ

WordPress.com アカウントを使ってコメントしています。 ログアウト / 変更 )

Twitter 画像

Twitter アカウントを使ってコメントしています。 ログアウト / 変更 )

Facebook の写真

Facebook アカウントを使ってコメントしています。 ログアウト / 変更 )

Google+ フォト

Google+ アカウントを使ってコメントしています。 ログアウト / 変更 )

%s と連携中