OCRで文字校正し、紙からの電子書籍化する - KDP(電子出版)のメモ　急急如律令

　吉田調書の画像PDFからテキスト化と、電子書籍化をしてみたことからの経験からどうすれば精度よく校正できるようになるかを考えてみました。まぁ、まだ途中ですが。

&amp;amp;lt;a href="http://kyukyu.cho-chin.com/" data-mce-href="http://kyukyu.cho-chin.com/"&amp;amp;gt;急急如律令&amp;amp;lt;/a&amp;amp;gt;
急急如律令

　OCRでの文章を画像から読み取るテクニックはどういうところにあるのかを検討してみよう。

OCRでそのまま読み取っても精度はあまり良くない。それに加えて、精度が高まると逆に人間が判断しても抽出しづらいような誤認識が増えてしまう。そういった時に、正規表現を使ってOCR特有の誤認識を抽出できればと思います。

　たとえば、「つっうぅ」、

「ぁぃぅぇぉっゃゅょゎァィゥェォッャュョヮヵ」

「だた」「がか」

　そうした場合にgrepと正規表現で、抽出して表示することで見つけやすくします。

前後の文字を[^]使って例えば、

[^まけたん]だ[^ろけきかと、れのろねしわなよこまんてめっさ]

にして正規表現すると、通常の文字から使わない文字を選択的に選ぶようにしています。

「まだ、ただ、だろう、だけど、だから」というような正しい単語を除外するようにするというのを考えた

青空文庫の間違いやすい正規表現も確認するといい。

MANUAL_4

さらに「、。｡　,.j」

のような小さい字で見分けづらいものもあります。

ｲ匕　ｲ言

ソフトウェアではシミや、折れなどを文字として認識してしまいます。

そうすると「ﾐヽ;/|'．＼$ｏ」などが文中に突然紛れ込みます。

　OCRソフトの場合には、認識画面と操作画面とを分けて誤認識を手入力することで、認識率を高めている部分ももちろんあるのだけれども。それだけでは、画面の広さの問題もあって、セカンドディスプレーがある人ではないとどうしても、入力画面と校正画面との操作性が向上しない。

　底本と、入力画面と左右に分ける場合に、横の文字数を合わせることで、改行される部分を合わせると文字数を合わせりやすくなる。

正規表現で誤字パターン

爿⇒月
○$⇒。
め⇒の
だ⇒た
゛⇒*
･
糺⇒た
辷⇒に
ベンド⇒ベント
柬電電力⇒東電電力
ごの事象⇒この事象
そ･7J)点で⇒その点で
袒場⇒現場
こン⇒コン
I⇒
行･つて⇒行って
○質問煮⇒質問者
3'丹⇒３月
牙フ⇒オフ

meryというソフト：MeryWiki

検索→ファイルから検索

で検索窓が開かれるgrepでは検索結果が一覧として表示することができるので、作業がはかどる。

検索する文字列　吉田

ファイルの種類　*.txt

ファイルの種類に拡張子を指定しないと検索されない。

PC上で校正するより、Paperwhiteに送ってから見るほうが誤字発見率が上がります。

ついでに新型も出るようなので宣伝。

kindle上では、ハイライト機能で誤字部分をマーキングしてから、PCと読み比べたいときには、[移動][メモ]とするとハイライトした一覧から探すことができます。

その画面からならば削除が比較的簡単に行うことができる。ただし、データを更新して入れると、ハイライト部分がずれて表示されるので、データを更新するときは、ハイライトの部分をPC側で修正してからするといい。

タグ：scansnap evernote フリー　正規表現　校正光学文字認識 ABBYY FineReader e.Typist 読み取り革命　文字認識　手書き　誤認識