OCRでの電子化のテクニック
吉田調書の画像PDFからテキスト化と、電子書籍化をしてみたことからの経験からどうすれば精度よく校正できるようになるかを考えてみました。まぁ、まだ途中ですが。
OCR文字校正テクニック
OCRでの文章を画像から読み取るテクニックはどういうところにあるのかを検討してみよう。
OCRでそのまま読み取っても精度はあまり良くない。それに加えて、精度が高まると逆に人間が判断しても抽出しづらいような誤認識が増えてしまう。そういった時に、正規表現を使ってOCR特有の誤認識を抽出できればと思います。
たとえば、「つっうぅ」、
- 小文字の精度の問題があったりします。
「ぁぃぅぇぉっゃゅょゎァィゥェォッャュョヮヵ」
- 濁点を入れる部分にノイズが入ると、入れ替わったりする場合もある。
「だた」「がか」
正規表現で校正
そうした場合にgrepと正規表現で、抽出して表示することで見つけやすくします。
前後の文字を[^]使って例えば、
[^まけたん]だ[^ろけきかと、れのろねしわなよこまんてめっさ]
にして正規表現すると、通常の文字から使わない文字を選択的に選ぶようにしています。
「まだ、ただ、だろう、だけど、だから」というような正しい単語を除外するようにするというのを考えた
- というのはOCRソフトも苦手だし人間も苦手であると思う。
さらに「、。。 ,.j」
のような小さい字で見分けづらいものもあります。
- また、一見あっているように見えるものもあります。
イ匕 イ言
ノイズの除去
ソフトウェアではシミや、折れなどを文字として認識してしまいます。
そうすると「ミヽ;/|'.\$o」などが文中に突然紛れ込みます。
OCRソフトの場合には、認識画面と操作画面とを分けて誤認識を手入力することで、認識率を高めている部分ももちろんあるのだけれども。それだけでは、画面の広さの問題もあって、セカンドディスプレーがある人ではないとどうしても、入力画面と校正画面との操作性が向上しない。
底本と、入力画面と左右に分ける場合に、横の文字数を合わせることで、改行される部分を合わせると文字数を合わせりやすくなる。
正規表現で誤字パターン
爿⇒月
○$⇒。
め⇒の
だ⇒た
゛⇒*
・
糺⇒た
辷⇒に
ベンド⇒ベント
柬電電力⇒東電電力
ごの事象⇒この事象
そ・7J)点で⇒その点で
袒場⇒現場
こン⇒コン
I⇒
行・つて⇒行って
○質問煮⇒質問者
3'丹⇒3月
牙フ⇒オフ
meryでのgrepについて
meryというソフト:MeryWiki
検索→ファイルから検索
で検索窓が開かれるgrepでは検索結果が一覧として表示することができるので、作業がはかどる。
検索する文字列 吉田
ファイルの種類 *.txt
ファイルの種類に拡張子を指定しないと検索されない。
PC上で校正するより、Paperwhiteに送ってから見るほうが誤字発見率が上がります。
ついでに新型も出るようなので宣伝。
Kindle Voyage―Wi-Fi、キャンペーン情報つきモデル
- 出版社/メーカー: Amazon
- 発売日: 2014/11/04
- メディア: エレクトロニクス
- この商品を含むブログ (2件) を見る
kindle上では、ハイライト機能で誤字部分をマーキングしてから、PCと読み比べたいときには、[移動][メモ]とするとハイライトした一覧から探すことができます。
その画面からならば削除が比較的簡単に行うことができる。ただし、データを更新して入れると、ハイライト部分がずれて表示されるので、データを更新するときは、ハイライトの部分をPC側で修正してからするといい。
タグ:scansnap evernote フリー 正規表現 校正 光学文字認識 ABBYY FineReader e.Typist 読み取り革命 文字認識 手書き 誤認識