正規表現での誤字探し
OCR校正の中で、
- 3と8、5と6では。[3568]
時間などで、3時65分というふうになっていたらありえない数字だというのはわかる。そういう時に、
- 時6.分
というように正規表現で表したりする。
数字の入れ替わりに対する修正。
- 濁点 がぎぐげご ざじずぜぞ だぢづでど ばびぶべぼ
- 半濁点 ぱぴぷぺぽ
などの入れ替わりがあったり。当然カタカナもある。
単語抽出ツール
文章中にどの単語がどのくらい出てくるかを調べるのに、EKWordsというソフトウェアを使いました。
読み取りに失敗した場合に文字が1つしか出てこないことがあるそうすると、下側から調べていくとすぐに見つけることができる。
単語として表示されるので文章を読んでいく場合に内容から想像して、間違っていても、あっていると錯覚するのを減らせれるように思う。
同じ言葉をすこし違うように描いてしまう表記ゆれをなくすのに役立つだろう。
校正支援ツール
Tomarigi(校正・推敲支援ツール) | PaWeL:日本語表現法開発プロジェクト-青山学院大学-
校正支援ツールにTomarigiというソフトウェアがある。校正ソフト自体はウェブ上にもいろいろあります。ただしオフラインでやる方が楽な場合も多いのでこういうソフトウェアを使うのもいいと思います。
オンラインツールだと
日本語文章校正ツール - フリーで使える表現チェック・文字校正支援Webツール
kindleでの校正
kindle paperwhiteでハイライトした部分は、kindle内documentフォルダーのClipping.txtというファイルに文字として保存されている。その文字をPCで検索することで誤字部分を簡単に探すことができる。
そうして誤字を修正した後に、ハイライト部分を削除するには、clipping.txtの削除したい部分を消すと時間がかかってしまうので、本体の本の名前が付いている.sdrファイルとclipping.txtを削除する必要がある。ただしメモも一緒に消えるので注意が必要である。