PDFにするかjpegにするかで悩んだけど、データ送信に失敗すると分割されるので結局jpegにした方が作業がしやすかった。PDFだとOCRで文字を検索できるようになるが、途中で中断するとやり直しになりそう。
紙の問題は部分的に糊が大きくつながってしまっていることがあり失敗することがしばしば。ちゃんと一枚一枚はがれているかどうかを確認しないといけない。 JPEGにした時の問題点はサイズの均一化。 internet.watch.impress.co.jp
画像サイズが安定しない、自動でサイズを認識するのでサイズが時々変わる。それだけならいいが縦の長さも変わる。画像サイズは固定しよう、あとでサイズを合わせるのは手間がかかる。
PDFをEPUBに変換
node.jsでやるかjavaでやるか
javaの場合はaozoraepub3に機能を追加すればいい。 zip画像をepub固定レイアウト変換にPDFを追加する。
//ソートが入っていないので、順番がバラバラだった。 www.npmjs.com
EJSにしろとでるがcommonjsのまま
chikuwastroganoff.blogspot.com
イメージが抽出されるが、PBM/PGM/PPMが見慣れないファイルになることがある。起動オプションでjpgやpngに固定すると扱いやすくなる。