ネットなどを見ていると、ワードで作ったファイルをキンドルで上げる人はいるようだ。ワードのファイルをEPUBに変換するツールは、色々あるけど青空文庫はなさそうだ。
DOCXからHTMLへ変換するツールがあるので、HTMLから青空文庫に変換するツールを作れば、ワードから青空文庫に変換する事ができるのではないかと思ったのでやってみる。
ワードの見出しはCentury(本文)ではなく、Aのアイコンのスタイルから見出し1,や見出し2を選ぶ必要がある。
変換内容を決める。
h1要素を大見出し
h2要素を中見出し
pタグは文字のあとに改行
ol li要素は
imageはbase64を読み取って拡張子を決めファイルとして保存。ファイル名は
a href はそのまま
Bold, italics, underlines, strikethrough, superscript and subscript.太字、斜体、下線、
取り消し線、上付き文字、下付き文字。
初期設定では下線がリンクと間違うから無視すると書かれていた。
var html;
function parseWordDocxFile(inputElement) {
var files = inputElement.files || [];
if (!files.length) return;
var file = files[0];
var reader = new FileReader();
reader.onloadend = function(event) {
var arrayBuffer = reader.result;
// debugger
mammoth.convertToHtml({arrayBuffer: arrayBuffer}).then(function (resultObject) {
result1.innerHTML = resultObject.value
console.log(resultObject.value)
html=resultObject.value;
})
console.timeEnd();
};
reader.readAsArrayBuffer(file);
}
let parser = new DOMParser()
let doc = parser.parseFromString(html, "text/html")