KDP(電子出版)のメモ 急急如律令

Amazon Kindleダイレクト・パブリッシングでの電子出版や電子書籍の作成販売について、文章やイラストの作成や編集方法について書いています。

DOCXファイルを青空文庫に変換するツールを作ってみる

 ネットなどを見ていると、ワードで作ったファイルをキンドルで上げる人はいるようだ。ワードのファイルをEPUBに変換するツールは、色々あるけど青空文庫はなさそうだ。

 DOCXからHTMLへ変換するツールがあるので、HTMLから青空文庫に変換するツールを作れば、ワードから青空文庫に変換する事ができるのではないかと思ったのでやってみる。

 

www.microsoft.com

ワードの見出しはCentury(本文)ではなく、Aのアイコンのスタイルから見出し1,や見出し2を選ぶ必要がある。

 

 

www.google.com

 

変換内容を決める。

h1要素を大見出し

h2要素を中見出し

pタグは文字のあとに改行

ol li要素は

imageはbase64を読み取って拡張子を決めファイルとして保存。ファイル名は

a href はそのまま

Bold, italics, underlines, strikethrough, superscript and subscript.太字、斜体、下線、
取り消し線、上付き文字、下付き文字。

初期設定では下線がリンクと間違うから無視すると書かれていた。

 

 var html;
   function parseWordDocxFile(inputElement) {
    var files = inputElement.files || [];
    if (!files.length) return;
    var file = files[0];
    var reader = new FileReader();
    reader.onloadend = function(event) {
      var arrayBuffer = reader.result;
      // debugger

      mammoth.convertToHtml({arrayBuffer: arrayBuffer}).then(function (resultObject) {
        result1.innerHTML = resultObject.value
        console.log(resultObject.value)
        html=resultObject.value;
      })
      console.timeEnd();

    };
    reader.readAsArrayBuffer(file);
  }

 

let parser = new DOMParser()
let doc = parser.parseFromString(html, "text/html")

 

github.com

developer.mozilla.org