2024-04-28

HTMLのパーサーをChatGPTに書かせてみた

Java javascript AozoraEpub3

　JavaよりJSのほうが慣れているので、JSで書いてからJavaに置き換えることが多いので、二回書く必要が生じている。そこでJSからJavaをChatGPTにやってもらおうと思った。実際にやってみた問題点など。

　ChatGPTに「下記のコードをJavaに書き換えて」で出力されたが思っていたのと違ったので、「下記のコードをJsoupのライブラリを使ったJavaに書き換えて」と直した。

下記のコードをJsoupのライブラリを使ったJavaに書き換えて

    for (let i = 0; i < ruby.childNodes.length; i++) {

        switch (ruby.childNodes[i].nodeName) {
            case '#text':
                bw = bw + '｜' + ruby.childNodes[i].textContent
                break;
            case 'RP':
                break;
            case 'RT':
                bw = bw + '《' + ruby.childNodes[i].textContent + '》'
                break;
            case 'RB':
                bw = bw + '｜' + ruby.childNodes[i].textContent
                break;
            default:
                console.log("未定義");
        }


    }

ChatGPTの出力したコードの問題点はタグが大文字のままなので小文字にしないと動作しない。あと、childNode instanceof ElementでElementに限定しているので、TextNodeが取得できなかった。ChatGPTは便利だけどなんか嵌り方が余計難しくしている感じがある。でも、結局のところ時短にはなったのでは。

import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.nodes.Node;
import org.jsoup.select.NodeFilter;
import org.jsoup.select.NodeTraversor;

// JsoupのDocumentオブジェクトとルビ要素を仮定
Document doc = ...; // ドキュメントを取得するコードを追加する必要があります
Element ruby = ...; // ルビ要素を取得するコードを追加する必要があります

NodeTraversor.traverse(new NodeFilter() {
    @Override
    public FilterResult head(Node node, int depth) {
        if (node instanceof Element) {
            Element element = (Element) node;
            switch (element.nodeName()) {
                case "#text":
                    bw = bw + "｜" + element.text();
                    break;
                case "RP":
                    break;
                case "RT":
                    bw = bw + "《" + element.text() + "》";
                    break;
                case "RB":
                    bw = bw + "｜" + element.text();
                    break;
                default:
                    System.out.println("未定義");
            }
        }
        return FilterResult.CONTINUE;
    }

    @Override
    public FilterResult tail(Node node, int depth) {
        return FilterResult.CONTINUE;
    }
}, ruby);

stackoverflow.com

rbタグがないルビへ対応するために、ルビへの処理方法を丸ごと変えてみた。 github.com

面倒なことはＣｈａｔＧＰＴにやらせよう (ＫＳ情報科学専門書)

作者:カレーちゃん,からあげ
講談社

Amazon

ランキング参加中

プログラミング

2024-04-28

最近のHTMLタグはrbタグが非推奨になったのでrubyタグのDOMパーサーを書き換えてみた

AozoraEpub3

　HTMLのrubyタグをパースして青空文庫のルビ注記に変換する。ただし、rbタグがあることを前提に作られたHTMLパーサーだとおかしなことになる。AozoraEpub3のrubyタグのパーサー部分を見るとrbタグがあることが前提で書かれている。

 /** ルビを青空ルビにして出力 */
    private void printRuby(BufferedWriter bw, Element ruby) throws IOException
    {
        Elements rb = ruby.getElementsByTag("rb");
        Elements rt = ruby.getElementsByTag("rt");
        if (rb.size() > 0) {
            if (rt.size() > 0) {
                bw.append('｜');
                printText(bw, rb.get(0).text());
                bw.append('《');
                printText(bw, rt.get(0).text());
                bw.append('》');
            } else {
                printText(bw, rb.get(0).text());
            }
        }
    }

どういう場合分けがいいのか、rubyタグ内にrbタグがなかったら、textエレメントがあるのかと思ったらnodeNameの#textを見る。ただし、Javaでも同じようには書けなかった。Javaではテキストはテキストノードで、エレメントと別に書かれていた。

ブラウザで可能なテスト要素に書き換えるとモノルビでは対応できてなさそう。ものルビを使っている小説投稿サイトがまずないのだが、rbタグを廃止している傾向がある。

// rubyタグ
let html = "<ruby><rb>漢</rb><rb>字</rb><rp>(</rp><rt>kan</rt><rt>ji</rt><rp>)</rp></ruby>"
let parser = new DOMParser();
let doc = parser.parseFromString(html, "text/html");
ruby=doc.getElementsByTagName("ruby")[0]
rb= ruby.getElementsByTagName("rb")
rt=ruby.getElementsByTagName("rt")
bw=""
if(rb.length){
if(rt.length){
bw=bw + '｜' + rb[0].textContent+'《'+rt[0].textContent +'》'

}
else{bw=bw + rb[0].textContent
}
}

モノルビに対応するにはforループを使ってみる

let html = "<ruby><rb>漢</rb><rb>字</rb><rp>(</rp><rt>kan</rt><rt>ji</rt><rp>)</rp></ruby>"
let parser = new DOMParser();
let doc = parser.parseFromString(html, "text/html");
ruby=doc.getElementsByTagName("ruby")[0]
rb= ruby.getElementsByTagName("rb")
rt=ruby.getElementsByTagName("rt")
bw=""
if(rb.length){
if(rt.length){
    for(var i=0; i<rb.length; i++) {
bw=bw + '｜' + rb[i].textContent+'《'+rt[i].textContent +'》'
    }
}
else{bw=bw + rb[0].textContent
}

}

次はrbタグがないときの処理

let html =
    "<ruby>漢<rp>(</rp><rt>kan</rt><rp>)</rp>字<rp>(</rp><rt>ji</rt><rp>)</rp></ruby>"
let parser = new DOMParser();
let doc = parser.parseFromString(html, "text/html");
ruby = doc.getElementsByTagName("ruby")[0]
rb = ruby.getElementsByTagName("rb")
rt = ruby.getElementsByTagName("rt")
bw = ""
if (rb.length) {
    if (rt.length) {
        for (let i = 0; i < rb.length; i++) {
            bw = bw + '｜' + rb[i].textContent + '《' + rt[i].textContent + '》'
        }
    } else {
        bw = bw + rb[0].textContent
    }
} else {
    for (let i = 0; i < ruby.childNodes.length; i++) {

        switch (ruby.childNodes[i].nodeName) {
            case '#text':
                bw = bw + '｜' + ruby.childNodes[i].textContent
                break;
            case 'RP':
                break;
            case 'RT':
                bw = bw + '《' + ruby.childNodes[i].textContent + '》'
                break;
            case 'RB':
                bw = bw + '｜' + ruby.childNodes[i].textContent
                break;
            default:
                console.log("未定義");
        }


    }
}

switch caseだけで統一できるかなと思ったんだけど、rb,rb,rt,rtという順番の場合にパースができないので複雑になってしまった。モノルビではなかったらswitch caseだけでよさそう

github.com

モノルビなどrbタグがあったりなかったり、rpタグ内は見ない。

<ruby>漢<rp>(</rp><rt>kan</rt><rp>)</rp>字<rp>(</rp><rt>ji</rt><rp>)</rp> </ruby>
<ruby><rb>漢</rb><rp>(</rp><rt>kan</rt><rp>)</rp><rb>字 </rb><rp>(</rp><rt>ji</rt><rp>)</rp> </ruby>
<ruby>
  <rb>漢</rb><rb>字 </rb><rp>(</rp><rt>kan</rt><rt>ji</rt><rp>)</rp>
</ruby>

developer.mozilla.org

html2aozoraでrb,rb,rt,rtという順番の場合にパースができてない。パーサーを作るのが難しい。 github.com

2024-04-22

キンドルのセールに関するサイトをブログから分離した

電書ニュース

　以前は頻繁にこのブログでkindleセールに関する記事を上げていたが管理が面倒になったのでGatsbyJSで作ったサイトに管理を一元化した。メリットとしてはセールが終わったリンクが切れたものをすぐに削除が可能になった。今までは、記事の一括削除が過去ログを検索しながら見つける必要があった。　サイト記事のテンプレート部分をプログラムから出力することにした。MDXとアマゾンアフィリエイトを連携させて表示、その他JSONでデータ管理している。なのでデータ部分を更新したければJSONを更新し、記事内容を変えたければMDXを書き換える。　seoを重視したサイト設計で検索からのサイトへのクリック数は増えたが、ＰＶが増えたとは限らない。このブログもリンク切れが減ったのでサイト自体の評価自体は上がったが、投稿頻度が減ったのでＰＶが下がったかもしれない。

kyukyunyorituryo.github.io

2024-04-22

４月１１日から４月１７日までキンドル新刊ピックアップ

電書ニュース

４月１１日発売の本
４月１２日発売の本
４月１３日発売の本
４月１４日発売の本
４月１５日発売の本
４月１６日発売の本
４月１７日発売の本

４月１１日発売の本

海の生き物が魅せる愛の流儀

作者:阿部秀樹
文一総合出版

Amazon

新九郎、奔る！（１６） (ビッグコミックス)

作者:ゆうきまさみ
小学館

Amazon

ひらやすみ（７） (ビッグコミックス)

作者:真造圭伍
小学館

Amazon

ダンス・ダンス・ダンスール（２８） (ビッグコミックス)

作者:ジョージ朝倉
小学館

Amazon

灼熱カバディ（２７） (裏少年サンデーコミックス)

作者:武蔵野創
小学館

Amazon

秘密のレプタイルズ（１４） (裏少年サンデーコミックス)

作者:鯨川リョウ
小学館

Amazon

ウェルベルム－言葉の戦争－（６） (裏少年サンデーコミックス)

作者:花林ソラ,伏見航介
小学館

Amazon

人生最大の嘘ついた（２） (ビッグコミックス)

作者:梅サト
小学館

Amazon

義妹にすべてを奪われ虐げられた令嬢は、隣国の王子に溺愛される (ミーティアノベルス)

作者:音無砂月
ミーティアノベルス

Amazon

婚約破棄された小説家ですが、恐怖の皇太子様が私の熱烈なファンでした～作者の私を大事にするあまり、溺愛とも言える行動をされるのですがどうすればいいのでしょうか～１ (エンジェライト文庫)

作者:青空あかな
パルプライド

Amazon

４月１１日発売のそのほかの本kyukyunyorituryo.github.io

４月１２日発売の本

物理数学　量子力学のためのフーリエ解析・特殊関数

作者:柴田尚和,是常隆
共立出版

Amazon

俺たちの箱根駅伝　下 (文春e-book)

作者:池井戸潤
文藝春秋

Amazon

星のラブドール(2)【電子限定特典ペーパー付き】 (RYU COMICS)

作者:ぴのきみまる
徳間書店(リュウコミックス)

Amazon

難しいほうのサイトーくん(3)【電子限定特典ペーパー付き】 (RYU COMICS)

作者:辻恵
徳間書店(リュウコミックス)

Amazon

侯爵嫡男好色物語～異世界ハーレム英雄戦記～ 6巻 (マッグガーデンコミックスBeat'sシリーズ)

作者:AL,GEN
マッグガーデン

Amazon

異世界きまぐれぶらり旅～奴隷ハーレムを添えて～ 2巻 (マッグガーデンコミックスBeat'sシリーズ)

作者:さとうねこ,真鍋譲治
マッグガーデン

Amazon

魔法使いの嫁 20 (ブシロードコミックス)

作者:ヤマザキコレ
ブシロードワークス(コミックグロウル)

Amazon

生まれた直後に捨てられたけど、前世が大賢者だったので余裕で生きてます～最強赤ちゃん大暴走～　7【電子書店共通特典イラスト付】 (アース・スターコミックス)

作者:遠田マリモ,九頭七尾,鍋島テツヒロ
アース・スターエンターテイメント

Amazon

魔法使いの嫁断片集 (ブシロードコミックス)

作者:ヤマザキコレ
ブシロードワークス(コミックグロウル)

Amazon

小学館ジュニア文庫　名探偵コナン　１００万ドルの五稜星劇場版名探偵コナン

作者:水稀しま,青山剛昌,大倉崇裕
小学館

Amazon

転生王女は今日も旗を叩き折る 9 (アリアンローズ)

作者:ビス
アリアンローズ

Amazon

淫靡な洞窟のその奥で(19)　After Disorder 14 (オシリス文庫)

作者:ウメ種
KADOKAWA

Amazon

４月１２日発売のそのほかの本kyukyunyorituryo.github.io

４月１３日発売の本

改訂新版セキュリティエンジニアの教科書

作者:一般社団法人日本シーサート協議会シーサート人材ワーキンググループ
シーアンドアール研究所

Amazon

（14）ギャル義姉とみっくん

作者:卯月ミヤ

Amazon

４月１３日発売のそのほかの本kyukyunyorituryo.github.io

４月１４日発売の本

ブサ猫に変えられた気弱令嬢ですが、最恐の軍人公爵に拾われて気絶寸前です（コミック）　２ (GAコミック)

作者:オオトリ,岡達英茉
SBクリエイティブ

Amazon

家事代行のアルバイトを始めたら学園一の美少女の家族に気に入られちゃいました。 (GA文庫)

作者:塩本
SBクリエイティブ

Amazon

本物のカノジョにしたくなるまで、私で試していいよ。 (GA文庫)

作者:有丈ほえる
SBクリエイティブ

Amazon

捨てられ男爵令嬢は黒騎士様のお気に入り　連載版: 22 (ZERO-SUMコミックス)

作者:野津川香,水野沙彰,宵マチ
一迅社

Amazon

クラスのぼっちギャルをお持ち帰りして清楚系美人にしてやった話７ (GA文庫)

作者:柚本悠斗
SBクリエイティブ

Amazon

マッチングアプリで出会った彼女は俺の教え子だった件 (GA文庫)

作者:箕崎准
SBクリエイティブ

Amazon

ひとつ屋根の下、亡兄の婚約者と恋をした。 (GA文庫)

作者:柚本悠斗
SBクリエイティブ

Amazon

１００日後に死ぬ悪役令嬢は毎日がとても楽しい。（コミック）　２ (GAコミック)

作者:雷蔵,ゆいレギナ
SBクリエイティブ

Amazon

一目惚れと言われたのに実は囮だと知った伯爵令嬢の三日間　連載版: 28 (ZERO-SUMコミックス)

作者:藤谷陽子,千石かのん,八美☆ わん
一迅社

Amazon

ハズレギフト「下限突破」で俺はゼロ以下のステータスで最強を目指す　～弟が授かった「上限突破」より俺のギフトの方がどう考えてもヤバすぎる件～ (GA文庫)

作者:天宮暁
SBクリエイティブ

Amazon

４月１４日発売のそのほかの本kyukyunyorituryo.github.io

４月１５日発売の本

ごはん日和 Vol.45 温泉旅で食べ歩き (ぶんか社コミックス)

Amazon

ひとでなしのエチカ(3) (ヤングキングコミックス)

作者:ピエール手塚
少年画報社

Amazon

カバネアベンジ(1) (ヤングキングコミックス)

作者:吐兎モノロブ
少年画報社

Amazon

最果ての森　妖国の剣士6 (ハルキ文庫)

作者:知野みさき
角川春樹事務所

Amazon

地元最高！（５）

作者:usagi
彩図社

Amazon

ふしぎの国のバード 11巻 (HARTA COMIX)

作者:佐々大河
KADOKAWA

Amazon

生き残った６人によると　６ (HARTA COMIX)

作者:山本和音
KADOKAWA

Amazon

珍獣のお医者さん　２巻 (HARTA COMIX)

作者:二宮香乃
KADOKAWA

Amazon

穏やか貴族の休暇のすすめ。@COMIC 第10巻 (コロナ・コミックス)

作者:百地,岬,さんど,孫之手ランプ
TOブックス

Amazon

我輩は猫魔導師である～キジトラ・ルークの快適チート猫生活～（サーガフォレスト）５

作者:猫神信仰研究会
一二三書房

Amazon

弱気MAX令嬢なのに、辣腕婚約者様の賭けに乗ってしまった７【電子特典付き】 (ビーズログ文庫)

作者:小田ヒロ
KADOKAWA

Amazon

やさぐれ執事Vtuberとネガティブポンコツ令嬢Vtuberの虚実混在な配信生活2【電子書籍限定書き下ろしSS付き】

作者:犬童灰舎
TOブックス

Amazon

４月１５日発売のそのほかの本kyukyunyorituryo.github.io

４月１６日発売の本

触れてみたくて。（通常版） (アクションコミックス)

作者:オレイロ
双葉社

Amazon

レーエンデ国物語　夜明け前

作者:多崎礼
講談社

Amazon

小説　ブルーロック　－ＥＰＩＳＯＤＥ凪－　１ブルーロック－ＥＰＩＳＯＤＥ　凪－ (講談社ＫＫ文庫)

作者:もえぎ桃,金城宗幸
講談社

Amazon

少年名探偵　虹北恭助の新・新冒険　新装版 (星海社 e-FICTIONS)

作者:はやみねかおる
講談社

Amazon

神様のバレー　３４巻 (芳文社コミックス)

作者:渡辺ツルヤ,西崎泰正
芳文社

Amazon

茉莉花官吏伝～後宮女官、気まぐれ皇帝に見初められ～【電子特別版】　９ (プリンセス・コミックス)

作者:高瀬わか,石田リンネ
秋田書店

Amazon

三郷さんは甘すぎ上司にちょっとキビしい　３巻 (トレイルコミックス)

作者:くろたま
芳文社

Amazon

経理の夏谷さんはガマンできない　７巻 (芳文社コミックス)

作者:財政ろろ
芳文社

Amazon

天上恋歌～金の皇女と火の薬師～【電子特別版】　９ (ボニータ・コミックス)

作者:青木朋
秋田書店

Amazon

おとせサンダー～2度目の稲妻～【特典SS付】 (HOWLノベルス)

作者:百舌涼一
一迅社

Amazon

４月１６日発売のそのほかの本kyukyunyorituryo.github.io

４月１７日発売の本

アオくんは猫男子モフれる子、見つけた！？ (PHPジュニアノベル)

作者:七海まち
PHP研究所

Amazon

アジアの蜜は甘いぞ！日本の経営と技術を活かす道

作者:唐津一,邱永漢
PHP研究所

Amazon

田中貴×友松信彦が「釣る前」に考えていること最強のグレ釣り一問一答

作者:つり人編集部
つり人社

Amazon

生命と非生命のあいだ　地球で「奇跡」は起きたのか (ブルーバックス)

作者:小林憲正
講談社

Amazon

大陸の誕生　地球進化の謎を解くマグマ研究最前線 (ブルーバックス)

作者:田村芳彦
講談社

Amazon

葬送のフリーレン（１３） (少年サンデーコミックス)

作者:山田鐘人,アベツカサ
小学館

Amazon

シャングリラ・フロンティア（１７）　～クソゲーハンター、神ゲーに挑まんとす～ (週刊少年マガジンコミックス)

作者:硬梨菜,不二涼介
講談社

Amazon

彼女、お借りします（３６） (週刊少年マガジンコミックス)

作者:宮島礼吏
講談社

Amazon

私の推しは悪役令嬢。: 8【イラスト特典付】 (百合姫コミックス)

作者:青乃下,いのり。,花ヶ田
一迅社

Amazon

古見さんは、コミュ症です。（３３） (少年サンデーコミックス)

作者:オダトモヒト
小学館

Amazon

黙示録の四騎士（１６） (週刊少年マガジンコミックス)

作者:鈴木央
講談社

Amazon

真夜中ハートチューン（３） (週刊少年マガジンコミックス)

作者:五十嵐正邦
講談社

Amazon

ヘルモード～やり込み好きのゲーマーは廃設定の異世界で無双する～　9【電子書店共通特典SS付】 (アース・スターノベル)

作者:ハム男
アース・スターエンターテイメント

Amazon

ヘルモード～やり込み好きのゲーマーは廃設定の異世界で無双する～　9【電子書店共通特典SS付】 (アース・スターノベル)

作者:ハム男
アース・スターエンターテイメント

Amazon

メイドなら当然です。濡れ衣を着せられた万能メイドさんは旅に出ることにしました　V【電子書店共通特典SS付】 (アース・スターノベル)

作者:三上康明
アース・スターエンターテイメント

Amazon

４月１７日発売のそのほかの本kyukyunyorituryo.github.io

2024-04-19

Java８を入れないとKindle Previewerが動かないのでJava８を入れた

Java

Java８を入れないとKindle Previewerが動かないのでJava８を入れた

Kindle PreviewerがJava8を削除すると動かなくなる、たぶんバックグラウンドで使っているのだろう。なぜ Java８を削除していたかというと、Java8を更新するたびにJava21がコマンドラインから動かなくなるから。どうやら環境変数がJava8を優先して実行されてJava21が動かないようだ。

環境変数の書き換え

　スタートメニューを右クリックしてシステム、ホームの下の入力欄に「詳細設定」と入力「システムの詳細設定の表示」「環境変数」ボタンをクリック、システム環境変数の「path」を選び「編集」「C:\Program Files\Eclipse Adoptium\jre-21.0.2.13-hotspot\bin」を選択して「上へ」をクリックして一番上に移動する。「OK」ボタンを押して閉じていく。コマンドラインを再起動してjava -versionを入力してJava21が表示されるかを確認する。JAVA_HOMEの設定が一般的な方法だけど、どっちがいいのやら。

参考 www.scc-kk.co.jp

JAVA_HOMEの設定 www.javadrive.jp

KDP(電子出版)のメモ　急急如律令

Amazon Kindleダイレクト・パブリッシングでの電子出版や電子書籍の作成販売について、文章やイラストの作成や編集方法について書いています。

HTMLのパーサーをChatGPTに書かせてみた

最近のHTMLタグはrbタグが非推奨になったのでrubyタグのDOMパーサーを書き換えてみた

キンドルのセールに関するサイトをブログから分離した

４月１１日から４月１７日までキンドル新刊ピックアップ

４月１１日発売の本

４月１２日発売の本

４月１３日発売の本

４月１４日発売の本

４月１５日発売の本

４月１６日発売の本

４月１７日発売の本

Java８を入れないとKindle Previewerが動かないのでJava８を入れた

Java８を入れないとKindle Previewerが動かないのでJava８を入れた

環境変数の書き換え