KDP(電子出版)のメモ 急急如律令

Amazon Kindleダイレクト・パブリッシングでの電子出版や電子書籍の作成販売について、文章やイラストの作成や編集方法について書いています。

小説家になろうページの分析

小説家になろうからのスクレイピング方法を調べてみた。

node.jsでスクレイピングするにはどうすればいいのか。

 

目次ページ

目次のページでは各話のリンクが張ってあり、それらのアドレスからページを取得すればいいのだろう。

 

タイトルは <p class="novel_title">

小説概要 <div id="novel_ex">

 

目次ページ

 

<div class="index_box">

<dl class="novel_sublist2">
<dd class="subtitle">
<a href="/小説の番号/1/">各話タイトル</a>
</dd>
<dt class="long_update">
日付
<span title="日付 改稿">
(<u>改</u>)</span>
</dt>
</dl>

 

 

各話ページ

小説の本体となるページから情報をとるにはどうするか。よく見ると、行ごとに個別のIDがふられているので、アクセス自体は難しくないかも。

 

本のタイトルは<title>タグからとれるみたい。

作者:<a href="https://mypage.syosetu.com/">作者名</a>

<div id="novel_no">1/579</div>

<p class="novel_subtitle">

 

見出し部分

 

<div id="novel_p" class="novel_view" style="line-height: 28.8px; font-size: 16px;">

<p id="Lp1">

 

本文

<div id="novel_honbun" class="novel_view" style="line-height: 28.8px; font-size: 16px;">

<p id="L1">

 

フッダー

<div id="novel_a" class="novel_view" style="line-height: 28.8px; font-size: 16px;">

<p id="La1">

 

ルビ

ルビはHTML4対応のために複雑になっている。

<ruby><rb>漢字</rb><rp>(</rp><rt>ルビ</rt><rp>)</rp></ruby>