node.jsでスクレイピングするにはどうすればいいのか。
目次ページ
目次のページでは各話のリンクが張ってあり、それらのアドレスからページを取得すればいいのだろう。
タイトルは <p class="novel_title">
小説概要 <div id="novel_ex">
目次ページ
<div class="index_box">
<dl class="novel_sublist2">
<dd class="subtitle">
<a href="/小説の番号/1/">各話タイトル</a>
</dd>
<dt class="long_update">
日付
<span title="日付 改稿">
(<u>改</u>)</span>
</dt>
</dl>
各話ページ
小説の本体となるページから情報をとるにはどうするか。よく見ると、行ごとに個別のIDがふられているので、アクセス自体は難しくないかも。
本のタイトルは<title>タグからとれるみたい。
作者:<a href="https://mypage.syosetu.com/">作者名</a>
<div id="novel_no">1/579</div>
<p class="novel_subtitle">
見出し部分
<div id="novel_p" class="novel_view" style="line-height: 28.8px; font-size: 16px;">
<p id="Lp1">
本文
<div id="novel_honbun" class="novel_view" style="line-height: 28.8px; font-size: 16px;">
<p id="L1">
フッダー
<div id="novel_a" class="novel_view" style="line-height: 28.8px; font-size: 16px;">
<p id="La1">
ルビ
ルビはHTML4対応のために複雑になっている。