wgetによる静的HTML化で特定のフォルダ以下を収集しなおかつ特定のフォルダをスクレイピング(収集)対象外にして実行【--no-parentと--exclude-directories】: YUU MEDIA TOWN@Blog

封神龍(酒)の日記です、気になるニュースなどもチェック!ゾイド(ZOIDS)とかMacとかUNIXとかwindowsとかアニメ・漫画とかゲームとか雑記とか備忘録とか北海道とかお酒とか。検索エンジン経由来訪でお探しのキーワード関連記事が見つからない方はこちら祝!HP爆誕25周年!!

2023年08月12日 (土曜日)

wgetによる静的HTML化で特定のフォルダ以下を収集しなおかつ特定のフォルダをスクレイピング(収集)対象外にして実行【--no-parentと--exclude-directories】

CMS等動的生成サイトをスクレイピングする際、
wgetによるCMSシステム等動的生成Webサイトの静的HTML化(2023年07月07日 (金曜日))
wgetでそれを実施しておりました(自分のサイトだよ)。しかし一部ディレクトリ以下でもう無限ループみたいになってしまうところがあり、そのフォルダはスクレイピング、クロールの対象外にしたい。

という事で
wget で認証付きサイトをダウンロードする - WebOS Goodies
--no-parent
wgetのexclude-diretoriesオプション - rougeref’s diary
wgetのオプション情報(日本語訳) - 東京/福岡 システム開発会社 (株)ユーフィット
こちらのサイト群を参考に
wget --mirror --page-requisites --html-extension --convert-links --exclude-directories=除外したいディレクトリ(ドメインやhttp等フルパスではなくあくまでトップディレクトリから指定)(/test/test2/test3/test4/) --no-parent 収集したいWebサイトURL(http://xxxxxxxx.com/test/test2/)

としました。
--no-parent
は指定したディレクトリより上、親ディレクトリは収集しない。
--exclude-directories
は指定したディレクトリは収集対象にしない、という指示ですな。

なので上記の命令は
http://xxxxxxxx.com/test/test2/
以下をクロールしつつ
http://xxxxxxxx.com/test/test2/test3/test4/
以下のフォルダはクロールしない設定でございます。

以上、メモでした。

関連
★★Intel Mac miniにHomebrewでwgetをインストールしてみた(2023年07月13日 (木曜日))


Posted by 封神龍(酒) at 2023年08月12日 11:33 | 【所属カテゴリ: Web/Webアプリ2】【コメントについて】【トラッくバックについて】【RSS登録についてRSS登録

--



--


--