CMS等動的生成サイトをスクレイピングする際、
★wgetによるCMSシステム等動的生成Webサイトの静的HTML化(2023年07月07日 (金曜日))
wgetでそれを実施しておりました(自分のサイトだよ)。しかし一部ディレクトリ以下でもう無限ループみたいになってしまうところがあり、そのフォルダはスクレイピング、クロールの対象外にしたい。
という事で
★wget で認証付きサイトをダウンロードする - WebOS Goodies
★--no-parent
★wgetのexclude-diretoriesオプション - rougeref’s diary
★wgetのオプション情報(日本語訳) - 東京/福岡 システム開発会社 (株)ユーフィット
こちらのサイト群を参考に
wget --mirror --page-requisites --html-extension --convert-links --exclude-directories=除外したいディレクトリ(ドメインやhttp等フルパスではなくあくまでトップディレクトリから指定)(/test/test2/test3/test4/) --no-parent 収集したいWebサイトURL(http://xxxxxxxx.com/test/test2/)
としました。
--no-parent
は指定したディレクトリより上、親ディレクトリは収集しない。
--exclude-directories
は指定したディレクトリは収集対象にしない、という指示ですな。
なので上記の命令は
http://xxxxxxxx.com/test/test2/
以下をクロールしつつ
http://xxxxxxxx.com/test/test2/test3/test4/
以下のフォルダはクロールしない設定でございます。
以上、メモでした。
関連
★★Intel Mac miniにHomebrewでwgetをインストールしてみた(2023年07月13日 (木曜日))