wgetでファイルをダウンロードするには、特定のURLへのリンクを指定します。デフォルトがindex.htmlであるURLを指定すると、そのインデックスページがダウンロードされます。デフォルトでは、ファイルは元の名前で現在の作業ディレクトリにダウンロードされます。
$ wget http://.om-- -- http://.om/Resolving example.com... .:8::4916Connecting to example.com|.216.34|:80... connected.HTTP request sent, awaiting response... 200 OKLength: K) [text/html]Saving to: 'index.html'
と- --output-document 使うことで、wgetに:
$ wget http://.om --output-document - | head -n4<!doctype html><html><head><title>Example Domain</title>
$ wget http://.om --output-document foo.html
ストップ・アンド・スタート・トランスミッション
非常に大きなファイルをダウンロードする場合、ダウンロードが中断されることがあります。-continueを指定すると、wgetはファイルのどこでダウンロードを開始するかを決定できます。つまり、次に4GBのLinuxディストリビューションISOをダウンロードするときに、ダウンロードを中断するエラーが発生しても、最初からやり直す必要がなくなります。
$ wget --continue https://./-.so
各種資料のダウンロード
$ wget http://./le_{1..4}.bp
サイト全体のイメージ
mirrorオプションを使用すると、ディレクトリ構造を含むサイト全体をダウンロードできます。これは --recursive --level inf --timestamping --no-remove-listing オプションを使うのと同じ効果で、無制限の再帰が可能であることを示し、指定したドメイン配下のすべてを取得します。ただし、サイト自体の古さによっては、予想以上に多くのコンテンツを取得する可能性もあります。
wgetを使用してサイト全体をパッケージ化する場合、 --no-cookies --page-requisites --convert-links オプションは、パッケージ化されたサイトが新しく完全であることを確認するのに非常に便利です。
HTMLヘッダーの変更
コンピュータから送信される通信メッセージには、データ交換に使用される大量のデータが含まれています。HTTPヘッダーは初期データの一部です。サイトにアクセスすると、ブラウザはHTTPリクエストヘッダを送信します。各リクエストに対してwgetがどのようなヘッダ情報を送信するかを確認するには、--debugオプションを使用します。
$ wget --debug example.com---request begin---GET / HTTP/.1User-Agent: Wget/1.19.5 (linux-gnu)Accept: */*Accept-Encoding: identityHost: example.comConnection: Keep-Alive---request end---
headerオプションでリクエストヘッダを変更できます。これは実際に、特定のブラウザを模倣してテストしたり、コード化が不十分で特定のプロキシとしか通信できないサイトと互換性を持たせるためによく使われます。
Windows システムの Microsoft Edge からのリクエストとして認識されるようにします:
$ wget --debug --header="User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/ Safari/537.36 Edg/4.59" http://.om
ある種のモバイル機器のふりをすることもできます:
$ wget --debug --header="User-Agent: Mozilla/5.0 (iPhone; CPU iPhone OS like Mac OS X) AppleWebKit/ (KHTML, like Gecko) Version/ Mobile/ Safari/604.1" http://.om
レスポンスヘッダの表示
ブラウザがリクエスト・ヘッダを送信するのと同じように、レスポンスにもヘッダ情報が含まれます。レスポンスのヘッダー情報を見るには --debug オプションを使います:
$ wget --debug example.com---response begin---HTTP/. 200 OKAccept-Ranges: bytesCache-Control: max-age=Content-Type: text/html; charset=UTF-8Etag: ""Server: ECS (sab/574F)Vary: Accept-EncodingX-Cache: HITContent-Length: 5216---response end---Registered socket 3 for persistent reuse.URI content encoding = 'UTF-8'Length: K) [text/html]Saving to: 'index.html'
レスポンスの処理
200レスポンスコードは、すべてが期待通りであることを意味します。301レスポンスは、URLが永久に別の場所に移動したことを意味します。これは、サイト管理者がコンテンツを移行し、古いアドレスを訪れたユーザーが新しいアドレスを見つけるための「痕跡」を残すためによく使われる戦術です。
もちろん、デフォルトでwgetが301応答リダイレクトを処理する回数を制御するために --output-document オプションを使用することができます。に設定することは、自動的に新しいアドレスにリダイレクトしないことを意味します。
$ wget --max-redirect 0 http://.rg-- -- http://.rg/Resolving iana.org... .8, :::8Connecting to iana.org|.8|:80... connected.HTTP request sent, awaiting response... 301 Moved PermanentlyLocation: https://..rg/ [following]0 redirections exceeded.
また、wgetがリダイレクトされる回数を制御するために、他の値を設定することもできます。
URL略語の拡張
-max-redirectオプションを使用すると、実際の訪問時に表示するのに便利です。短縮URLは、ユーザーが長いURLをそのままコピー&ペーストできない場合や、単語制限のあるソーシャルネットワークで使用できます。このような省略形は、目的地が本質的に隠されているので危険です。headオプションと--locationオプションを組み合わせてHTTPヘッダを表示し、最終的な宛先のロックを解除することで、リソース全体を読み込むことなく、省略形URLの全内容を表示することができます:
$ wget --max-redirect 0 "https://./4T"-- -- https://./4TResolving bit.ly... ...11Connecting to bit.ly|.248.10|:443... connected.HTTP request sent, awaiting response... 301 Moved PermanentlyLocation: http://.om/ [following]0 redirections exceeded.
$ wget --max-redirect 0 "https://./4T" 始まる出力の最後の行は、実際の目的地を示しています。
wgetの使用
サイト訪問全体に単一のコマンドを使用することを考え始めた場合、wgetは、グラフィカルインターフェイスの労力なしに、インターネットから情報を迅速かつ効率的に取得するのに役立ちます。通常のワークフローに組み込めるように、wgetの一般的な使用方法と構文のリストを作成しました。。
出典




