WGET(1) GNU Wget WGET(1)
wget - Podrcznik GNU Wget
wget [opcja]... [URL]...
GNU Wget jest darmowym programem narzdziowym do pobierania plikw z
World Wide Web. Obsuguje protokoy HTTP, HTTPS i FTP, a take pobieranie
poprzez serwery proxy HTTP.
Wget potrafi poda za odnonikami zawartymi w stronach HMTL i tworzy
lokalne wersje zdalnych witryn WWW, w peni odtwarzajc struktur katalogw
oryginalnego orodka. Jest to czasami nazywane ,,pobieraniem rekuren-
cyjnym''. Podczas takiego dziaania Wget respektuje ustalenia Standardu
Robot Exclusion (/robots.txt). Moliwe jest poinstruowanie programu, by
w pobieranych plikach HTML przeksztaca odnoniki tak, aby wskazyway na
lokalne kopie, do przegldania bez poczenia.
Wget zosta zaprojektowany tak, by dziaa solidnie rwnie przy powolnych
bd niestabilnych poczeniach. Jeeli pobieranie nie udaje si z powodu
problemw z sieci, ponawia prby a do cignicia caoci pliku. Jeli dany
serwer obsuguje tak moliwo, Wget nakae kontynuacj pobierania od
miejsca, w ktrym przerwano.
Podstawowe opcje uruchamiania
-V
--version
Wywietla wersj Wget.
-h
--help
Wypisuje komunikat pomocy, opisujcy wszystkie opcje, jakie mona
przekaza Wget w wierszu polece.
-b
--background
Przechodzi w to natychmiast po rozpoczciu pracy. Jeli nie podano
pliku wyjciowego za pomoc -o, wyjcie jest przekierowywane do wget-
log.
-e polecenie
--execute polecenie
Wykonuje polecenie tak, jakby byo czci .wgetrc. Polecenie wywoane
w ten sposb zostanie wykonane po poleceniach z .wgetrc, wic bdzie
mie nad nimi priorytet.
Opcje dziennika i pliku wejciowego
-o dziennik
--output-file=dziennik
Rejestruje wszystkie komunikaty w pliku dziennika. Normalnie s
zgaszane na standardowym wyjciu bdw.
-a dziennik
--append-output=dziennik
Dodaje komunikaty na kocu pliku dziennika. Jest to to samo, co -o,
tyle e dopisuje do dziennika zamiast nadpisywa stary. Jeli plik
dziennik nie istnieje, jest tworzony.
-d
--debug
Wcza wyjcie diagnostyczne, czyli wypisywanie rozmaitych informacji
wanych dla twrcw Wget, gdy nie dziaa on poprawnie. Administrator
twojego systemu mg skopilowa Wget bez obsugi trybu usuwania bdw,
wwczas -d nie bdzie dziaa. Naley zauway, e kompilacja z obsug
diagnostyki jest zawsze bezpieczna -- Wget skompilowany w ten sposb
nie bdzie wypisywa adnych informacji diagnostycznych dopki nie
zadamy tego opcj -d.
-q
--quiet
Tryb cichy. Wycza wyjcie Wget.
-v
--verbose
Pene wyjcie, z wszystkimi dostpnymi danymi. Jest to opcja domylna.
-nv
--non-verbose
Niepene wyjcie -- wycza pene wyjcie, ale nie ucisza cakowicie (to
robi si opcj -q); komunikaty o bdach i podstawowe informacje bd
nadal wypisywane.
-i plik
--input-file=plik
Czyta URL-e z pliku wejciowego plik, w zwizku z czym nie trzeba ich
podawa w wierszu polece. Jeli URL-e podano zarwno w wierszu
polece, jak i w pliku wejciowym, to pierwsze zostan pobrane pliki
wymienione w wierszu polece. Plik nie musi by dokumentem HTML (ale
nie przeszkadza, jeli nim jest) -- wystarczy, e URL-e bd po prostu
kolejno spisane.
Jednake jeli zostanie podana opcja --force-html, to plik bdzie
traktowany jak dokument html. Mog si wwczas pojawi kopoty z odnon-
ikami wzgldnymi, ktre mona rozwiza dodajc "<base href="url">" do
pliku lub podajc --base=url w wierszu polece.
-F
--force-html
Kiedy wejcie jest czytane z pliku, wymusza aby byo traktowane jako
HTML. Pozwala to na pobieranie wzgldnych odnonikw z istniejcych
plikw HTML znajdujcych si na lokalnym dysku naszego komputera,
przez dodanie znacznika "<base href="url">" do pliku HTML lub uycie
opcji --base.
-B URL
--base=URL
Uyte w poczeniu z -F, stosuje URL jako podstaw dla odnonikw wzgld-
nych w pliku podanym przez -i.
Opcje cigania
--bind-address=adres
Podczas tworzenia klienckich pocze TCP/IP, wie z lokalnym komput-
erem, przez "bind()", zadany adres. Adres mona poda jako nazw hosta
lub adres IP. Moe si przyda jeli nasza maszyna ma przypisane kilka
adresw IP.
-t liczba
--tries=liczba
Ustawia liczb ponawiania prb na liczb. Dla nieskoczonego ponawia-
nia podajemy 0 lub inf.
-O plik
--output-document=plik
Dokumenty nie bd zapisywane do odpowiednich plikw, ale wszystkie
zostan sklejone i zapisane do pliku. Jeli plik istnieje, to
zostanie nadpisany. Jeli jako plik podano -, dokumenty bd zapisane
na standardowe wyjcie. Wczenie tej opcji automatycznie ustawia
liczb prb na 1.
-nc
--no-clobber
Jeli plik jest pobierany wicej ni raz do tego samego katalogu,
zachowanie si Wget zaley od kilku opcji, midzy innymi -nc. W
pewnych przypadkach istniejcy lokalny plik bdzie nadpisany,
przebity (ang. clobbered), przy powtrzeniu cigania. W innych przy-
padkach zostanie zachowany.
Przy uruchomieniu Wget bez opcji -N, -nc lub -r pobranie tego
samego pliku do tego samego katalogu spowoduje pozostawienie pier-
wotnego egzemplarza pliku i nadanie drugiemu nazwy plik.1. Gdy
plik bdzie cigany kolejny raz, trzeci egzemplarz otrzyma nazw
file.2, i tak dalej. Przy podanej opcji -nc, zachowanie takie jest
wstrzymywane, a Wget odmawia pobrania nowszych kopii pliku. Dlat-
ego te, ``"no-clobber"'' jest w rzeczywistoci z nazw dla tego trybu
-- nie chroni on przed nadpisywaniem (gdy temu zapobiegaj ju
numeryczne przyrostki), ale przed zachowywaniem wielu wersji pliku.
Przy uruchomieniu Wget z -r, ale bez -N czy -nc, ponowne cignicie
pliku powoduje, e nowa kopia po prostu nadpisuje star. Dodanie -nc
zapobiega takiemu zachowaniu, skutkujc zamiast tego zachowaniem
pierwotnej wersji i ignorowaniem ewentualnych nowe kopii z serwera.
Przy uruchomieniu Wget z -N, z opcj -r lub bez niej, decyzja, czy
ciga now wersj pliku czy te nie, zaley od znacznikw czasu (dat
modyfikacji) i rozmiarw lokalnego i zdalnego pliku. -nc nie mona
podawa rwnoczenie z -N.
Zauwa, e jeli podano -nc, pliki z przyrostkami .html lub .htm (fuj)
bd odczytywane z dysku i przetwarzane tak, jakby zostay pobrane z
Sieci.
-c
--continue
Kontynuuje pobieranie czciowo cignitego pliku. Przydatne, gdy
chcemy dokoczy ciganie rozpoczte lub w poprzednim przebiegu Wget
lub przez inny program. Na przykad:
wget -c ftp://sunsite.doc.ic.ac.uk/ls-lR.Z
Jeli w biecym katalogu istnieje plik ls-lR.Z, Wget przyjmie, e jest
to pocztkowy fragment zdalnego pliku i zada od serwera kontynuacji
pobierania od offsetu rwnego dugoci lokalnego pliku.
Zauwa, e nie ma potrzeby podawania tej opcji jeli chcemy tylko, by
aktualnie wywoany Wget ponownie prbowa ciga plik, w poowie ktrego
zostao zerwane poczenie. Jest to zachowanie domylne. Opcja -c
wpywa tylko na wznawianie pobra zacztych przed biecym wywoaniem
Wget i tylko dla tych plikw, ktrych lokalne kopie nadal istniej.
Bez -c, polecenie z poprzedniego przykadu pobraby po prostu zdalny
plik do ls-lR.Z.1, pozostawiajc w spokoju obcity plik ls-lR.Z.
Poczwszy od Wget 1.7, jeli uyjemy -c dla niepustego pliku, a okae
si, e serwer nie obsuguje kontynuacji cigania, to program odmwi
rozpoczcia cigania od zera, ktre prowadzioby do zniszczenia ist-
niejcej zawartoci. Jeli naprawd chcemy ciga od pocztku, powinnimy
usun taki plik.
Rwnie od wersji 1.7, jeli uyjemy -c dla pliku, ktrego rozmiar jest
taki sam, jak na serwerze, to Wget odmwi cignicia pliku i wypisze
komunikat objaniajcy. Tak samo dzieje si, gdy plik jest mniejszy
na serwerze ni lokalnie (prawdopodobnie dlatego, e zosta zmieniony
na serwerze od czasu naszej ostatniej prby cigania) -- poniewa
,,kontynuacja'' jest bezsensowna, pobieranie nie zachodzi.
Z drugiej strony, przy stosowaniu -c, kady plik, ktry jest wikszy
na serwerze ni lokalnie bdzie uwaany za nie w peni cignity. Wwczas
pobranych i doczepionych na koniec pliku lokalnego zostanie tylko
"(length(zdalny) - length(lokalny))" bajtw. W pewnych przypadkach
takie zachowanie jest podane -- na przykad, mona skorzysta z wget
-c do cignicia tylko nowej porcji danych, dopisanej na kocu zbioru
danych czy pliku dziennika.
Jednake, jeli plik na serwerze jest wikszy dlatego, e zosta
zmieniony, a nie tylko doklejono do niego dane, to w efekcie otrzy-
mamy znieksztacony plik. Wget w aden sposb nie moe sprawdzi, czy
lokalny plik jest poprawn czci pocztkow zdalnego. Naley na to
szczeglnie uwaa stosujc -c w poczeniu z -r, gdy kady plik bdzie
uwaany za kandydata na "nieukoczone ciganie".
Inn sytuacja, w ktrej przy korzystaniu z -c uzyskuje si zniekszta-
cony plik, zachodzi, gdy mamy do czynienia z uomnym proxy HTTP,
wstawiajcym acuch ,,transfer interrupted'' do lokalnego pliku. W
przyszoci bdzie moe dodana opcja ,,rollback'', obsugujca ten przy-
padek.
Zauwa, e -c dziaa tylko z serwerami FTP i HTTP, ktre obsuguj nagwek
"Range".
--progress=typ
Umoliwia wskazanie typu wskanika postpu. Dozwolonymi rodzajami
wskanika s ,,dot'' (kropka) i ,,bar'' (pasek).
Domylnie stosowany jest wskanik ,,bar''. Rysowany jest wwczas
pasek postpu zoony ze znakw graficznych ASCII (zwany czasem
wskanikiem ,,termometrowym''), wskazujcy stan pobierania. Jeeli
wyjciem programu nie jest TTY, to domylnie zostanie uyty wskanik
typu ,,dot''.
W celu przeczenia na wywietlanie kropek naley uy --progress=dot.
Postpy cigania pokazuj wtedy wypisywane na ekranie kropki, z ktrych
kada symbolizuje ustalon ilo pobranych danych.
Przy korzystaniu z tego wskanika, mona take ustali styl. Wykonuje
si to podajc typ wskanika w postaci dot:styl. W rnych stylach poje-
dynczej kropce przypisuje si rne znaczenie. W stylu "default" kada
kropka oznacza 1K, grupa liczy dziesi kropek, a wiersz 50 kropek.
Styl "binary" jest bardziej ,,komputerowy'' -- 8K dla skropki,
16-kropkowe grupy i 48 kropek w wierszu (co daje 384K na wiersz).
Przy pobieraniu bardzo duych plikw odpowiedni jest styl "mega" --
kada kropka symbolizuje pobrane 64K, w grupie jest osiem kropek, a
w wierszu 48 (wic kady wiersz zawiera 3M).
Warto zauway, e domylny rodzaj wskanika postpu moemy ustali
umieszczajc w pliku .wgetrc polecenie "progress". Takie ustawienie
jest przesaniane przez opcj podan w wierszu polece. Wyjtek stanowi
sytuacja, kiedy wyjciem nie jest TTY -- wwczas typ ,,dot'' bdzie
mia pierwszestwo nad ,,bar''. Da si jednak wymusi wskanik w postaci
paska, stosujc --progress=bar:force.
-N
--timestamping
Wcza stosowanie znacznikw czasu (time-stamping).
-S
--server-response
Wypisuje nagwki wysyane przez serwery HTTP i odpowiedzi wysyane
przez serwery FTP.
--spider
Wywony z t opcj, Wget bdzie zachowywa si jak sieciowy pajk (Web
spider), to znaczy, e nie bdzie pobiera stron, a jedynie sprawdza,
czy tam s. Mona to wykorzysta to sprawdzenia zakadek (bookmarks),
na przykad tak:
wget --spider --force-html -i bookmarks.html
Ta funkcja wymaga jeszcze wiele pracy, by Wget osign moliwoci
zblione do prawdziwych pajkw WWW.
-T seconds
--timeout=sekundy
Ustawia limit czasu czytania na podan liczb sekund. Przy kadym
odczycie sieciowym sprawdzana jest dla deskryptora pliku ewentualno
przekroczenia limitu czasu, poniewa bez tego mogo by doj do nieprz-
erwanego czytania (zostawienia zawieszonego poczenia). Domylny
limit to 900 sekund (pitnacie minut). Ustawienie limitu na 0 wycza
sprawdzanie.
Prosz nie obnia domylnej wartoci limitu czasu t opcj, chyba e z pen
wiadomoci skutkw.
--limit-rate=wielko
Ogranicza prdkoci pobierania do wielko bajtw na sekund. Wielko t
mona wyrazi w bajtach, kilobajtach (przyrostkiem k) lub megabajtach
(przyrostkiem m) na sekund. Na przykad --limit-rate=20k ograniczy
prdko cigania do 20KB/s. Taka rzecz przydaje si, gdy z jakiego
powodu nie chcemy, eby Wget zaj ca dostpn szeroko pasma.
Naley zauway, e Wget realizuje to w ten sposb, e po stwierdzeniu, i
odczyt z sieci zabra mniej czasu, ni wynika to z podanej prdkoci,
przez odpowiedni czas wstrzymuje si od dziaania (zasypia). Kocowym
efektem takiej strategii jest spowolnienie transferu TCP mniej
wicej do podanej prdkoci. Niemniej jednak, na osignicie tej
rwnowagi potrzeba troch czasu, wic nie bdcie zaskoczeni, jeli
ograniczenie szybkoci nie dziaa dla bardzo maych plikw. Tak samo,
strategia "zasypiania" nie zda egzaminu, jeli poda si zbyt mae
pasmo, dajmy na to mniejsze ni 1,5KB/s.
-w sekundy
--wait=sekundy
Odczekuje zadan liczb sekund pomidzy kolejnymi pobraniami. Zaleca
si uywanie tej opcji, gdy zmniejsza obcienie serwera dziki rzadszym
daniom. Czas, zamiast w sekundach, mona poda w minutach dodajc
przyrostek "m", w godzinach - dodajc "h" lub w dniach - dodajc "d".
Okrelanie duej wartoci tej opcji przydaje si jeli sie lub maszyna
docelowa s wyczone. Wwczas Wget moe odczeka wystarczajco dugo, by
rozsdnie spodziewa si, e przed ponown prb bd sieci zosta napraw-
iony.
--waitretry=sekundy
Opcj t stosujemy jeli nie chcemy, by Wget czeka pomidzy kadym
pobraniem, a tylko pomidzy ponawianymi prbami nieudanych pobra.
Wget zastosuje odczekiwanie liniowe (linear backoff), czekajc 1
sekund po pierwszym niepowodzeniu z danym plikiem, nastpnie 2
sekundy po drugim niepowodzeniu z tym plikiem, a do maksymalnej
liczby sekund, jak podano. Zatem, warto 10 faktycznie spowoduje, e
Wget bdzie odczekiwa cznie do (1 + 2 + ... + 10) = 55 sekund na
kady plik.
Zauwa, e w oglnosystemowym pliku wgetrc ta opcja jest domylnie
wczona.
--random-wait
W niektrych z orodkw wykonywana jest analiza plikw dziennikowych
(tzw. logw), ktra ma na celu zidentyfikowanie programw do pobiera-
nia, takich jak Wget. Polega ona na wyszukiwaniu statystycznie
znaczcych podobiestw midzy rnicami czasu, jaki upyn pomidzy kole-
jnymi daniami. Ta opcja powoduje, e dla zamaskowania przed takimi
analizami obecnoci Wgeta czas pomidzy daniami bdzie si waha od 0 do
2 * sekundy, gdzie sekundy podano opcj --wait (-w).
W jednym z ostatnich artykuw w pewnej publikacji powiconej rozwija-
niu oprogramowania na popularnych platformach klienckich podano kod
wykonujcy tak analiz na bieco. Autor sugerowa blokowanie na
poziomie adresu klasy C, co ma gwarantowa, e programy pobierajce
zostan zablokowane niezalenie od zmiany adresw przedzielanych przez
DHCP.
Opcja --random-wait powstaa z powodu tej wanie nierozwanej porady,
zalecajcej blokowanie wielu postronnych uytkownikw orodka z powodu
dziaa jednego z nich.
-Y on/off
--proxy=on/off
Wcza/wycza uywanie proxy. Domylnie uywanie proxy jest wczone jeli
jest zdefiniowana odpowiednia zmienna rodowiskowa.
-Q wielko
--quota=wielko
Okrela ograniczenie wielkoci pobieranych danych przy ciganiu
automatycznym. Limit podawany jest w bajtach (domylnie), kilobaj-
tach (z przyrostkiem k) lub megabajtach (z przyrostkiem m).
Warto pamita, e ograniczenie to nigdy nie dotyczy pobierania poje-
dynczego pliku. Tak wic, jeli podamy wget -Q10k
ftp://wuarchive.wustl.edu/ls-lR.gz, to zostanie cignity cay plik
ls-lR.gz. Tak samo dzieje si nawet wwczas, gdy w wierszu polece
zostanie wyszczeglnionych kilka URL-i. Ograniczenie wielkoci jest
jednak przestrzegane podczas pobierania rekurencyjnego lub wedug
pliku wejciowego. Zatem, mona spokojnie napisa wget -Q2m -i witryny
-- po przekroczeniu ograniczenia ciganie zostanie przerwane.
Ustawienie limitu na 0 lub na inf znosi ograniczenie pobierania.
Opcje katalogw
-nd
--no-directories
Nie tworzy hierarchii katalogw przy pobieraniu rekurencyjnym. Po
wczeniu tej opcji wszystkie pliki bd zapisywane do biecego katalogu
bez przebijania (jeli nazwa pojawi si wicej ni raz, nazwy plikw
otrzymaj rozszerzenie .n).
-x
--force-directories
Przeciwiestwo -nd. Wymusza utworzenie hierarchii katalogw nawet
jeli nie miaaby by stworzona. Np. wget -x
http://fly.srk.fer.hr/robots.txt zapisze cignity plik jako
fly.srk.fer.hr/robots.txt.
-nH
--no-host-directories
Wycza tworzenie katalogw z nazw hosta jako przedrostkiem. Domylnie,
-r http://fly.srk.fer.hr/ spowoduje stworzenie struktury katalogw
zaczynajcej si od fly.srk.fer.hr/, gdzie trafi caa reszta. Ta
opcja wycza takie zachowanie.
--cut-dirs=liczba
Ignoruje podan liczb skadowych katalogu. Przydatne do precyzyjnego
sterowania katalogami, w ktrych bd skadowane pliki z pobierania
rekurencyjnego.
Wemy, na przykad, katalog ftp://ftp.xemacs.org/pub/xemacs/. Jeeli
pobierzemy go z -r, to lokalnie zostanie zachowany jako
ftp.xemacs.org/pub/xemacs/. Mimo e opcja -nH pozwala na usunicie
czci ftp.xemacs.org/, nadal utkniemy z pub/xemacs. Tu wanie z
pomoc przychodzi --cut-dirs. Powoduje, e Wget ``nie widzi''
zadanej liczby skadowych zdalnego katalogu. Oto kilka przykadw
pokazujcych, jak dziaa opcja --cut-dirs.
No options -> ftp.xemacs.org/pub/xemacs/
-nH -> pub/xemacs/
-nH --cut-dirs=1 -> xemacs/
-nH --cut-dirs=2 -> .
--cut-dirs=1 -> ftp.xemacs.org/xemacs/
...
Jeli chcemy po prostu pozby si struktury katalogw, to opcja ta jest
podobna do kombinacji -nd i -P. Jednak --cut-dirs, w przeciwiest-
wie do -nd, nie pozbywa si podkatalogw -- na przykad, przy -nH
--cut-dirs=1, podkatalog beta/ bdzie, zgodnie z oczekiwaniami,
umieszczony w xemacs/beta.
-P prefiks
--directory-prefix=prefiks
Ustawia przedrostek, prefiks katalogw na prefiks. Przedrostek kat-
alogw oznacza katalog, zostan zapisane wszystkie inne pliki i kata-
logi, tzn. wierzchoek drzewa pobierania. Domylnym przedrostkiem
jest ., katalog biecy.
Opcje HTTP
-E
--html-extension
Jeli pobierany jest plik typu text/html a jego URL nie koczy si
wyraeniem regularnym \.[Hh][Tt][Mm][Ll]?, to opcja ta spowoduje
dodanie przyrostka .html do lokalnej nazwy pliku. Przydatne, na
przykad, gdy tworzymy kopi lustrzan witryny, ktra uywa stron .asp,
ale chcemy, by pozyskane strony daway si przeglda za pomoc wasnego
serwera Apache. Innym dobrym zastosowaniem jest pobieranie wyjcia
generowanego przez skrypty CGI. URL typu http://site.com/arti-
cle.cgi?25 zostanie zachowany jako article.cgi?25.html.
Zauwa, e pliki o zmienionych w ten sposb nazwach bd ponownie
pobierane za kadym razem gdy bdziemy odwiea kopi lustrzan witryny.
Dzieje si tak, poniewa Wget nie potrafi stwierdzi, e lokalny plik
X.html odpowiada zdalnemu URL-owi X (gdy nie wie, e ten URL tworzy
wyjcie typu text/html). Chcc unikn ponownego pobierania, trzeba uy
-k i -K, tak by oryginalna wersja pliku zostaa zachowana jako
X.orig.
--http-user=uytkownik
--http-passwd=haso
Okrelaj nazw uytkownika i haso, ktre Wget przele serwerowi HTTP. W
zalenoci od rodzaju protokou wezwanie-odpowied, Wget koduje je sto-
sujc albo uwierzytelnianie podstawowe ("basic", niechronione) albo
w oparciu o skrt ("digest").
Inn metod podania nazwy i hasa uytkownika jest wyszczeglnienie ich
w samym URL-u. Obie te metody ujawniaj haso kademu, kto zechce
uruchomi "ps". eby uchroni hasa przed podpatrzeniem, naley prze-
chowywa je w pliku .wgetrc lub .netrc i, za pomoc "chmod", zapewni
tym plikom ochron przed innymi uytkownikami. Jeeli hasa s naprawd
wane, w tych plikach te nie trzymajcie ich na stae -- usucie je z
plikw zaraz po rozpoczciu przez Wgeta pobierania. Dokadniejsze
omwienie kwestii bezpieczestwa w pracy z Wget,
-C on/off
--cache=on/off
Jeli ustawione na off, wycza buforowanie po stronie serwera. W
takim przypadku Wget wysya zdalnemu serwerowi odpowiedni komend
(Pragma: no-cache), dziki ktrej plik zostanie pobrany z usugi zdal-
nej, a nie zwrcona wersja buforowana. Jest to szczeglnie przydatne
do pobierania i wymiatania przeterminowanych dokumentw z serwerw
proxy.
Domylnie, buforowanie jest dozwolone.
--cookies=on/off
Ustawione na off wycza uywanie ciasteczek (cookies). Ciasteczka s
mechanizmem do przechowywania stanu po stronie serwera. Serwer
przesya klientowi ciasteczko stosujc nagwek "Set-Cookie", a klient
przy pniejszych daniach odpowiada tym samym ciasteczkiem. Poniewa
ciasteczka umoliwiaj wacicielom serwera prowadzenie rejestrw goci i
wymian si tymi informacjami z innymi orodkami, niektrzy uwaaj je za
pogwacenie prywatnoci. Domylnie cookies s uywane, jednak ich
zapisywanie nie jest domylnie wczone.
--load-cookies plik
Przed pierwszym pobraniem HTTP wczytuje ciasteczka z pliku. Pliku
jest plikiem tekstowym w formacie, jaki pierwotnie zastosowano dla
pliku cookies.txt przegldarki Netscape.
Na og korzysta si z tej opcji przy tworzeniu kopii lustrzanych tych
orodkw, ktre do skorzystania z czci lub caoci zasobw wymagaj zalo-
gowania si. Proces logowania si zwykle polega na tym, e po otrzyma-
niu od nas informacji uwierzytelniajcej i jej zweryfikowaniu serwer
WWW wysya ciasteczko HTTP. Nastpnie, gdy przegldarka siga do
zasobw, odsya serwerowi otrzymane ciasteczko, potwierdzajc w ten
sposb nasz tosamo.
Utworzenie kopii tego rodzaju witryny wymaga wysyania przez Wget
takich samych ciasteczek, jakie podczas komunikowania si z tym
orodkiem przesya nasza przegldarka. Osiga si to za pomoc --load-
cookies -- wystarczy wskaza programowi lokalizacj pliku cook-
ies.txt, a on wyle te same ciasteczka, ktre w tej samej sytuacji
wysaaby przygldarka.
Rne przegldarki trzymaj tekstowe pliki ciasteczek w rnych miejs-
cach:
Netscape 4.x
Ciasteczka s w ~/.netscape/cookies.txt.
Mozilla i Netscape 6.x
Plik ciasteczek Mozilli nazywa si rwnie cookies.txt, jest
pooony gdzie w ~/.mozilla, w katalogu waciwym dla profilu
uytkownika. Pena cieka zazwyczaj koczy si czym w rodzaju
~/.mozilla/default/co-dziwnego/cookies.txt.
Internet Explorer
Ciasteczko, jakiego mgby uy Wget, mona utworzy korzystajc z
menu "Plik" i opcji "Importuj i Eksportuj", "Eksportuj pliki
cookie". Zostao to przetestowane z Internet Explorerem 5 --
nie ma gwarancji, e bdzie dziaa z wczeniejszymi wersjami.
inne przegldarki
Jeeli do tworzenia ciasteczek korzystacie z innej przegldarki,
--load-cookies bdzie dziaa tylko wtedy, gdy uda wam si zlokali-
zowa lub utworzy plik ciasteczek w formacie Netscape, jakiego
oczekuje Wget.
Jeli nie moecie skorzysta z --load-cookies, jest jeszcze inna
moliwo. Jeli uywana przez was przegldarka udostpnia ,,menedera
plikw cookie'', skorzystajcie z niego, eby podgldn ciasteczka,
jakie zostay wykorzystane podczas uzyskiwania dostpu do witryny,
ktrej kopi chcecie utworzy. Zapiszcie nazw i warto ciasteczka, a
nastpnie rcznie nakacie Wgetowi wysanie ciasteczka o zadanej
postaci, obchodzc rwnoczenie ,,oficjalny'' kodu odpowiedzialny za
obsug ciasteczek:
wget --cookies=off --header "Cookie: I<nazwa>=I<warto>"
--save-cookies plik
Na koniec sesji zapisuje ciasteczka do pliku. Ciasteczka, dla
ktrych nie okrelono daty wanoci lub ktre ju wygasy, nie s zapisy-
wane.
--ignore-length
Niestety, niektre serwery HTTP (dokadniej mwic, programy CGI)
wysyaj bdne nagwki "Content-Length", co powoduje, e Wget gupieje,
sdzc, e nie zostaa pobrana cao dokumentu. Syndrom ten mona uch-
wyci, gdy Wget prbuje w kko pobiera ten sam dokument, za kadym
razem twierdzc, e (inaczej ni zwykle) poczenie zostao zamknite na
dokadnie tym samym bajcie.
Wywoany z t opcj, Wget bdzie ignorowa nagwek "Content-Length", tak
jakby nie istnia.
--header=dodatkowy-nagwek
Okrela dodatkowy-nagwek przesyany serwerom HTTP. Nagwki musz zaw-
iera : poprzedzony co najmniej jednym niepustym znakiem, i nie mog
zawiera znakw nowej linii.
Moliwe jest okrelenie wicej ni jednego dodatkowego nagwka przez
kilkakrotne podanie opcji --header.
wget --header='Accept-Charset: iso-8859-2' \
--header='Accept-Language: hr' \
http://fly.srk.fer.hr/
Podanie pustego acucha jako nagwka kasuje wszystkie uprzednio
zdefiniowane przez uytkownika nagwki.
--proxy-user=uytkownik
--proxy-passwd=haso
Okrelaj nazw uytkownika i haso, ktre zostan uyte do uwierzytelnia-
nia na serwerze proxy. Wget koduje je stosujc podstawowy ("basic")
schemat uwierzytelniania.
Odnosz si do tego podobne zagadnienia zwizane z bezpieczestwem, jak
w przypadku opcji --http-passwd.
--referer=url
Zamieszcza nagwek `Referer: url' w daniu HTTP. Przydatne do
pobierania dokumentw z takim przetwarzaniem po stronie serwera,
ktre zakada, e s one zawsze pobierane przez interaktywne
przegldarki Sieci i uznawane za poprawne tylko wtedy, gdy Refer
jest ustawione na jedn ze stron, ktre na nie wskazuj.
-s
--save-headers
Zapisuje nagwki wysyane przez serwer HTTP do pliku, przed waciw
zawartoci, z pust lini jako separatorem.
-U nazwa-agenta
--user-agent=nazwa-agenta
Serwerowi HTTP przedstawia si jako agent o podanej nazwie.
Protok HTTP pozwala klientom na podanie, za pomoc pola "User-Agent"
nagwka, swojej tosamoci. Umoliwia to rozrnianie oprogramowania
WWW, zwykle do celw statystycznych lub ledzenia narusze protokou.
Wget normalnie przedstawia si jako Wget/wersja, gdzie wersja jest
aktualnym numerem wersji programu.
Znane s jednak pewne witryny narzucajce polityk przykrawania wynikw
stosownie do informacji dostarczonej im w polu "User-Agent". Mimo i
koncepcyjnie nie jest to taki zy pomys, zacz by naduywany przez
serwery odmawiajce informacji klientom innym ni "Mozilla" lub
"Internet Explorer". Ta opcja umoliwia zmian linii "User-Agent"
wysyanej przez Wget. Nie zachcamy do uywania tej opcji, chyba e z
pen wiadomoci.
Opcje FTP
-nr
--dont-remove-listing
Zakazuje usuwania tymczasowych plikw .listing generowanych przez
odczyty FTP. Normalnie, pliki te zawieraj nieprzetworzone listingi
katalogw otrzymane z serwerw FTP. Pozostawienie ich moe si przyda
do celw diagnostycznych lub atwego sprawdzenia zawartoci katalogw
zdalnego serwera (np. do sprawdzenia, e tworzona kopia lustrzana
jest kompletna).
Zauwa, e, mimo i Wget zapisuje w tym przypadku do pliku o znanej
nazwie, nie jest to dziura w zabezpieczeniach w sytuacji, gdy
uytkownik stworzy .listing jako dowizanie symboliczne do
/etc/passwd czy innego pliku i poprosi superuytkownika ("root") o
uruchomienie Wget w tym katalogu. W zalenoci od uytych opcji, Wget
albo odmwi zapisu do .listing (co spowoduje niepowodzenie operacji
na maskach, rekurencyjnej czy zalenej od znacznikw czasu), albo
dowizanie symboliczne zostanie usunite i zastpione faktycznym
plikiem .listing, albo te listing zostanie zapisany do pliku .list-
ing.numer.
Cho ta sytuacja nie stwarza kopotw, jednak "root" nie powinien
nigdy uruchamia Wget w katalogu niezaufanego uytkownika. Uytkownik
taki mgby na przykad dowiza index.html do /etc/passwd i poprosi
"root"a o uruchomienie Wget z opcjami -N lub -r, tak e plik ten
zostaby nadpisany.
--retr-symlinks
Zwykle, gdy podczas rekurencyjnego pobierania katalogw FTP
napotkane zostanie dowizanie symboliczne, to wskazywany przez nie
plik nie jest cigany. Zamiast tego w lokalnym systemie plikw twor-
zone jest odpowiadajce mu dowizanie symboliczne. Wskazywany przez
dowizanie plik nie zostanie cignity, chyba e pobieranie rekuren-
cyjne natknie si na osobno i tak czy owak cignie.
Przy podanej opcji --retr-symlinks, jednake, program poda za dowiz-
aniami symbolicznymi i pobiera wskazywane przez nie pliki. Obecnie
opcja ta nie spowoduje, by Wget poda za dowizaniami do katalogw i
przetwarza je rekurencyjnie, ale w przyszoci powinna zosta poszer-
zona tak, by tak si dziao.
Zauwa, e przy pobieraniu pliku (nie katalogu) wynikajcym z podania
go w wierszu polece, a nie jako w nastpstwie rekurencji, opcja ta
nie dziaa. W tym przypadku Wget zawsze poda za dowizaniami.
-g on/off
--glob=on/off
Wcza/wycza obsug masek dla FTP. Obsuga masek oznacza, e mona uywa
znakw specjalnych, uoglniajcych (jokerw), takich jak *, ?, [ i ],
do pobrania wikszej liczby plikw z tego samego katalogu naraz, np.
wget ftp://gnjilux.srk.fer.hr/*.msg
Domylnie obsuga masek bdzie wczona jeli URL zawiera znaki uoglnia-
jce. Tej opcji mona uy do wczenia bd wyczenia obsugi masek na stae.
Moe zaj potrzeba ujcia URL-a w znaki cudzysowu, by uchroni go przed
rozwiniciem przez powok. Obsuga masek powoduje, e Wget oczekuje
listingu katalogu, ktrego posta jest zalena od systemu. Z tego
powodu obecnie dziaa tylko z uniksowymi serwerami FTP (i z tymi,
ktre potrafi emulowa wyjcie uniksowego "ls").
--passive-ftp
Powoduje korzystanie z pasywnego schematu pobierania FTP, w ktrym
klient inicjuje poczenie do przesyania danych. Jest on czasem wyma-
gany, by FTP dziaa za zaporami ogniowymi.
Opcje pobierania rekurencyjnego
-r
--recursive
Wcza pobieranie rekurencyjne.
-l gboko
--level=gboko
Podaje maksymalny poziom gbokoci rekurencji. Domylnie jest to 5.
--delete-after
Ta opcja nakazuje Wget usunicie kadego z plikw, jaki pobiera, po
wykonaniu cigania. Jest przydatna do pobierania wstpnego
(prefetching) popularnych stron poprzez proxy, np.:
wget -r -nd --delete-after http://whatever.com/~popular/page/
Opcja -r nakazuje pobieranie rekurencyjne, a -nd nietworzenie kata-
logw.
Zauwa, e --delete-after usuwa pliki z lokalnego komputera. Nie
wydaje polecenia DELE, na przykad zdalnym orodkom FTP. Zauwa te, e
jeli podano --delete-after, to --convert-links jest ignorowane, wic
przede wszystkim pliki .orig po prostu nie s tworzone.
-k
--convert-links
Po zakoczeniu pobierania konwertuje odnoniki w dokumencie tak, by
nadaway si do lokalnego przegldania. Dotyczy to nie tylko widzial-
nych odnonikw hipertekstowych, ale kadej czci dokumentu, ktra
prowadzi do zewntrznych materiaw, jak osadzone obrazki, odnoniki do
arkuszy stylw, odnoniki hipertekstowe do zawartoci innej ni HTML,
itp.
Kady odnonik bdzie zmieniony na jeden z dwu sposobw:
+o Odnoniki do plikw, ktre zostay cignite przez Wget zostan
zmienione tak, by odwoyway si do pliku, na jaki wskazuj, jako
odnoniki wzgldne.
Przykad: jeli cignity plik /foo/doc.html jest powizany z z
/bar/img.gif, rwnie cignitym, to odnonik w doc.html zostanie
zmieniony tak, by wskazywa na ../bar/img.gif. Ten rodzaj
przeksztacenia dziaa bezproblemowo dla dowolnej kombinacji kat-
alogw.
+o Odnoniki do plikw, ktre nie zostay cignite przez Wget zostan
zmienione tak, by zawieray nazw hosta i ciek bezwzgldn miejsca,
na ktre wskazuj.
Przykad: jeli cignity plik /foo/doc.html jest powizany z z
/bar/img.gif (lub z ../bar/img.gif), to odnonik w doc.html
zostanie zmieniony tak, by wskazywa na http://host-
name/bar/img.gif.
Z tego powodu, przegldanie lokalne dziaa niezawodnie: jeli powizany
plik by cignity, to odnonik wskazuje na jego lokaln nazw, jeli nie
by -- to na peny adres internetowy, a nie pojawia si popsuty
odnonik. Konwersja pierwotnych odnonikw na odnoniki wzgldne zapew-
nia nam moliwo przesuwania pobranej hierarchii katalogw do innego
katalogu.
Zauwa, e dopiero na samym kocu pobierania Wget moe rozpozna, ktre
odnoniki zostay cignite. Z tego powodu, opcja -k wykonuje swoj
prac po zakoczeniu wszystkich pobra.
-K
--backup-converted
Podczas konwersji pliku zachowuje kopi zapasow pierwotnej wersji z
przyrostkiem .orig. Wpywa na zachowanie opcji -N.
-m
--mirror
Wcza opcje odpowiednie do tworzenia kopii lustrzanych. Ta opcja
wcza rekurencj, stosowanie znacznikw czasu, ustawia nieograniczony
poziom rekurencji i zachowuje listingi katalogw FTP. Obecnie jest
rwnowana uyciu -r -N -l inf -nr.
-nr
--dont-remove-listing
Zakazuje usuwania plikw tymczasowych .listing tworzonych przez
odczyty FTP. Normalnie, pliki te zawieraj nieprzetworzone listingi
katalogw otrzymane z serwerw FTP. Pozostawienie ich daje dostp do
penej listy zdalnych plikw przy prowadzeniu siedziby lustrzanej.
Przydaje si te do celw diagnostycznych.
-p
--page-requisites
Ta opcja powoduje, e Wget cignie wszystkie pliki niezbdne do
poprawnego wywietlenia danej strony HTML. Obejmuje to takie rzeczy
jak grafik, dwiki i powizane arkusze stylw.
Przy zwykym trybie pracy, podczas pobierania pojedynczej strony
HTML, ewentualne powizane dokumenty, ktre mog by potrzebne do
poprawnego jej wywietlenia, nie s pobierane. Pomc moe uycie opcji
-r z -l, ale poniewa Wget normalnie nie odrnia dokumentw zewn-
trznych od wczonych, na og pozostaje si z ,,oskubanymi dokumen-
tami'', ktrym brakuje potrzebnych elementw towarzyszcych.
Na przykad, powiedzmy, e dokument 1.html zawiera znacznik "<IMG>"
odnoszcy si do 1.gif i znacznik "<A>" wskazujcy na zewntrzny doku-
ment 2.html. Powiedzmy, e 2.html jest podobny, tyle, e jego
obrazkiem jest 2.gif a odnonik wskazuje na 3.html. Zamy, e kon-
tynuujemy takie zalenoci a do jakiej dowolnie duej liczby.
Jeli wykona si polecenie:
wget -r -l 2 http://I<orodek>/1.html
to zostan pobrane 1.html, 1.gif, 2.html, 2.gif i 3.html. Jak wida,
3.html nie posiada towarzyszcego mu elementu, gdy Wget w celu okre-
lenia miejsca, gdzie powinien przerwa rekurencj po prostu zlicza
liczb skokw (a do 2) od pocztkowego 1.html. Jednak przy takim
poleceniu:
wget -r -l 2 -p http://I<orodek>/1.html
zostan cignite wszystkie powysze pliki oraz wymagany przez 3.html
plik 3.gif. Podobnie,
wget -r -l 1 -p http://I<orodek>/1.html
spowoduje pobranie 1.html, 1.gif, 2.html i 2.gif. Mona by sdzi, e:
wget -r -l 0 -p http://I<orodek>/1.html
pobraoby tylko 1.html i 1.gif, ale niestety tak nie jest, gdy -l 0
jest rwnowanikiem -l inf -- czyli nieskoczonej rekurencji. Do
pobrania pojedynczej strony HTML (lub ich grupy, wszystkich
podanych w wierszu polece lub w pliku wejciowym URL-i -i) i
towarzyszcych jej (lub im) elementw, wystarczy pomin -r i -l:
wget -p http://I<orodek>/1.html
Zauwa, e Wget zachowa si tak, jakby podano opcj -r, ale zostanie
pobrana tylko pojedyncza strona i jej elementy. Program nie bdzie
poda za odnonikami z tej strony do zewntrznych dokumentw. Fakty-
cznie, do cigania pojedynczej strony i wszystkich towarzyszcych jej
elementw (nawet jeli le one na odrbnych serwerach WWW) i upewnienia
si, e cao lokalnie poprawnie si wywietla, autor oprcz -p korzysta z
kilku dodatkowych opcji:
wget -E -H -k -K -p http://I<orodek>/I<dokument>
Koczc ten temat, warto wiedzie, e Wget uwaa za odnonik do dokumentu
zewntrznego kady URL podany w znaczniku "<A>", "<AREA>" lub
"<LINK>", oprcz "<LINK REL="stylesheet">".
Opcje rekurencyjnego akceptowania/odrzucania
-A lista_akc --accept lista_akc
-R lista_odrz --reject lista_odrz
Podaje list oddzielonych przecinkami przyrostkw nazw plikw (rozsz-
erze plikw) lub wzorcw nazw, jakie maj by akceptowane lub odrzu-
cane..
-D lista_domen
--domains=lista_domen
Ustala domeny, do ktrych program moe przechodzi. lista_domen jest
list separowan przecinkami. Zauwa, e ta opcja nie wcza -H.
--exclude-domains lista_domen
Podaje domeny, do ktrych program ma nie przechodzi..
--follow-ftp
Poda za odnonikami FTP z dokumentw HTTP. Bez tej opcji Wget bdzie
ignorowa wszelkie odnoniki do FTP.
--follow-tags=lista
Wget ma wewntrzn tablic par: znacznik HTML/atrybut, ktr posuguje si
przy poszukiwaniu powizanych dokumentw podczas pobierania rekuren-
cyjnego. Jeli jednak chcielibymy, by brany by pod uwag tylko
pewien podzbir tych znacznikw, powinnimy uy tej opcji, podajc je w
postaci listy separowanej przecinkami.
-G lista
--ignore-tags=lista
Jest to przeciwiestwo opcji --follow-tags. Dziki podaniu listy
rozdzielonych przecinkami znacznikw HTML mona pomin je podczas
rekurencyjnego szukania dokumentw do pobrania.
Niegdy opcja -G, uyta w wierszu polece:
wget -Ga,area -H -k -K -r http://I<orodek>/I<dokument>
bya najlepszym wyborem do cigania pojedynczej strony razem z jej
elementami.
Jednak autor tej opcji przeszed przez stron ze znacznikami typu
"<LINK REL="home" HREF="/">" i uwiadomi sobie, e -G nie wystarcza.
Nie mona po prostu nakaza Wget ignorowania "<LINK>", gdy wwczas nie
bd cigane arkusze stylw. Obecnie najlepszym sposobem pobierania
pojedynczej stony razem z jej elementami jest specjalnie przeznac-
zona do tego opcja --page-requisites.
-H
--span-hosts
Wcza przechodzenie pomidzy hostami przy pobieraniu rekurencyjnym.
-L
--relative
Poda tylko za odnonikami wzgldnymi. Przydatne do pobierania
konkretnej strony bez adnych odwracajcych uwag dodatkw, nawet z
tego samego hosta..
-I lista
--include-directories=lista
Okrela list rozdzielonych przecinkami katalogw, do ktrych ma prze-
chodzi program podczas pobierania Elementy listy mog zawiera znaki
uoglniajce.
-X lista
--exclude-directories=lista
Okrela list rozdzielonych przecinkami katalogw, ktre chcemy wyk-
luczy z pobierania Elementy listy mog zawiera znaki uoglniajce.
-np
--no-parent
Powoduje, e Wget przy pobieraniu rekurencyjnym nigdy nie wchodzi do
katalogu nadrzdnego. Przydatna opcja, gdy gwarantuje, e cigane bd
tylko pliki poniej pewnego poziomu.
Przykady podzielono na trzy czci, z grubsza wedug stopnia komplikacji.
Proste zastosowania
+o Powiedzmy, e chcemy cign jaki URL. Wystarczy napisa:
wget http://fly.srk.fer.hr/
+o Ale co si stanie, jeli cze jest powolne, a plik dugi? Poczenie
prawdopodobnie zawiedzie zanim zostanie pobrany cay plik. W takiej
sytuacji Wget bdzie usiowa pobra plik dopki nie cignie caego albo
nie przekroczy domylnej liczby ponawia (wynoszc 20). Mona atwo
zmieni liczb prb na 45, by upewni si, e cay plik dotrze bez-
piecznie:
wget --tries=45 http://fly.srk.fer.hr/jpg/flyweb.jpg
+o A teraz pozostawmy program Wget pracujcy w tle i zapisujcy informa-
cje o postpach cigania do pliku dziennika log. Wpisywanie --tries
jest mczce, wic uyjemy -t:
wget -t 45 -o log http://fly.srk.fer.hr/jpg/flyweb.jpg &
Znak "&" na kocu linijki zapewnia, e Wget bdzie dziaa w tle.
Ograniczenie liczby ponawia mona zlikwidowa stosujc -t inf.
+o Sposb uycia FTP jest rwnie prosty. Wget zajmie si nazw zgoszeniow
(login) i hasem.
wget ftp://gnjilux.srk.fer.hr/welcome.msg
+o Jeli podamy katalog, to program pobierze jego listing, przetworzy
go i przeksztaci na HTML. Mona sprbowa:
wget ftp://prep.ai.mit.edu/pub/gnu/
links index.html
Zaawansowane zastosowania
+o Mamy gotowy plik z list URL-i, ktre chcemy pobra? Wystarczy sko-
rzysta z przecznika -i:
wget -i I<plik>
Jeli jako nazw pliku podamy -, to URL-e bd czytane ze standardowego
wejcia.
+o ! Create a five levels deep mirror image of the GNU web site, with
the ! same directory structure the original has, with only one try
per ! document, saving the log of the activities to gnulog:
Stworzymy sigajcy piciu poziomw obraz lustrzany witryny WWW GNU (z
t sam struktur katalogw, jak ma orygina), stosujc tylko jedn prb
pobierania dla kadego dokumentu i zapisujc dziennik pracy do gnu-
log:
wget -r http://www.gnu.org/ -o gnulog
+o To samo co powyej, ale z konwersj odnonikw w plikach HTML tak, eby
wskazyway na lokalne pliki, by mona byo przeglda dokumenty off-
line:
wget --convert-links -r http://www.gnu.org/ -o gnulog
+o Pobranie tylko jednej strony HTML, ale z upewnieniem si, e wszys-
tkie elementy niezbdne do jej wywietlenia (np. wstawione obrazki i
zewntrzne arkusze stylu) rwnie zostan pobrane. Zapewnia te, e cig-
nita strona wskazuje na pobrane odnoniki. Ponadto odnoniki w
pobranej stronie powinny wskazywa na pobrane kopie elementw.
wget -p --convert-links http://www.server.com/dir/strona.html
Wybrana strona HTML zostanie zapisana do
www.server.com/dir/strona.html, a obrazki, arkusze stylu itd. gdzie
w katalogu www.server.com/, zalenie od tego, gdzie znajdoway si na
zdalnym serwerze.
+o Tak samo, jak wyej, ale bez katalogu www.server.com/. W gruncie
rzeczy wcale nie chc tych wszystkich przypadkowych katalogw z serw-
era -- chc po prostu zapisa wszystkie pobrane pliki w podkatalogu
download/ biecego katalogu.
wget -p --convert-links -nH -nd -Pdownload \
http://www.server.com/dir/strona.html
+o Pobranie index.html z www.lycos.com, z pokazaniem oryginalnych,
odebranych od serwera nagwkw:
wget -S http://www.lycos.com/
+o Zapisanie nagwkw serwera w pliku, zapewne do kocowego
przetwarzenia:
wget -s http://www.lycos.com/
more index.html
+o Pobranie pierwszych dwu poziomw wuarchive.wustl.edu, z zapisaniem
ich do /tmp.
wget -r -l2 -P/tmp ftp://wuarchive.wustl.edu/
+o Chcemy cign wszystkie GIF-y z pewnego katalogu serwera HTTP.
Prbowalimy wget http://www.server.com/dir/*.gif, ale nie zadziaao,
bo pobieranie HTTP nie realizuje masek plikw. W takim przypadku
stosujemy:
wget -r -l1 --no-parent -A.gif http://www.server.com/dir/
Wicej pisaniny, ale skutek jest taki sam. -r -l1 oznacza
pobieranie rekurencyjne, z maksymaln gbokoci 1. --no-parent
znaczy, e odwoania do katalogu nadrzdnego maj by ignorowane, a
-A.gif oznacza ciganie tylko plikw GIF. Dziaaoby te -A "*.gif".
+o Zamy, e bylimy w poowie cigania, gdy nagle przerwano prac Wget.
Nie chcielibymy teraz nadpisywa ju obecnych plikw ponownie
ciganymi. Napisalibymy:
wget -nc -r http://www.gnu.org/
+o Do zakodowania swojej nazwy uytkownika i hasa do HTTP lub FTP
uywamy odpowiedniej skadni URL-a.
wget ftp://hniksic:mojehaslo [AT] unix.com/.emacs
Naley jednak zauway, e w systemach wielodostpnych taki sposob uycia
jest niezalecany, poniewa ujawnia haso kademu, kto spojrzy na wynik
dziaania "ps".
A moe chcielibymy, eby dokumenty wynikowe byy kierowane na standar-
dowe wyjcie, a nie zapisywane do plikw?
wget -O - http://jagor.srce.hr/ http://www.srce.hr/
Mona te czy te dwie opcje i tworzy potoki do pobierania dokumentw
ze zdalnych list przebojw:
wget -O - http://cool.list.com/ | wget --force-html -i -
Bardzo zaawansowane zastosowania
+o Jeli chcemy, by Wget utrzymywa lustrzan kopi strony (lub podkata-
logw FTP), stosujemy --mirror (-m), co jest skrconym zapisem dla -r
-l inf -N. Umieszczamy Wget w pliku crontab, dajc, by w kad
niedziel ponawia sprawdzanie orodka:
crontab
0 0 * * 0 wget --mirror http://www.gnu.org/ -o /home/ja/weeklog
+o Dodatkowo mona zayczy sobie konwersji odnonikw, tak by cao nadawaa
si do przegldania lokalnie. Jednak, po przeczytaniu tego podr-
cznika, wiecie ju, e taka konwersja nie sprawuje si dobrze, gdy
wykorzystujemy znaczniki czasu, wic chcemy rwnie, eby Wget utworzy
kopie oryginalnych plikw HTML przed ich przeksztaceniem. Odpowied-
nie Wywoanie wygldaoby tak:
wget --mirror --convert-links --backup-converted \
http://www.gnu.org/ -o /home/ja/weeklog
+o Ale zauwaylicie te, e lokalne przegldanie nie dziaa cakiem
poprawnie, jeli pliki HTML zapisano z innym rozszerzeniem ni .html,
na przykad dlatego, e dostarczono je jako index.cgi. Zatem
chcielibymy, eby Wget wszystkim plikom przekazanym z nagwkiem con-
tent-type rwnym text/html zmieni nazwy na nazwa.html.
wget --mirror --convert-links --backup-converted \
--html-extension -o /home/ja/weeklog \
http://www.gnu.org/
Lub te, piszc krcej:
wget -m -k -K -E http://www.gnu.org/ -o /home/me/weeklog
/etc/wgetrc
Domylne pooenie globalnego pliku startowego.
.wgetrc
Prywatny plik startowy uytkownika.
Zachcamy do przesyania zgosze bdw dotyczcych GNU Wget na adres
<"bug-wget [AT] gnu.org">.
Przed faktycznym przedoeniem zgoszenia bdu, sprbuj, prosz, zastosowa si
do kilku prostych wskazwek.
1. Sprbuj upewni si, e obserwowane zachowanie jest rzeczywicie bdem.
Jeli Wget si wywala, jest to bd. Jeli nie zachowuje si zgodnie z
dokumentacj, jest to bd. Jeli co dziaa dziwnie, ale nie jeste
pewien, w jaki sposb powinno, moe to te by bdem.
2. Sprbuj, prosz, powtrzy ten bd w moliwie najprostszych warunkach.
Np. jeli Wget pada podczas cigania wget -rl0 -kKE -t5 -Y0
http://yoyodyne.com -o /tmp/log, powiniene sprbowa sprawdzi, czy to
wywalanie si jest powtarzalne i czy pojawia si przy prostszym
zestawie opcji. Moesz nawet sprbowa zacz pobieranie od strony, przy
ktrej wystpia awaria i sprawdzi, czy to nie ta strona w jaki sposb
j powoduje.
Ponadto, cho co prawda prawdopodobnie bd zainteresowany zawartoci
twojego pliku .wgetrc, skopiowanie go po prostu do wiadomoci o
bdzie jest raczej zym pomysem. Zamiast tego, powiniene najpierw
sprawdzi, czy bd powtarza si przy .wgetrc przesunitym na ubocze.
Przelij mi odpowiednie fragmenty tego pliku tylko wtedy, gdy okae
si, e bd zaley od ustawie .wgetrc.
3. Uruchom, prosz, Wget z opcj -d i przelij uzyskany protok (lub zwiz-
ane z bdem jego czci). Jeli Wget zosta skompilowany bez obsugi
debugowania, skompiluj go ponownie. Duo atwiej jest ledzi bdy z
udostpnion diagnostyk.
4. jeli Wget si wywala, sprbuj uruchomi go w debugerze, np. "gdb
`which wget` core" i wpisz "where", by otrzyma stos wywoania (back-
trace).
Plik GNU Info dla wget.
Pierwotnie napisane przez Hrvoje Niksic <hniksic [AT] arsdigita.com>.
Copyright (C) 1996, 1997, 1998, 2000, 2001 Free Software Foundation,
Inc.
Zezwala si na sporzdzanie i rozpowszechnianie niezmienionych kopii tego
podrcznika, pod warunkiem zachowania na wszystkich kopiach informacji o
prawach autorskich i niniejszego zezwolenia.
Zezwala si na kopiowanie, rozpowszechnianie i/lub modyfikowanie tego
dokumentu na warunkach Licencji Wolnej Dokumentacji GNU (GNU Free Docu-
mentation License) w wersji 1.1 lub jakiejkolwiek nowszej wersji opub-
likowanej przez Fundacj Wolnego Oprogramowania, przy czym Sekcjami
niezmiennymi s ,,GNU General Public License'' i ,,GNU Free Documenta-
tion License'', bez treci przedniej lub tylnej strony okadki. Egzem-
plarz licencji zamieszczono w sekcji zatytuowanej ,,GNU Free Documenta-
tion License''.
3rd Berkeley Distribution GNU WGet 1.8.2 WGET(1)