Wget

From mmmv_kos
Jump to: navigation, search

Võrk


Lehekülgede rekursiivne kopeerimine

Vaid ühe domeeni, näiteks 1 alamdomeeni, piires toimuv kopeerimine:

nice -n15 time wget --recursive --convert-links --adjust-extension --page-requisites --tries=3 --waitretry=2 --timeout=10 --user-agent=firefox --level=4 http://www.w3schools.com/


Üks domeen, näiteks 1 alamdomeen, + mõned lubatud domeenid:

sama_mis_ühe_domeeni_piires_enne_URLi --span-hosts --domains=www.netlib.org http://www.w3schools.com/


Domeeni-piirangu-vaba kopeerimine, mis tuleb toime eri andmekeskustest kokku serveeritavate lehekülgede salvestamisega:

nice -n15 time wget --recursive --convert-links --adjust-extension --page-requisites  -H --tries=3 --waitretry=2 --timeout=10 --user-agent=firefox --level=4 http://www.w3schools.com/


Probleeme

Kui korraga avatud olevate failide piirang (ulimit nofile parameeter) on vaid 1024, siis osade lehekülgede rekursiivne kopeerimine põrub. Vastumeetmeks on korraga avatud olevate failide arvu limiidi suurendamine.


Väga JavaScript'ist sõltuvate lehekülgede korral tasub uurida, et kas ehk õnnestub originaal-lehekülje rekursiivse kopeerimise asemel teha rekursiivne koopia archive.is koopiast. archive.is korral on omakorda probleemiks, et domeeni piiramine ei toimi, sest kõik on archive.is domeenil.


MediaWiki rekursiivse koopia loomisel tuleb wget lisa-parameetriks panna

--reject *Special*