Zbuduj Download Scheduler z Little Programming Skill

Wszyscy uwielbiamy pobierać materiały z Internetu i jest mnóstwo świetnych narzędzi do zarządzania plikami do pobrania, których możemy użyć do planowania pobierania. Korzystanie z menedżera pobierania może być łatwiejsze, ale nie ma nic złego w odkrywaniu narzędzi, które są już dostępne w naszym Ubuntu i w pełni go wykorzystują.

W tym artykule pokażemy Wbudowane oprogramowanie w Ubuntu, którego możemy użyć do pobrania rzeczy z Internetu za pomocą wget. Oprócz tego pokażemy, jak zaplanować pobieranie za pomocą Cron.

Pobierz za pomocą Wget

Wget jest darmowym pakietem oprogramowania do pobierania plików za pomocą HTTP, HTTPS i FTP, najczęściej używanych protokołów internetowych. Jest to nieinterakcyjne narzędzie wiersza poleceń, więc można je łatwo wywołać ze skryptów, zadań cron, terminali bez obsługi X-Windows itp..

Otwórz terminal i sprawdźmy, jak możemy użyć wget do pobierania rzeczy z sieci. Podstawowa składnia pobierania z wget jest następująca:

wget [opcja] ... [URL] ...

To polecenie spowoduje pobranie instrukcji wget na dysk lokalny

wget http://www.gnu.org/software/wget/manual/wget.pdf

Linux Cron

Ubuntu zawiera demona cron używanego do planowania zadań wykonywanych w określonym czasie. Crontab pozwala określić akcje i czasy ich wykonania. W ten sposób zwykle planujesz zadanie za pomocą narzędzia wiersza poleceń.

Otwórz okno terminalu i wpisz crontab -e.

Każda z sekcji w pliku crontab jest oddzielona spacją, a ostatnia sekcja zawiera jedną lub więcej spacji. Wpis cron składa się z minuty (0-59), godziny (0-23, 0 = północ), dnia (1-31), miesiąca (1-12), dnia roboczego (0-6, 0 = niedziela), polecenia. Trzeci wpis w powyższym crontab pobiera wget.pdf o 2 rano. Pierwszy wpis (0) i drugi wpis (2) oznaczają 2:00. Trzeci do piątego wpisu (*) oznacza dowolną porę dnia, miesiąca lub tygodnia. Ostatni wpis to polecenie wget, aby pobrać plik wget.pdf z podanego adresu URL.

To jest podstawa wget i jak działa Cron. Zróbmy łup na prawdziwym przykładzie, jak zaplanować pobieranie.

Planowanie pobierania

Będziemy pobierać Firefoksa 3.6 o drugiej w nocy. Ponieważ nasz ISP podaje tylko ograniczoną ilość danych, musimy zatrzymać pobieranie o 8 rano. Tak wygląda konfiguracja.

Zignoruj pierwsze 2 wpisy w powyższym pliku crontab. Trzecie i czwarte polecenie są jedynymi 2 poleceniami, których potrzebujesz. Trzecie polecenie konfiguruje zadanie, które pobierze Firefoksa o godzinie 2:

[kod]
0 2 * * * wget -c http://download.mozilla.org/?product=firefox-3.6.6&os=win&lang=en-GB
[/kod]

Opcje -c oznaczają, że wget powinien wznowić istniejące pobieranie, jeśli nie zostało ono zakończone.

Czwarta komenda zatrzyma wget o 8 rano. "Killall" to polecenie unix, które zabija procesy według nazwy.

[kod]
0 8 * * * killall wget
[/kod]

The killall wget mówi Ubuntu, aby powstrzymał wget przed pobraniem pliku o 8 rano.

Inne użyteczne polecenia wget

1. Określanie katalogu do pobrania pliku

[kod]
wget -output-document = / home / zainul / Downloads / wget manual.pdf http://www.gnu.org/software/wget/manual/wget.pdf
[/kod]

opcja -output-document pozwala ci określić katalog i nazwę pobieranego pliku

2. Pobieranie strony internetowej

wget jest również w stanie pobrać stronę internetową.

[kod]
wget -m http://www.google.com/profiles/zainul.franciscus
[/kod]

Powyższe polecenie spowoduje pobranie całej mojej strony internetowej profilu google. Opcja "-m" nakazuje wget pobranie "lustrzanego" obrazu określonego adresu URL.

Inną ważną opcją jest powiedzenie wget, ile linków powinno nastąpić podczas pobierania witryny.

[kod]
wget -r -l1 http://www.google.com/profiles/zainul.franciscus
[/kod]

Powyższe polecenie wget używa dwóch opcji. Pierwsza opcja "-r" mówi wget, aby pobrać rekursywnie określoną witrynę. Druga opcja "-l1" mówi wget, aby uzyskać tylko pierwszy poziom linków z określonej strony. Możemy ustawić do trzech poziomów "-l2" i "-l3".

3. Ignorowanie wejścia robota

Webmaster utrzymuje plik tekstowy o nazwie Robot.txt. "Robot.txt" utrzymuje listę adresów URL, których robot indeksujący strony, taki jak wget, nie powinien przeszukiwać. Możemy powiedzieć wget, aby zignorował plik "Robot.txt" z opcją "-erobots = off". Poniższe polecenie mówi wget, aby pobrać pierwszą stronę mojego profilu google i zignorować plik "Robot.txt".

[kod]
wget -erobots = off http://www.google.com/profiles/zainul.franciscus
[/kod]

Inną przydatną opcją jest -U. Ta opcja maskuje wget jako przeglądarkę. Zauważ, że maskowanie aplikacji jako innej aplikacji może naruszyć termin i usługę dostawcy usług internetowych.

[kod]
wget -erobots = off -U Mozilla http://www.google.com/profiles/zainul.franciscus
[/kod]

Wniosek

Wget jest bardzo starym szkolnym pakietem oprogramowania GNU, który możemy wykorzystać do pobierania plików. Wget to interaktywne narzędzie wiersza poleceń, co oznacza, że możemy pozwolić mu działać na naszym komputerze w tle bez konieczności uruchamiania jakiejkolwiek aplikacji. Sprawdź stronę wget man

[kod]
$ man wget
[/kod]

zrozumieć inne opcje, których możemy użyć z wget.

Spinki do mankietów

Podręcznik Wget
Jak połączyć dwa pobrane pliki Kiedy wget zawodzi w połowie drogi
Linux QuickTip: Pobieranie i rozpakowywanie w jednym kroku